尔雅大数据分析与处理-k8凯发

k8凯发-凯发官网入口智慧职教问答正文

作者2022-12-05 21:21:44智慧职教问答 78 ℃0 评论

1.4本章测试

1、【单选题】云计算就是把计算资源都放到( )上。
    a、对等网
    b、因特网
    c、广域网
    d、无线网

2、【单选题】云计算里面面临的一个很大的问题，就是（）
    a、服务器
    b、存储
    c、计算
    d、节能

3、【单选题】云计算是对（）技术的发展与运用
    a、并行计算
    b、网格计算
    c、分布式计算
    d、三个选项都是

4、【单选题】与开源云计算系统hadoophdfs相对应的商用云计算软件系统是（）
    a、googlegfs
    b、googlemapreduce
    c、googlebigtable
    d、googlechubby

5、【单选题】云计算体系结构的（）负责资源管理、任务管理用户管理和安全管理等工作
    a、物理资源层
    b、资源池层
    c、管理中间件层
    d、soa构建层

6、【单选题】被誉为全球未来的三大高科技产业除了塑料电子学和仿生人体器官外，还有()
    a、物联网
    b、数学
    c、经典力学
    d、社会学

7、【单选题】云计算的基础层是（）
    a、iaas 层
    b、paas层
    c、saas层
    d、baas层

8、【单选题】云计算的中间层是（）
    a、iaas 层
    b、paas层
    c、saas层
    d、baas层

9、【多选题】从研究现状上看，下面属于云计算特点的是（）
    a、超大规模
    b、虚拟化
    c、私有化
    d、高可靠性

10、【多选题】云架构包含以下哪些？（）
    a、基础设施层
    b、服务层
    c、应用层
    d、平台层

11、【多选题】大数据具有哪些特征（）
    a、多样化
    b、价值密度低
    c、大量化
    d、快速化

12、【多选题】云k8凯发的解决方案包括（）
    a、云平台开发
    b、云咨询
    c、云迁移
    d、云测试

13、【多选题】大数据催生的三元空间世界包括（）
    a、物理空间
    b、社会空间
    c、数据空间
    d、网络空间

14、【多选题】工业4.0 通过自主控制、联网和计算，使人、机器和信息相互连接，融为一体，包括：（）
    a、智能工厂
    b、智能生产
    c、智能物流
    d、智能金融

15、【多选题】“互联网 ”行动计划重点是促进以（）为代表的新一代信息技术与现代制造业、生产性服务等的融合创新。
    a、云计算
    b、物联网
    c、大数据
    d、云存储

16、【多选题】云计算的三种服务模式
    a、saas
    b、paas
    c、iaas
    d、baas

17、【判断题】云计算可以把普通的服务器或者pc连接起来以获得超级计算机的计算和存储等功能，但是成本更低。

18、【判断题】互联网是技术、是工具，最终会成为全社会的标配。

19、【判断题】“互联网 ”将依靠创新驱动，推动经济结构优化，向产业服务化方向调整。

20、【判断题】物联网与互联网不同，不需要考虑网络数据安全。

2.4本章测试

1、【单选题】mapreduce适用于（）
    a、任意应用程序
    b、任意可在windows servet2008上运行的程序
    c、可以串行处理的应用程序
    d、可以并行处理的应用程序

2、【单选题】pagerank是一个函数,它对web中的每个网页赋予一个实数值，它的意图在于网页的pagerank越高,那么它就（）
    a、相关性越高
    b、越不重要
    c、相关性越低
    d、越重要

3、【单选题】在bigtable中（）主要用来存储子表数据以及一些日志文件
    a、gfs
    b、chubby
    c、sstable
    d、mapreduce

4、【单选题】当不知道数据所带标签时，可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离？（）
    a、分类
    b、聚类
    c、关联分析
    d、隐马尔可夫链

5、【单选题】（）的目的缩小数据的取值范围，使其更适合于数据挖掘算法的需要，并且能够得到和原始数据相同的分析结果。
    a、数据清洗
    b、数据集成
    c、数据变换
    d、数据归约

6、【单选题】单机串行处理1g，url数据需要10分钟，hadoop平台并行处理只需要1分钟，那么加速比为（）
    a、10
    b、20
    c、30
    d、40

7、【多选题】数据挖掘的主要功能包括概念描述、趋势分析、孤立点分析及（）等方面。
    a、挖掘频繁模式
    b、分类和预测
    c、聚类分析
    d、偏差分析

8、【多选题】通过数据挖掘过程所推导出的关系和摘要经常被称为（）
    a、模型
    b、模式
    c、模范
    d、模具

9、【多选题】数据挖掘的预测建模任务主要包括哪几大类问题？（）
    a、分类
    b、回归
    c、模式发现
    d、模式匹配

10、【多选题】大数据分析处理在效果方面的评测方法为：（）
    a、准确率
    b、召回率
    c、f值
    d、丢包率

11、【多选题】hadoop 集群可以运行在（）3个模式。
    a、单机模式
    b、伪分布式模式
    c、完全分布式模式
    d、脱机模式

12、【多选题】大数据处理的5v特点分别是（）和value。
    a、volume
    b、velocity
    c、variety
    d、veracity

13、【多选题】数据中的知识发现由以下步骤迭代序列组成是数据清理、数据集成、数据选择和（）。
    a、数据变换
    b、数据挖掘
    c、模式评估
    d、知识表示

14、【多选题】哪些是大数据分析处理评测方法关于效率方面的量度？
    a、时间复杂度
    b、空间复杂度
    c、吞吐率
    d、加速比

15、【判断题】数据挖掘的主要任务是从数据中发现潜在的规则，从而能更好的完成描述数据、预测数据等任务。

16、【判断题】每个map槽就是一个线程。

17、【判断题】聚类是指将物理或抽象对象的集合分组成为由类似的对象组成的多个类的过程。

18、【判断题】数据取样时，除了要求抽样时严把质量关外，还要求抽样数据必须在足够范围内有代表性。

3.4本章测试

1、【单选题】下面程序负责hdfs数据存储的是（）
    a、namenode
    b、jobtracker
    c、datanode
    d、secondarynamenode

2、【单选题】hadoop1.0默认的调度器策略是（）
    a、先进先出调度器
    b、计算能力调度器
    c、公平调度器
    d、优先级调度器

3、【单选题】若不针对mapreduce编程模型中的key和value值进行特别设置，（）是mapreduce不适宜的运算。
    a、max
    b、min
    c、count
    d、average

4、【单选题】hbase的region组成中，必须要有（）。
    a、storefile
    b、memstore
    c、hfile
    d、metastore

5、【单选题】设计分布式数据仓库hive的数据表时，为取样更高效，一般可以对表中的连续字段进行（）。
    a、分桶
    b、分区
    c、索引
    d、分表

6、【单选题】hdfs默认block size的大小是（）
    a、64mb
    b、128m
    c、32m
    d、1m

7、【单选题】hbase依靠_____存储底层数据。
    a、hdfs
    b、cpu
    c、gpu
    d、内存

8、【单选题】hbase依赖（）提供强大的计算能力。
    a、mapreduce
    b、list
    c、graph
    d、arraylist

9、【单选题】lsm含义是（）。
    a、日志结构合并树
    b、二叉树
    c、红黑树
    d、默克尔树

10、【多选题】下面对hbase的描述哪些是正确的？（）
    a、不是开源的
    b、是面向列的
    c、是分布式的
    d、是一种nosql数据库

11、【多选题】mapreduce与hbase的关系，描述正确的有（）
    a、两者不可或缺，mapreduce是hbase可以正常运行的保证
    b、两者不是强关联关系，没有mapreduce，hbase可以正常运行
    c、mapreduce可以直接访问hbase
    d、它们之间没有任何关系

12、【多选题】下面对lsm结构描述正确的有（）
    a、顺序存储
    b、直接写硬盘
    c、需要将数据flush到磁盘
    d、是一种搜索平衡树

13、【多选题】hadoop的三种运行模式是（）
    a、单机版
    b、伪分布式
    c、分布式
    d、脱机版

14、【多选题】hbase的主要技术特点有（）
    a、列式存储
    b、表数据是稀疏的多维映射表
    c、读写的严格一致性
    d、提供很高的数据读写速度

15、【多选题】hdfs框架中的两类节点是（）
    a、namenode
    b、datanode
    c、mouthnode
    d、yearnode

16、【判断题】hadoop 支持数据的随机读写。

17、【判断题】hbase对于空（null）的列，不需要占用存储空间。

18、【判断题】hbase可以有列，可以没有列族。

19、【判断题】因为hdfs有多个副本，所以namenode是不存在单点问题的。

4.4本章测试

1、【单选题】数据归约的目的是（）
    a、填补数据种的空缺值
    b、集成多个数据源的数据
    c、得到数据集的压缩表示
    d、规范化数据

2、【单选题】下面哪种数据预处理技术可以用来平滑数据,消除数据噪声?（）
    a、数据清理
    b、数据集成
    c、数据变换
    d、数据归约

3、【单选题】顾客的一次购物或者顾客的一个航班订票属于以下哪种类型的数据库（）
    a、关系数据库
    b、异构数据库
    c、事务数据库
    d、多媒体数据库

4、【单选题】对于（）的分析往往需要将特殊的数据预处理方法与分析处理算法集成在一起进行考虑。
    a、多媒体数据库
    b、事务数据库
    c、关系数据库
    d、异构数据库

5、【单选题】（）可以实现数据的共享和透明访问。
    a、关系数据库
    b、事务数据库
    c、多媒体数据库
    d、异构数据库

6、【单选题】度量倾斜数据集最好的度量方式是（）
    a、加权平均
    b、算术平均
    c、中位数
    d、众数

7、【单选题】五数概括用（）进行可视化
    a、散点图
    b、盒图
    c、直方图
    d、条形图

8、【多选题】以下对对象的定性描述的有（）
    a、标称属性
    b、二元属性
    c、数值属性
    d、序数属性

9、【多选题】度量数据的中心趋势包括（）
    a、算术均值
    b、加权均值
    c、截断均值
    d、中位数
    e、众数
    f、中列数

10、【多选题】下列属于不同的有序数据的有（）
    a、时序数据
    b、序列数据
    c、事务数据
    d、空间数据

11、【多选题】度量数据的离中趋势包括（）
    a、方差
    b、极差
    c、百分位数
    d、众数

12、【多选题】遗留数据库是将不同的数据库系统组合在一起，这些数据库可以是（）。
    a、关系的
    b、面向对象的
    c、层次的
    d、网状的

13、【多选题】数据清理技术的主要目的包括（）
    a、试图填充缺失的值
    b、光滑噪声并识别离群点
    c、纠正数据的不一致
    d、方便数据归约

14、【多选题】数据预处理方法包括（）
    a、数据清理
    b、数据可视化
    c、数据变换
    d、数据归约

15、【判断题】互联网数据提供丰富的，分布式的世界范围的联机信息。但这些信息是非结构化的，计算机难以理解这种语义，因此需要对这些数据进行结构化的统一处理。

16、【判断题】孤立点在数据挖掘时总是被视为异常、无用数据而丢弃。

17、【判断题】如果要对数据进行分析和挖掘信息和知识，首先需要将描述的数据特征完整地表示出来。

18、【判断题】离散属性总是具有有限个值。

5.4本章测试

1、【单选题】在spss的基本分析模块中，其作为“以行列表的形式揭示数据之间的关系”的是（）
    a、数据描述
    b、交叉表
    c、相关
    d、多重相关

2、【单选题】一般来说，检验p值低于（），就认为差异效果是明显的，反之则认为差异效果不显著。
    a、1%
    b、5%
    c、10%
    d、50%

3、【单选题】spss statistics的主要功能（）
    a、统计学分析运算
    b、数据挖掘
    c、预测分析
    d、以上全是

4、【单选题】spss statistics 进行数据分析的基本步骤顺序是（） 1 数据预处理 2 数据读入 3 选择合适的算法分析数据 4 查看并输出结果
    a、1234
    b、2134
    c、3124
    d、3214

5、【单选题】在数据中插入变量的操作要用到的菜单是（）
    a、insert variable
    b、insert case
    c、go to case
    d、weight cases

6、【单选题】spss的数据文件后缀名是（）
    a、.sav
    b、.dbf
    c、.exe
    d、.com

7、【单选题】（）是对某个变量不同取值的数量进行统计，以了解变量的取值情况，把握数据的分布特征。
    a、频率分布
    b、描述统计
    c、频率分析
    d、图表构建

8、【单选题】在spss中,下面哪一个不是spss statistics的主要窗口（）
    a、数据视图窗口
    b、变量视图窗口
    c、命令输入窗口
    d、结果输出窗口

9、【单选题】t检验的使用前提不包括（）
    a、连续变量
    b、离散变量
    c、适合小样本
    d、样本服从正态分布

10、【单选题】（）就是将多项指标转化为少数几项综合指标,用综合指标来解释多变量的方差- 协方差结构。
    a、因子分析
    b、聚类分析
    c、主成分分析
    d、线性分析

11、【单选题】在spss的定义中,下面哪一个变量名的定义是错误的（）
    a、abc_c
    b、abc
    c、a_&_a
    d、a_bfg

12、【单选题】在spss数据文件中,下面那一项不属于数据的结构（）
    a、变量类型
    b、变量值说明
    c、数据缺失值情况
    d、数据值

13、【单选题】通常来说,发放了900份问卷,可直接得到的有效问卷有800份,则spss所建立的相关数据文件中的行数为（）
    a、900
    b、600
    c、820
    d、800

14、【单选题】在spss的数据结构中,下面那一项不是“缺失数据”的定义（）
    a、数据缺失
    b、数据不合理
    c、数据明显错误
    d、数据不是科学计数法

15、【单选题】下面哪一个选项不是spss中定义的基本描述统计量（）
    a、均值
    b、方差
    c、标准差
    d、回归函数

16、【单选题】对于spss来说,下面那一项不包括在变量的频数分布内容中（）
    a、频数
    b、百分比
    c、有效百分比
    d、均值

17、【单选题】对于spss来说,能够快捷找到变量数据的异常值的数据预处理方法是（）
    a、排序
    b、分类汇总
    c、变量计算
    d、分组

18、【单选题】在学生的一张数据表中,有平时分数、实验分数和卷面分数,如使用spss计算最终得分,则需要使用spss预处理中的（）
    a、排序
    b、分类汇总
    c、变量计算
    d、分组

19、【单选题】在spss中,当需要选取出满足某一个条件的所有个案,则使用下面的那一项（）
    a、个案选择
    b、个案排序
    c、变量计算
    d、个案计数

20、【单选题】在统计分析中,描述变量的数据离散程度的基本统计量是（）
    a、标准差
    b、偏度
    c、峰度
    d、中位数

6.4本章测试

1、【单选题】下面属于映射数据到新的空间的方法是（）
    a、傅立叶变换
    b、特征加权
    c、渐进抽样
    d、维归约

2、【单选题】下列不是专门用于可视化时间空间数据技术的是（）
    a、等高线图
    b、饼图
    c、曲面图
    d、矢量场图

3、【单选题】可视分析的运行过程可看做是( )的循环过程
    a、数据–>知识–>数据
    b、知识–>数据
    c、数据–>知识
    d、知识–>数据–>知识

4、【单选题】散点图矩阵通过（）坐标系中的一组点来展示变量之间的关系
    a、一维
    b、二维
    c、三维
    d、多维

5、【单选题】关于正态分布,下列说法错误的是（）
    a、正态分布具有集中性和对称性
    b、正态分布的均值和方差能够决定正态分布的位置和形态
    c、正态分布的偏度为0，峰度为1
    d、标准正态分布的均值为0，方差为1

6、【单选题】（）适用于多维数据，且每个维度必须可以排序。
    a、雷达图
    b、曲线图
    c、饼图
    d、直方图

7、【多选题】下面哪些属于可视化高维数据技术（）
    a、矩阵
    b、平行坐标系
    c、星形坐标
    d、chernoff 脸

8、【多选题】下列属于线性的降维方法有（）
    a、pca
    b、lda
    c、局部线性嵌套(lle)
    d、非负矩阵分解(nmf)

9、【多选题】可视化k8凯发的技术支持计算机辅助数据认知的三个基本阶段（）
    a、数据降维
    b、数据记录和表达
    c、数据操作
    d、数据分析

10、【多选题】数据可视化可分为哪三类（）
    a、科学可视化
    b、信息可视化
    c、可视分析学
    d、参数可视化

11、【多选题】数据可视化的5个基本特征：易懂性、专业性和（）
    a、必然性
    b、多维性
    c、片面性
    d、偶然性

12、【多选题】常用的高维数据可视化的数据变换的线性方法有（）
    a、主成分分析(pca)
    b、多维尺度分析(mds)
    c、非负矩阵分解(nmf)
    d、傅里叶变换

13、【多选题】常用的高维数据可视化的数据变换的非线性方法有（）
    a、isomap
    b、局部线性嵌套(lle)
    c、高斯变换
    d、儒科夫斯基变换

14、【多选题】数据可视化的流程包括（）
    a、问题刻画层：概括现实生活中用户遇到的问题
    b、抽象层：抽象相应数据类型的操作
    c、编码层：设计编码和交互方法
    d、实现层：实现算法和交互

15、【判断题】图挖掘技术在社会网络分析中扮演了重要的角色。

16、【判断题】可视化技术对于分析的数据类型通常不是专用性的。

17、【判断题】科学可视化最初被称为“科学计算之中的可视化”。

18、【判断题】鱼眼视图属于焦点上下文技术可视化交互方法。

7.4本章测试

1、【单选题】spark引入了一个称为（）的概念，它是不可变的、容错的、分布式对象集合。
    a、rdd
    b、spark streaming
    c、spark sql
    d、shark

2、【单选题】spark job 默认的调度模式（）
    a、fifo
    b、fair
    c、无
    d、运行指定

3、【单选题】spark 支持的分布式部署方式中哪个是错误的（）
    a、stand alone
    b、spark on mesos
    c、spark on yarn
    d、spark on local

4、【单选题】下面哪个操作肯定是宽依赖（）
    a、map
    b、flatmap
    c、reducebykey
    d、sample

5、【单选题】下面哪个端口不是 spark 自带服务的端口（）
    a、8080
    b、4040
    c、8090
    d、18080

6、【单选题】dataframe 和 rdd 最大的区别（）
    a、科学统计支持
    b、多了 schema
    c、存储方式不一样
    d、外部数据源支持

7、【单选题】下面哪个操作是窄依赖（）
    a、join
    b、filter
    c、group
    d、sort

8、【单选题】关于广播变量，下面哪个是错误的（）
    a、任何函数调用
    b、是只读的
    c、存储在各个节点
    d、存储在磁盘或 hdfs

9、【单选题】下面哪个不是 rdd 的特点（）
    a、可分区
    b、可序列化
    c、可修改
    d、可持久化

10、【多选题】大数据的主要特征表现为（）
    a、商业价值高
    b、数据类型多
    c、处理速度快
    d、数据容量大

11、【多选题】为了满足不同大数据处理场景需求，当前主流的大数据计算框架包括（）
    a、spark实时计算框架
    b、strom流计算框架
    c、giraph图计算框架
    d、mapreduce离线计算框架

12、【多选题】流式大数据处理的三种框架（）
    a、strom
    b、spark
    c、samza
    d、tensorflow

13、【多选题】spark streaming是spark core api的扩展，它支持（）实时数据流的处理。
    a、弹性的
    b、高吞吐的
    c、容错的
    d、硬性的

14、【多选题】storm 的 java api 支持的两种自定义组件配置信息的方式是（）
    a、内置型
    b、外置型
    c、环型
    d、星型

15、【多选题】流数据是（）系列数据项。
    a、连续的
    b、无边界的
    c、快速的
    d、随时间不断变化的

16、【多选题】stream grouping 除了随机分组和字段分组还有（）
    a、全部分组（all grouping）
    b、全局分组（global grouping）
    c、无分组（none grouping）
    d、直接分组（direct grouping）

17、【判断题】storm 的拓扑是对实时计算应用逻辑的封装。

18、【判断题】trident的核心数据模型是“流”（stream），它与普通的拓扑相同。

19、【判断题】一个数据流指的是在分布式环境中并行创建、处理的一组元组（tuple）的无界序列。

20、【判断题】execute 方法负责接收一个元组作为输入，并且使用outputcollector 对象发送新的元组。

8.4本章测试

1、【单选题】某超市研究销售记录数据后发现，买啤酒的人很大概率也会购买尿不湿，这种属于数据挖掘的哪一类问题？（）
    a、关联规则发现
    b、聚类
    c、分类
    d、自然语言处理

2、【单选题】以下属于关联分析的是（）
    a、cpu性能预测
    b、购物篮分析
    c、自动判断鸢尾花类别
    d、股票趋势建模

3、【单选题】置信度（confidence）是衡量兴趣度度量的（）指标。
    a、简洁性
    b、确定性
    c、实用性
    d、新颖性

4、【单选题】apriori 算法的加速过程依赖于以下哪个策略（）。
    a、抽样
    b、剪枝
    c、缓冲
    d、并行

5、【单选题】设x={1，2，3}是频繁项集，则可由x产生（）个关联规则。
    a、4
    b、5
    c、6
    d、7

6、【单选题】购物篮分析中，数据是以（）的形式呈现。
    a、不对称二元变量
    b、不对称一元变量
    c、对称二元变量
    d、对称一元变量

7、【单选题】一个项集满足最小支持度，我们称之为（）
    a、频繁项集
    b、不频繁项集
    c、非空项集
    d、空项集

8、【单选题】事务中出现的项的个数称为（）
    a、事务的宽度
    b、事务的长度
    c、事务的高度
    d、事务的数量

9、【多选题】利用apriori 算法计算频繁项集可以有效降低计算频繁集的时间复杂度。在以下的购物篮中产生支持度不小于3的候选3-项集，在候选2-项集中需要剪枝的是（）。 id项集： 1 面包、牛奶 2 面包、尿布、啤酒、鸡蛋 3 牛奶、尿布、啤酒、可乐 4 面包、牛奶、尿布、啤酒 5 面包、牛奶、尿布、可乐
    a、啤酒、尿布
    b、啤酒、面包
    c、面包、尿布
    d、啤酒、牛奶

10、【多选题】apriori 算法的计算复杂度受（）影响。
    a、支持度阈值
    b、项数（维度）
    c、事务数
    d、事物平均宽度

11、【多选题】由频繁项集产生的强关联规则必须满足（）。
    a、最小支持度
    b、最小置信度和最小相关度
    c、最大置信度和最小相关度
    d、最大置信度和最大相关度

12、【多选题】关联分析中表示关联关系的方法主要有哪两种（）
    a、项集
    b、关联规则
    c、数组
    d、分类规则

13、【多选题】关联规则挖掘的算法主要有哪两种（）
    a、apriori
    b、fp-growth
    c、fifo
    d、sort

14、【判断题】关联规则挖掘过程是发现满足最小支持度的所有项集代表的规则。

15、【判断题】利用先验原理可以帮助减少频繁项集产生时需要探查的候选项个数。

16、【判断题】有些关联规则可信度虽然很高，但支持度却很低，但并不能说明该关联规则使用的机会很小。

17、【判断题】fp-growth 关联规则挖掘算法不用生成候选集。

9.4本章测试

1、【单选题】直线回归系数假设检验，其自由度为（）
    a、n
    b、n-1
    c、n-2
    d、2n-1

2、【单选题】在以下4个散点图中，其中适用于作为线性回归的散点图为（）
    a、1，2
    b、1，3
    c、2，3
    d、3，4

3、【单选题】下列变量之间的关系是函数关系的是（）
    a、已知二次函数y = ax超星学习通2 bx c，其中a，c是已知常数，取b为自变量，因变量是这个函数的判别式⊿ = b超星学习通2 - 4ac
    b、光照时间和果树亩产量
    c、降雪量和交通事故发生率
    d、每亩施用肥料量和粮食产量

4、【单选题】下列变量中，属于负相关的是（）
    a、收入增加，储蓄额增加
    b、产量增加，生产费用增加
    c、收入增加，支出增加
    d、价格下降，消费增加

5、【单选题】对于回归分析，下列说法错误的是（）
    a、在回归分析中，变量间的关系若是非确定关系，那么因变量不能由自变量唯一确定
    b、线性相关系数可以是正的，也可以是负的
    c、回归分析中，如果r超星学习通2 = 1，说明x与y之间完全相关
    d、样本相关系数r在区间（-1，1）

6、【单选题】线性判别分析是一种（）的方法。
    a、降维
    b、升维
    c、二分类
    d、多分类

7、【单选题】变量之间的关系可以分为两大类（）
    a、函数关系与相关关系
    b、线性相关关系和非线性相关关系
    c、正相关关系和负相关关系
    d、简单相关关系和复杂相关关系

8、【单选题】在由n=30的一组样本估计的、包含3个解释变量的线性回归模型中，计算的多重决定系数为0.8500，则调整后的多重决定系数为（）
    a、0.8603
    b、0.8389
    c、0.8655
    d、0.8327

9、【单选题】在多元线性回归模型中，若某个解释变量对其余解释变量的判定系数接近于1，则表明模型中存在（）
    a、异方差性
    b、序列相关
    c、多重共线性
    d、高拟合优度

10、【单选题】关于经济计量模型进行预测出现误差的原因，正确的说法是（）
    a、只有随机因素
    b、只有系统因素
    c、既有随机因素，又有系统因素
    d、a，b，c都不对

11、【多选题】回归分析中按照自变量和因变量的关系类型可以分为（）
    a、线性回归分析
    b、非线性回归分析
    c、一元回归分析
    d、多元回归分析

12、【多选题】线性模型的优点包括（）
    a、形式简单、易于建模
    b、可解释性
    c、引入层级结构或高维映射
    d、线性模型中系数直观表达了各属性在预测中的重要性

13、【判断题】在多元线性回归中，t检验和f检验缺一不可。

14、【判断题】多元线性回归中，可决系数r超星学习通2是评价模型拟合优度好坏的最佳标准。

15、【判断题】回归分析法即将具有相关关系的两个变量之间的数量关系进行测定，通过建立一个数学表达式进行统计估计和预测的研究。

16、【判断题】回归方程总体线性显著性检验的原假设是模型中所有的回归参数同时为零。

17、【判断题】数据分析原则：“如无必要，勿增实体”，即“简单有效原理”。

10.4本章测试

1、【单选题】决策树中不包含一下哪种结点（）
    a、根结点（root node)
    b、内部结点（internal node）
    c、外部结点（external node）
    d、叶结点（leaf node）

2、【单选题】以下不是分类问题的是（）
    a、用户流失模型
    b、身高和体重关系
    c、信用评分
    d、营销响应

3、【单选题】id3算法在分类树构建中，使用哪个度量来进行分类节点（）
    a、gini指标
    b、信息增益
    c、信息增益率
    d、准确率

4、【单选题】分类作为一个两步过程的一般方法。在第二步，我们确定该模型的（）是否可以接受，如果可以，我们就使用该模型对新的数据进行分类
    a、成功率
    b、失败率
    c、准确率
    d、有效率

5、【单选题】当预定义的阈值过高时，会导致（）
    a、树过分复杂
    b、树过分简化
    c、树分枝正常
    d、树完全生长

6、【单选题】根据信息增益来构造决策树的算法是（）
    a、id3决策树
    b、递归
    c、归约
    d、fifo

7、【单选题】我们想在大数据集上训练决策树，为了使用较少时间，可以（）
    a、增加树的深度
    b、增加学习率
    c、减少树的深度
    d、减少树的数量

8、【单选题】数据分类是一个两阶段过程，包括（）和分类阶段。
    a、分析阶段
    b、学习阶段
    c、预测阶段
    d、实验阶段

9、【单选题】决策树容易转换成（）
    a、分类规则
    b、分类阶段
    c、类预测
    d、数据

10、【多选题】解决分类问题的方法包括（）
    a、决策树
    b、贝叶斯
    c、人工神经网络
    d、支持向量机

11、【多选题】（）是预测问题的两种主要类型。
    a、分类
    b、数值预测
    c、分类规则
    d、分类类型

12、【多选题】常见的剪枝方法有（）
    a、先剪枝
    b、后剪枝
    c、不剪枝
    d、归约

13、【判断题】决策树中，每个叶节点表示在一个属性上的测试。

14、【判断题】树是否是严格的二叉树由属性选择度量确定。

15、【判断题】当给定新的训练数据时，这些算法重构从先前训练数据学习得到的决策树，或从头开始学习一棵新树。

16、【判断题】分类的目的是找到每个样本特征到类别的对应法则。

17、【判断题】聚类目的是找到每个样本潜在的类别并将同类别的样本放在一起。

18、【判断题】当对一个事物认知是确定的，这时对应的熵值最大。

11.4本章测试

1、【单选题】当不知道数据所带标签时，可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离？（）
    a、分类
    b、聚类
    c、关联分析
    d、主成分分析

2、【单选题】下列关于层次聚类存在的问题说法正确的是（）
    a、具有全局优化目标函数
    b、group average擅长处理球状的簇
    c、可以处理不同大小簇的能力
    d、max对噪声点和离群点很敏感

3、【单选题】规则{牛奶，尿布}→{啤酒}的支持度和置信度分别为（）
    a、0.4,0.4
    b、0.67,0.67
    c、0.4,0.67
    d、0.67,0.4

4、【单选题】下列（）是属于分裂层次聚类的方法。
    a、min
    b、max
    c、group average
    d、mst

5、【单选题】（）是两个簇的邻近度定义为不同簇的所有点对邻近度的平均值。
    a、堆平均
    b、图平均
    c、数平均
    d、组平均

6、【单选题】相似度矩阵可以用相识度表示还可以用（）表示。
    a、时间
    b、距离
    c、空间
    d、维度

7、【单选题】数据挖掘的经典案例“啤酒与尿布试验”最主要是应用了（）数据挖掘方法。
    a、分类
    b、预测
    c、关联规则分析
    d、聚类

8、【单选题】简单地将数据对象集划分成不重叠的子集,使得每个数据对象恰在一个子集中,这种聚类类型称作（）
    a、层次聚类
    b、划分聚类
    c、非互斥聚类
    d、模糊聚类

9、【单选题】在基本k均值算法里，当邻近度函数采用（）的时候，合适的质心是簇中各点的中位数。
    a、曼哈顿距离
    b、欧几里德距离
    c、余弦距离
    d、bregman散度

10、【单选题】birch是一种（）
    a、分类器
    b、聚类算法
    c、关联分析算法
    d、特征选择算法

11、【多选题】（）这些数据特性都是对聚类分析具有很强影响的。
    a、高维性
    b、规模
    c、稀疏性
    d、噪声和离群点

12、【多选题】以下属于聚类算法的有（）
    a、k-means
    b、dbscan
    c、apriori
    d、knn

13、【多选题】常见的距离度量方法包括（）
    a、欧氏距离
    b、汉明距离
    c、曼哈顿距离
    d、切比雪夫距离

14、【多选题】属性包括的四种类型标称和（）
    a、序数
    b、区间
    c、比率
    d、斜率

15、【多选题】组平均是一种界于（）之间的折中方法。
    a、单链
    b、全链
    c、单表
    d、全表

16、【判断题】从点作为个体簇开始，每一步合并两个最接近的簇，这是一种分裂的层次聚类方法。

17、【判断题】数据挖掘的目标不在于数据采集策略，而在于对已经存在的数据进行模式的发掘。

18、【判断题】全链对噪声点和离群点很敏感。

19、【判断题】k均值可以很好的处理不同密度的数据。

12.4本章测试

1、【单选题】人工神经网络的英文（）
    a、ann
    b、bnn
    c、cnn
    d、dnn

2、【单选题】学习过程由信号的正向传播与误差的反向传播两个过程组成，由于多层前馈网络的训练经常采用误差反向传播算法，因此人们将多层前馈网络称为（）
    a、ap
    b、bp
    c、cp
    d、dp

3、【单选题】神经网络是一种运算模型，由大量的节点（或称神经元）之间相互联接构成。每个节点代表一种特定的输出函数，称为（）
    a、刺激函数
    b、激励函数
    c、反馈函数
    d、回馈函数

4、【单选题】人工神经网络是模拟（）进行信息处理的一种数学模型。
    a、生物神经网络
    b、互联网报文传输
    c、无线电传输
    d、交变电流传输

5、【单选题】神经网络基本结构（）
    a、神经元
    b、微元
    c、电子元
    d、纳米元

6、【单选题】神经网络的三层感知器除了输入层、输出层，还有（）
    a、明层
    b、暗层
    c、显层
    d、隐层

7、【单选题】常用的训练方式，除了监督学习和无监督学习，还有（）
    a、强化学习
    b、自主学习
    c、怠惰学习
    d、放弃学习

8、【单选题】单个神经元的动作特征是（）
    a、空间相加性
    b、时间相加性
    c、阈值作用
    d、以上都是

9、【单选题】神经网络发展大致经历过（）个阶段
    a、1
    b、2
    c、3
    d、4

10、【多选题】人工神经网络的基本特征有（）
    a、非线性
    b、非局限性
    c、非常定性
    d、非凸性

11、【多选题】根据链接的拓扑结构，神经网络模型可以分为哪两种？（）
    a、前向网络
    b、反馈网络
    c、后向网络
    d、无反馈网络

12、【多选题】下面属于bp的优点的是（）
    a、非线性映射能力
    b、自学习和自适应能力
    c、泛化能力
    d、容错能力

13、【多选题】下面属于bp的缺点的是（）
    a、bp神经网络算法的收敛速度慢
    b、bp神经网络结果选择不一
    c、适应大部分数据训练模式
    d、bp网络不会受到训练能力影响

14、【多选题】重要的人工神经网络算法包括（）
    a、感知器神经网络（perceptron neural network）
    b、反向传递（back propagation）
    c、hopfield网络
    d、自组织映射（self-organizing map, som）

15、【多选题】以下关于神经网络说法正确的有（）
    a、神经网络可以实现非线性分类
    b、神经网络可以实现线性分类
    c、神经网络的每层神经元激活函数必须相同
    d、神经网络的每层神经元激活函数值阈必须在[-1,1]

16、【多选题】人工神经网络可以看做由哪三种基本元素组成（）
    a、一个连接
    b、一个加法器
    c、一个减法器
    d、一个激励函数

17、【多选题】bp网络学习过程的四个部分（）
    a、输入模式顺传播
    b、输出误差逆传播
    c、循环记忆训练
    d、学习结果判别
    e、反向输出传播

13.4本章测试

1、【单选题】神经网络由许多神经元（neuron）组成，每个神经元接受一个输入，处理它并给出一个输出。下列关于神经元的陈述中正确的是（）
    a、一个神经元只有一个输入和一个输出
    b、一个神经元有多个输入和一个输出
    c、一个神经元有一个输入和多个输出
    d、上述都对

2、【单选题】在一个神经网络里，知道每一个神经元的权重和偏差是最重要的一步。如果以某种方法知道了神经元准确的权重和偏差，你就可以近似任何函数。实现这个最佳的办法是（）
    a、随机赋值，祈祷它们是正确的
    b、搜索所有权重和偏差的组合，直到得到最佳值
    c、赋予一个初始值，通过检查跟最佳值的差值，然后迭代更新权重
    d、以上都不正确

3、【单选题】什么情况下神经网络模型被称为深度学习模型？（）
    a、加入更多层，使神经网络的深度增加
    b、有维度更高的数据
    c、当这是一个图形识别的问题时
    d、以上都不正确

4、【单选题】下列哪一种操作实现了和神经网络中dropout类似的效果？（）
    a、bagging
    b、boosting
    c、堆叠（stacking）
    d、以上都不正确

5、【单选题】下列哪哪一项在神经网络中引入了非线性？（）
    a、随机梯度下降
    b、修正线性单元（relu）
    c、卷积函数
    d、以上都不正确

6、【单选题】下列哪项关于模型能力（model capacity）的描述是正确的？（指模型能近似复杂函数的能力）（）
    a、隐层层数增加，模型能力增加
    b、dropout的比例增加，模型能力增加
    c、学习率增加，模型能力增加
    d、都不正确

7、【单选题】下列哪一种架构有反馈连接？（）
    a、循环神经网络
    b、卷积神经网络
    c、限制玻尔兹曼机
    d、都不是

8、【单选题】假设你需要改变参数来最小化代价函数（cost function），可以使用下列哪项技术？（）
    a、穷举搜索
    b、随机搜索
    c、bayesian优化
    d、以上任意一种

9、【多选题】在神经网络中，以下哪种技术用于解决过拟合？（）
    a、dropout
    b、正则化
    c、非正则化
    d、fifo

10、【多选题】下列哪些神经网络结构会发生权重共享？（）
    a、卷积神经网络
    b、全连接神经网络
    c、循环神经网络
    d、以上全部

11、【判断题】当在卷积神经网络中添加池化层(pooling layer)时，变换的不变性保持稳定，这样的理解是否正确？

12、【判断题】增大卷积核的大小必然会提高卷积神经网络的性能。

13、【判断题】卷积神经网络可以对一个输入完成不同种类的变换（旋转或缩放）。

14、【判断题】如果增加多层感知机（multilayer perceptron）的隐层层数，测试集的分类错误会减小。

15、【判断题】可以用神经网络对函数(y=1/x)建模。

16、【判断题】在监督学习任务中，输出层中的神经元的数量应该与类的数量（其中类的数量大于2）匹配。

17、【判断题】　y = ax超星学习通2 bx c（二次多项式）这个方程可以用具有线性阈值的单个隐层的神经网络表示。

14.4本章测试

1、【单选题】以下不属于数据挖掘软件的是（）
    a、spss modeler
    b、weka
    c、apache spark
    d、knime

2、【单选题】若想用图表显示评估模型时每个预测变量的相对重要性应该选择（）选项卡。
    a、模型
    b、查看器
    c、摘要
    d、注解

3、【单选题】chaid建模节点生成模型。在建模节点的字段选项卡中，已选中使用预定义角色，这意味着（）
    a、将使用在类型节点中指定的目标字段和输入字段
    b、使用在类型节点中的任意字段
    c、拆分字段
    d、无操作

4、【多选题】spss modeler变量状态有（）
    a、实例化
    b、非实例化
    c、半实例化
    d、不实例化

5、【多选题】数据的横向合并的联接方式包括（）
    a、内连接
    b、全外连接
    c、局部外连接
    d、反连接

6、【多选题】数据精简包括（）
    a、从压缩样本入手
    b、从压缩变量取值入手
    c、从压缩变量个数入手
    d、从删除数据个数入手

7、【多选题】为了便于得到相对准确的模型误差估计，将全部样本随机划分成两个子集，即（）
    a、随机集
    b、自选集
    c、训练集
    d、测试集

8、【多选题】非平衡样本的处理包括（）
    a、过抽样
    b、欠抽样
    c、不抽样
    d、全选样

9、【多选题】spss支持哪些数据源（）
    a、excel
    b、关系型数据库
    c、hadoop的数据
    d、ibm planning analytics

10、【多选题】spss modeler 可帮助我们（）
    a、充分利用基于开源的创新，包括 r 或 python
    b、支持拥有不同技能（编程和可视化）的数据研究员
    c、开发混合方法 — 在本地、公共云或私有云中
    d、从小规模开始，扩展至企业级监管方法

11、【判断题】属性的性质不必与用来度量他的值得性质相同。

12、【判断题】对于非对称得属性，只有非零值才是重要的。

13、【判断题】spss modeler 只需运行一次即可测试多种建模方法、比较结果并选择要部署的模型。

14、【判断题】spss modeler 提供多种机器学习技术，包括分类、分段和关联算法。

15、【判断题】spss modeler 通过分析非结构化文本数据捕获关键概念、主题、观点和趋势。

16、【判断题】借助 ibm spss modeler，企业可以满足客户需求，构建正确的产品并调整业务需求，同时缩短从构思到实验再到生产所需的时间。

上一篇：
下一篇：中国大学mooc药品检验技术最新考试答案

尔雅大数据分析与处理-k8凯发

k8凯发-凯发官网入口智慧职教问答 正文

猜你喜欢

k8凯发-凯发官网入口智慧职教问答正文