1.3章节小测 1、【单选题】大数据的核心就是()
a、告知与许可
b、预测
c、匿名化
d、规模化
2、【单选题】大数据不是要教机器像人一样思考。相反,它是()
a、把数学算法运用到海量的数据上来预测事情发生的可能性。
b、被视为人工智能的一部分。
c、被视为一种机器学习。
d、预测与惩罚。
3、【单选题】采样分析的精确性随着采样随机性的增加而(),但与样本数量的增加关系不大。
a、降低
b、不变
c、提高
d、无关
4、【单选题】大数据是指不用随机分析法这样的捷径,而采用()的方法
a、所有数据
b、绝大部分数据
c、适量数据
d、少量数据
5、【单选题】大数据的简单算法与小数据的复杂算法相比()
a、更有效
b、相当
c、不具备可比性
d、无效
6、【单选题】相比依赖于小数据和精确性的时代,大数据因为更强调数据的(),帮助我们进一步接近事实的真相。
a、安全性
b、完整性
c、混杂性
d、完整性和混杂性
7、【单选题】大数据的发展,使信息技术变革的重点从关注技术转向关注()
a、信息
b、数字
c、文字
d、方位
8、【单选题】大数据时代,我们是要让数据自己“发声”,没必要知道为什么,只需要知道()
a、原因
b、是什么
c、关联物
d、预测的关键
9、【单选题】建立在相关关系分析法基础上的预测是大数据的()
a、基础
b、前提
c、核心
d、条件
10、【单选题】()下列说法正确的是
a、有价值的数据是附属于企业经营核心业务的一部分数据;
b、数据挖掘它的主要价值后就没有必要再进行分析了;
c、所有数据都是有价值的;
d、在大数据时代,收集、存储和分析数据非常简单;
2.5章节小测 1、【单选题】鸢尾属植物(iris)数据集包括多种具有不同萼片(sepal)长度的花,如多刚毛类(setosa)、杂色类(versicolor)和维尔吉尼卡(virginica)等。现在,我们想分析所有鸢尾属花的萼片长度分布。其中之一的解决方法是通过下面所示的图可视化它们之间的关系。
a、哪个函数能够用于创建上文所示的图?
b、xyplot()
c、stripplot()
d、barchart()
e、bwplot()
2、【单选题】以下哪个函数用于以电子表格格式观察数据集?
a、disp()
b、view()
c、seq()
d、以上全部
3、【单选题】r运行中的大部分工作都使用系统内存,如果同时采用大的数据集,当r的工作空间不能保证所有的r对象都保持在内存中时问题就出现了。在这样的情况下,移除无用的对象是一种解决方法。下面命令中的哪个或哪些可以从工作空间中移除r对象或变量“santa”?
a、remove(santa.
b、rm(santa.
c、上面全部
d、都不是
4、【单选题】“dplyr”是r中最流行的工具包之一,它包括5个核心数据处理函数。下面选项中的哪一个不是dplyr中的核心函数?
a、select()
b、filter()
c、arrange()
d、summary()
5、【单选题】以下命令的输出是什么?grepl(“neeraj”,c(“dheeraj”,”neeraj”,”neeraj”,”is”,”neeraj”))
a、[false true true false true]
b、[false true true false false]
c、[false false true false false]
d、none of the above
6、【单选题】作为从事文本数据工作的数据科学家,我们有时会遇到这样一些情况,即发现某个不需要的单词多次出现。以下就是一个此类的字符串。
a、-c("i can use because thrice in a sentence because because is a special word.")
b、gsub(“because”,”since”,a.
c、sub(“because”,”since”,a.
d、regexec(“because”,”since”,a.
e、none of the above
7、【单选题】想象一个通过以下代码创建的数据框。以下哪个命令能够在这两列上帮助我们删除重复行?
a、df[!duplicated(df),]
b、unique(df)
c、dplyr::distinct(df)
d、all of the above
8、【单选题】分组(grouping)是数据分析中的一项重要活动,它可以帮助我们发现一些有趣的趋势,这些趋势在原始数据中可能并不易被发现。
a、你有一个由以下代码行创建的数据集。table<-data.table(foo= c("a","b","a","a","b","a"),bar=1:6)。以下哪个命令能帮我们计算出由foo变量分组的bar变量的平均值?
b、aggregate(bar~foo,table,mean)
c、table::df[,mean(bar),by=foo]
d、dplyr::table%>%group_by(foo)%>%summarize(mean=mean(bar))
e、all of the above
9、【单选题】如果我有两组矢量x < - c(1,3,5)和y <-c(3,2),那么,cbind(x,y)将产生什么?
a、一个两列三行的矩阵
b、一个三列两行的矩阵
c、一个两列三行的数据框
d、一个三列两行的数据框
3.9章节小测 1、【判断题】bp(back propagation)神经网络是1986年由rumelhart和mcclelland为首的科学家提出的概念,是一种按照误差逆向传播算法训练的多层前馈神经网络,是目前应用最广泛的神经网络。
2、【判断题】神经网络按结构只有前馈网络,没有反馈网络
3、【判断题】拉格朗日插值补值是一种缺失值进行插补的方法
4、【判断题】cart分类回归树是一种典型的二叉决策树,可以做分类或者回归。
5、【判断题】如果待预测结果是离散型数据,则cart生成分类决策树;如果待预测结果是连续型数据,则cart生成回归决策树。
4.6章节小测 1、【单选题】某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的哪类问题?(a)
a、关联规则发现
b、聚类
c、分类
d、自然语言处理
2、【单选题】将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务?(c)
a、频繁模式挖掘
b、分类和预测
c、数据预处理
d、数据流挖掘
3、【单选题】使用交互式的和可视化的技术,对数据进行探索属于数据挖掘的哪一类任务?(a)
a、探索性数据分析
b、建模描述
c、预测建模
d、寻找模式和规则
4、【单选题】为数据的总体分布建模;把多维空间划分成组等问题属于数据挖掘的哪一类任务?(b)
a、探索性数据分析
b、建模描述
c、预测建模
d、寻找模式和规则
5.7章节小测 1、【单选题】当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离?(提示:b)
a、关联规则发现
b、聚类
c、关联分析
d、隐马尔可夫链
2、【单选题】什么是kdd? (提示:a)
a、数据挖掘与知识发现
b、领域知识发现
c、文档知识发现
d、动态知识发现
3、【单选题】以下哪种方法不属于特征选择的标准方法: (提示:d)
a、嵌入
b、过滤
c、包装
d、抽样
4、【单选题】简单地将数据对象集划分成不重叠的子集,使得每个数据对象恰在一个子集中,这种聚类类型称作( 提示:b )
a、层次聚类
b、划分聚类
c、非互斥聚类
d、模糊聚类
6.7章节小测 1、【判断题】svm是一种二类分类模型。它的基本模型是在特征空间中寻找间隔最大化的分离超平面的线性分类器。
2、【判断题】支持向量机中,几何间隔和函数间隔是一样的
3、【判断题】线性可分支持向量机利用间隔最大化求得最优分离超平面
4、【判断题】当样本在原始空间线性不可分时,可将样本从原始空间映射到一个更高维的特征空间,使得样本在这个特征空间内线性可分。
7.7章节小测 1、【单选题】下面哪种不属于数据预处理的方法? (提示:d)
a、变量代换
b、离散化
c、聚集
d、估计遗漏值
2、【单选题】下面不属于创建新属性的相关方法的是: (提示:b)
a、特征提取
b、特征修改
c、映射数据到新的空间
d、特征构造
3、【单选题】熵是为消除不确定性所需要获得的信息量. 投掷均匀正六面体骰子的熵是: (提示:b)
a、1比特
b、2.6比特
c、3.2比特
d、3.8比特
4、【单选题】考虑文字背后语义关联的是(提示:d)
a、tf(词频)
b、tf-idf(词频-逆向文档频率)
c、tf,tf-idf
d、lda主题模型
8.7章节小测 1、【判断题】数据的标准化(normalization)是将数据按比例缩放,使之落入一个小的特定区间。
2、【判断题】层次聚类是属于监督学习
3、【判断题】数据标准化有规范化方法、正规化方法和归一化方法
4、【判断题】层次聚类方法的基本思想是:通过某种相似性测度计算节点之间的相似性,并按相似度由高到低排序,逐步重新连接个节点。
猜你喜欢 2022-12-05 20:41 2022-12-05 20:22 2022-12-05 20:08 2022-12-05 20:04 2022-12-05 19:37 2022-12-05 19:35 2022-12-05 19:32 2022-12-05 19:11 2022-12-05 19:02 2022-12-05 18:42