蓝莓题库

中国大学mooc大数据技术基础最新考试答案-k8凯发

欢迎来访!

k8凯发-凯发官网入口医学类题库 正文

作者2022-12-05 15:22:36医学类题库 78 ℃0 评论
课程导引

第1章 大数据概述 1.1大数据的应用 单元作业

1、提出一个“大数据处理”问题需求,简述大数据的应用场景。

第1章 大数据概述 1.2 1.3 单元作业

1、什么是大数据?即大数据的定义

第1章 大数据概述

第1章 大数据概述

1、对“数据处理阶段”描述不正确的是( )。
    a、人工管理阶段
    b、文件管理阶段
    c、文本管理阶段
    d、数据库系统阶段

2、不是大数据的关键技术( )
    a、大数据的组织
    b、大数据的分析
    c、大数据的存储
    d、大数据的可视化

3、大数据的主要特征是( )
    a、大体量
    b、多样性
    c、大价值
    d、随机性

4、数据库系统是由( )的组成。
    a、硬件环境
    b、软件环境
    c、人员
    d、数据库

5、分布式文件系统在物理结构上是由计算机集群中的多个节点构成的。

6、大数据即海量的数据集合。

7、所谓数据库,是以一定的组织方式将相关的数据组织在一起,长期存放在计算机内,可为多个用户共享,与应用程序彼此独立,__________的数据集合。

8、大数据往往表现为数据价值高,但价值__________的特点。

第2章 数据采集与预处理

第2章 数据采集与预处理 单元测验

1、对于一组数据(1,2,2,nan,4),若采用众数法补全缺省值,则nan该补为()
    a、1
    b、1.8
    c、2
    d、4

2、半结构化数据包括()
    a、excel表格
    b、html文档
    c、银行账户上的消费记录
    d、检查身体后得到的体检报告

3、大数据的来源途径有许多,如下哪些属于大数据来源()
    a、计算机网络运行产生的日志
    b、人在微博上发表的记录
    c、传感器设备采集的数据
    d、网络爬虫得到的数据

4、所谓数据的归一化处理,是指把数据变换到[0,1]区间,所以,对于数据1,2,3,4,归一化后得到的值为0.25,0.5,0.75,1

5、数据的平滑操作,其目的在于消除数据波动产生的噪声。

2.4 大数据预处理 单元作业

1、z-score的主要目的就是将不同量级的数据统一转化为同一个量级,统一用计算出的z-score值衡量,以保证数据之间的可比性。 假设两个班级考试,所采用的试卷不同:a班级的平均分是80,标准差是10,a考了90分;b班的平均分是400,标准差是100,b考了600分。 那么利用z-score计算它们的标准分数,看看谁更优秀。

2.2 大数据的来源 单元作业

1、按产生数据的主体划分,大数据主要有哪些来源?

2、数据格式特性,主要包括哪三类?各举例说明。

第3章 hadoop基础

第3章 hadoop基础

1、下述关于hadoop的阐述,正确的是( )
    a、是一个分布式数据库与并行计算系统
    b、是一个分布式存储系统与分布式数据库
    c、是一个集中式存储与分布式并行运算系统
    d、是一个分布式存储与分布式并行运算系统

2、mapreduce是( )计算框架
    a、分布式并发
    b、非分布式并行
    c、分布式并行
    d、非分布式并发

3、为了保证系统的容错性和可用性,hdfs采用了多副本方式对数据进行冗余存储,这种多副本方式具有以下几个优点:( )
    a、容易修改数据问题
    b、加快数据传输速度
    c、保证数据的可靠性
    d、容易检查数据错误

4、hadoop具有以下哪个几个方面的特点( )
    a、高可靠性
    b、高效性
    c、成本低
    d、高可扩展性
    e、支持多种编程语言

5、mapreduce框架采用了master/slave架构,包括一个master和若干个slave。master上运行jobtracker,slave上运行tasktracker 。

6、hdfs采用块的概念,默认的一个块大小是64mb。

7、yarn是新一代hadoop( ),用户可以运行和管理同一个物理集群机上多种作业。

8、hbase是一个针对结构化数据的可申缩、高可靠,高性能、分布式和面向( )的动态模式数据库。

3.1 3.2 单元作业

1、3.2 hadoop2.0相对于hadoop1.0新增加了哪些组件?并简述各组件的作用。

2、3.1 hadoop平台的组件有哪些?并简述每个组件的作用。

第4章 hdfs分布式文件系统

第4章 hdfs分布式文件系统

1、分布式文件系统hdfs 中的 block 默认保存几份?
    a、3 份
    b、2 份
    c、1 份
    d、不确定

2、hdfs是基于流数据模式访问和处理超大文件的需求而开发的,具有高容错、高可靠性、高可扩展性、高吞吐率等特征,适合的读写任务是?
    a、一次写入,少次读写
    b、多次写入,少次读写
    c、一次写入,多次读写
    d、多次写入,多次读写

3、client端上传文件到hdfs上的时候下列正确的是?
    a、数据经过namenode传递给datanode
    b、数据副本将以管道的方式依次传递
    c、client将数据写到一台datanode上,并由client负责完成block复制工作
    d、当某个datanode失败,客户端不会继续传给其它的datanode

4、以下哪个是hdfs java api的常见环境准备?
    a、hadoop环境准备
    b、tomcat环境准备
    c、mysql环境准备
    d、下载系统镜像

5、client在hdfs上进行文件写入时,namenode根据文件大小和配置情况,返回部分datanode信息。根据datanode的地址信息,以下哪个选项负责将文件划分为多个block,按顺序写入到每一个datanode块?
    a、client
    b、namenode
    c、datanode
    d、secondary namenode

6、hdfs集群中的namenode职责包括?
    a、维护hdfs集群的目录树结构
    b、维护hdfs集群的所有数据块的分布、副本数和负载均衡
    c、负责保存客户端上传的数据
    d、响应客户端的所有读写数据请求

7、namenode在启动时自动进入安全模式,在安全模式阶段,说法正确的是?
    a、安全模式目的是在系统启动时检查各个datanode上数据块的有效性
    b、根据策略对数据块进行必要的复制或删除
    c、当数据块最小百分比数满足的最小副本数条件时,会自动退出安全模式
    d、文件系统允许有修改

8、关于hdfs的文件写入,错误的是?
    a、支持多用户对同一文件的写操作
    b、用户可以在文件任意位置进行修改
    c、默认将文件块复制成三份存放
    d、复制的文件块默认都存在同一机架上

9、判断下列语句是否正确 查看目录/usr下的文件列表 hadoop fs -ls /usr

10、数据块的大小可以被修改吗?应当如何修改?

4.1 4.2 单元作业

1、hdfs系统由哪些组件组成?各个组件的作用(功能)是什么?

4.3 单元作业

1、简述hdfs写数据的步骤及错误处理机制。

第5章 mapreduce编程模型

5.1 5.2 单元作业

1、简述mapreduce的特点

2、mapreduce2.0的特点

3、map任务的执行过程

4、reduce任务执⾏过程

第6章 hadoop 2.0的资源管理调度框架——yarn

6.1 6.2 单元作业

1、简述yarn产生是为了解决哪些问题?

2、简述yarn设计思路

6.3 6.4 单元作业

1、简述yarn的工作流程

6.5 单元作业

1、简述yarn的优缺点

第6章 yarn 单元测验

1、结合本章所学yarn的相关知识,简述你对yarn的理解。

第7章 spark计算引擎

7.1 7.2 单元作业

1、简述spark的组成模块,及各模块的功能。

2、简述spark的特点

7.3 单元作业

1、rdd的基本思想是什么?

第7章 单元测验

1、综述:结合第7章spark知识的学习,谈谈你对spark的理解。

第8章 大数据可视化

8.1 8.2 单元作业

1、简述数据开发和数据分析的区别

2、什么是数据分析可视化?

8.3 8.4 单元作业

1、使用python的matplotlib输入以下代码,绘制图形,将所展示的图形截图上传。 注意:截图时务必包括图形的运行框 1.绘制线段图:

第9章 hbase分布式数据库

第9章 hbase分布式数据库-测验

1、在hbase表中,要定位某一单元格并获取其中的值,则需要提供以下信息()。
    a、行键
    b、行键、列
    c、行键、列族、列
    d、行键、列族、列、时间戳

2、在hbase中,创建一张名为“user_c”的表,该表有一个名为“user”的列族,其相应shell命令应该是()。
    a、create ‘user_c’, {name => ‘user’};
    b、create {‘user_c’ => ‘user’};
    c、create ‘user_c’, {name = ‘user’};
    d、create ‘user_c’, {name => ‘user’};

3、关于 hbase 的说明,()是正确的。
    a、hive database 的简称
    b、hbase 是一个具有高可靠性、高性能、面向列、可伸缩的分布式存储系统
    c、hbase 底层的文件系统使用 hdfs
    d、hbase 运用 zookeeper 来管理集群的 master 与各 region server 之间的通信,监控各 region server 的状态,存储各 region 的入口地址。

4、下列选项关于hbase数据表中列族(column family)与列(column)的说法正确的是()。
    a、每一列都归属某一列族。
    b、每一个列族在存储时对应一个文件目录。
    c、列簇必须在创建表的时候定义。
    d、hbase中不可以动态增加列。

5、hbase系统支持多种数据类型。

6、admin的功能不包括获得table对象。

7、hbase依赖()提供强大的集群管理服务。

8、hbase源于google公司的一篇论文,文中描述了一个名为()的分布式存储系统。

第10章 hive数据仓库工具

第10章 hive数据仓库工具测验

1、有hql语句“select * from uc limit 10;”,它的功能是()。
    a、返回表uc中前10条数据的所有字段
    b、返回表uc中后面10条数据的所有字段
    c、返回表uc中第10条数据的所有字段
    d、返回表uc中所有数据的前10个字段

2、下列选项是按数据粒度从大到小排列的hive概念是()。
    a、桶、分区、数据表和数据库
    b、数据库、分区、数据表和桶
    c、分区、数据库、数据表和桶
    d、数据库、数据表、分区和桶

3、下列选项中关于主键和外键的说法错误的是()。
    a、主键是唯一的,外键不唯一
    b、外键的作用是建立表之间的关联
    c、主键可以为空,外键不可为空
    d、hive中的表必须设置严格意义的主键和外键

4、对于hive中分区的概念,下列描述错误的是()。
    a、分区字段只能有一个
    b、分区字段要在创建表时定义
    c、使用分区可以提高查询效率
    d、一个分区中的数据存储在一个文件中

5、hive是一款独立的数据仓库工具,因此在启动前无需启动任何服务。

6、hive不支持数据更新。

7、hive将hql语言转换成作业计划并在()上执行。

8、使用“create()table tn (col1 int, col2 int);”语句创建外部表时,括号中关键字是()。

期中考试

2019-2020学年第二学期 《大数据技术基础》期中考试

1、对“数据处理阶段”描述不正确的是( )。
    a、人工管理阶段
    b、文件管理阶段
    c、文本管理阶段
    d、数据库系统阶段

2、不是大数据的关键技术( )
    a、大数据的组织
    b、大数据的分析
    c、大数据的存储
    d、大数据的可视化

3、对于一组数据(1,2,2,nan,4),若采用众数法补全缺省值,则nan该补为()
    a、1
    b、1.8
    c、2
    d、4

4、下述关于hadoop的阐述,正确的是( )
    a、是一个分布式存储与分布式并行运算系统
    b、是一个分布式数据库与并行计算系统
    c、是一个分布式存储系统与分布式数据库
    d、是一个集中式存储与分布式并行运算系统

5、mapreduce是( )计算框架
    a、分布式并行
    b、分布式并发
    c、非分布式并行
    d、非分布式并发

6、分布式文件系统hdfs 中的 block 默认保存几份?
    a、3 份
    b、2 份
    c、1份
    d、不确定

7、hdfs是基于流数据模式访问和处理超大文件的需求而开发的,具有高容错、高可靠性、高可扩展性、高吞吐率等特征,适合的读写任务是?
    a、一次写入,多次读写
    b、一次写入,少次读写
    c、多次写入,少次读写
    d、多次写入,多次读写

8、client端上传文件到hdfs上的时候下列正确的是?
    a、数据副本将以管道的方式依次传递
    b、数据经过namenode传递给datanode
    c、client将数据写到一台datanode上,并由client负责完成block复制工作
    d、当某个datanode失败,客户端不会继续传给其它的datanode

9、以下哪个是hdfs java api的常见环境准备?
    a、hadoop环境准备
    b、tomcat环境准备
    c、mysql环境准备
    d、下载系统镜像

10、client在hdfs上进行文件写入时,namenode根据文件大小和配置情况,返回部分datanode信息。根据datanode的地址信息,以下哪个选项负责将文件划分为多个block,按顺序写入到每一个datanode块?
    a、client
    b、namenode
    c、datanode
    d、secondary namenode

11、大数据的主要特征是( )
    a、大体量
    b、多样性
    c、大价值
    d、随机性

12、数据库系统是由( )的组成。
    a、硬件环境
    b、软件环境
    c、人员
    d、数据库

13、半结构化数据包括()
    a、excel表格
    b、html文档
    c、银行账户上的消费记录
    d、检查身体后得到的体检报告

14、大数据的来源途径有许多,如下哪些属于大数据来源()
    a、计算机网络运行产生的日志
    b、人在微博上发表的记录
    c、传感器设备采集的数据
    d、网络爬虫得到的数据

15、为了保证系统的容错性和可用性,hdfs采用了多副本方式对数据进行冗余存储,这种多副本方式具有以下几个优点:( )
    a、加快数据传输速度
    b、保证数据的可靠性
    c、容易检查数据错误
    d、容易修改数据问题

16、hadoop具有以下哪个几个方面的特点( )
    a、高可靠性
    b、高效性
    c、成本低
    d、高可扩展性

17、hdfs集群中的namenode职责包括?
    a、维护hdfs集群的目录树结构
    b、维护hdfs集群的所有数据块的分布、副本数和负载均衡
    c、响应客户端的所有读写数据请求
    d、负责保存客户端上传的数据

18、namenode在启动时自动进入安全模式,在安全模式阶段,说法正确的是?
    a、安全模式目的是在系统启动时检查各个datanode上数据块的有效性
    b、根据策略对数据块进行必要的复制或删除
    c、当数据块最小百分比数满足的最小副本数条件时,会自动退出安全模式
    d、文件系统允许有修改

19、关于hdfs的文件写入,错误的是?
    a、支持多用户对同一文件的写操作
    b、用户可以在文件任意位置进行修改
    c、复制的文件块默认都存在同一机架上
    d、默认将文件块复制成三份存放

20、分布式文件系统在物理结构上是由计算机集群中的多个节点构成的。

21、大数据即海量的数据集合。

22、所谓数据的归一化处理,是指把数据变换到[0,1]区间,所以,对于数据1,2,3,4,归一化后得到的值为0.25,0.5,0.75,1

23、数据的平滑操作,其目的在于消除数据波动产生的噪声。

24、mapreduce 1.0框架采用了master/slave架构,包括一个master和若干个slave。master上运行jobtracker,slave上运行tasktracker 。

25、hdfs采用块的概念,默认的一个块大小是64mb。

26、判断下列语句是否正确: 查看目录/usr下的文件列表的命令为: hadoop fs -ls /usr

27、数据块的大小是可以被修改的,通过hdfs-site.xml配置文件可以修改hdfs文件存储块大小。数据块大小应当根据需要保存的文件大小进行设置。如果文件较小,则数据块也应当相应设置为较小值。否则,为保存小文件而分配了大容量数据块会造成磁盘容量的浪费。

28、所谓数据库,是以一定的组织方式将相关的数据组织在一起,长期存放在计算机内,可为多个用户共享,与应用程序彼此独立,__________的数据集合。

29、大数据往往表现为数据价值高,但价值__________的特点。

30、yarn是新一代hadoop( ),用户可以运行和管理同一个物理集群机上多种作业。

猜你喜欢

  • 2022-12-05 21:24
  • 2022-12-05 21:22
  • 2022-12-05 21:21
  • 2022-12-05 21:20
  • 2022-12-05 21:02
  • 2022-12-05 20:47
  • 2022-12-05 20:23
  • 2022-12-05 19:54
  • 2022-12-05 19:12
  • 2022-12-05 18:59
网站分类
最新发表
标签列表
网站地图