蓝莓题库

中国大学mooc大数据技术导论慕课答案大全-k8凯发

欢迎来访!

k8凯发-凯发官网入口优课联盟问答 正文

作者2023-10-22 06:26:35优课联盟问答 78 ℃0 评论
第一章 大数据概述

第一章单元测验

1、以下说法不正确的是
    a、智能电视不能产生数据
    b、共享单车可以产生数据
    c、ipad可以记录数据
    d、微博即是大数据

2、大数据的特点包括
    a、大量
    b、高速
    c、多样
    d、价值

3、excel这样的工具能够读入并处理大数据

4、大数据的应用领域很多,几乎涉及各行各业。

第二章 大数据的架构

实训一

1、完成附件中要求的实训内容

实训二

1、根据附件要求,完成实训

第三章 大数据的存储

第3章测验

1、数据存储系统能力的提升包括
    a、提升系统的存储容量
    b、提升系统的吞吐量
    c、系统的容错性
    d、提升系统的保密性
    e、提升系统的安全性
    f、提升系统的可用性
    g、提升系统的稳定性

2、大数据存储方式包括
    a、分布式系统
    b、云存储
    c、nosql数据库
    d、单机存储

3、分布式系统常见的数据分布方式
    a、哈希方式
    b、按数据范围分布
    c、按数据量分布
    d、一致性哈希

4、云存储是指通过网络技术、分布式文件系统、服务器虚拟化、集群应用等技术将网络中海量的异构存储设备构成可弹性扩张、低成本、低能耗的共享存储资源池,并提供数据存储访问、处理功能的系统服务。

5、数据仓库是整个数据仓库环境的核心,是数据存放的地方也提供数据检索的支持。它突出的特点是对海量数据的支持,但检索速度慢。

实训三

1、按照附件内容要求完成实训,hive和hbase训练各占45分,思考题占10分

第四章 大数据采集及预处理

实训四

1、按照附件要求完成实训

第五章 大数据的分析

实训五

1、按照附件要求完成实训

期末考查

期末客观题考查

1、关于hdfs,以下说法正确的是
    a、hdfs是一个操作系统
    b、hdfs是一个文件系统
    c、hdfs不是分布式的
    d、hdfs与hadoop无关
    e、hdfs是分布式的
    f、hdfs不能将服务器联合起来

2、查看hdfs具体命令的语句为
    a、hadoop fs
    b、hadoop -fs
    c、hadoop -dir
    d、hadoop dir

3、在hdfs上创建目录的语句是
    a、hadoop fs -mkdir -p /hdfs路径
    b、hadoop -fs -mkdir -p /hdfs路径
    c、hadoop rm -mkdir -p /hdfs路径
    d、hadoop -rm -mkdir -p /hdfs路径

4、在hive中显示数据库中表的语句为
    a、show tables;
    b、use tables;
    c、use tables
    d、drop tables
    e、create tables

5、在hive中create database db_hive;表示的正确意思是
    a、创建数据库db_hive
    b、创建数据表db_hive
    c、添加数据表db_hive
    d、更新数据库db_hive
    e、更新数据表db_hive

6、在hbase中查看表student结构的语句为
    a、desc 'student'
    b、get 'student'
    c、deleteall 'student'
    d、truncate 'student'
    e、dispaly 'student'

7、关于python之requests库的调用语句为
    a、import requests
    b、import request
    c、request.get(url)
    d、requests.get(url)

8、python语句:df.to_excel('zp.xlsx',index=false),关于这一语句以下说法正确的是
    a、将数据表df保存为excel文件
    b、将excel文件读入python数据表df
    c、index=false有与无效果是一样的
    d、index=false表示将索引号存储到excel中
    e、index=false表示不将索引号存储到excel中
    f、将数据表df保存为数据库文件

9、hive中查询表emp中全部数据的语句为
    a、select * from emp;
    b、select id, name from emp;
    c、delete from emp where id = 3;
    d、delete from emp;

10、在linux系统中编辑一个文件的命令为(myfile为文件名):
    a、vi myfile
    b、ls myfile
    c、touch myfile
    d、mkdir myfile

11、hdfs集群中的datanode
    a、负责管理整个文件系统的元数据,以及每一个路径(文件)所对应的数据块信息。
    b、负责管理用户的文件数据块,每一个数据块都可以在多个datanode上存储多个副本。
    c、用来监控hdfs状态的辅助后台程序,每隔一段时间获取hdfs元数据的快照。
    d、用于存储文件,通过目录树来定位文件

12、以下哪些选项属于大数据的4v特征
    a、volume(大量)
    b、velocity(高速)
    c、variety(多样)
    d、value(价值)

13、hadoop的部署方式包括
    a、单节点部署
    b、伪分布式部署
    c、集群部署(完成分布式)
    d、战略部署

14、大数据挖掘常用的算法有
    a、分类
    b、聚类
    c、回归分析
    d、关联规则挖掘
    e、特征分析
    f、人工神经网络
    g、演绎推理
    h、描述统计

15、hive的优点包括
    a、操作接口采用类sql语法,提供快速开发的能力(简单、容易上手)
    b、避免了去写mapreduce,减少开发人员的学习成本。
    c、hive支持用户自定义函数,用户可以根据自己的需求来实现自己的函数。
    d、hive优势在于处理小数据,对于处理大数据没有优势,因为hive的执行延迟比较高。
    e、hive擅长于数据挖掘方面

16、hadoop生态系统包含了用于协助hadoop的不同的子项目(工具)模块,如
    a、sqoop
    b、pig
    c、hive
    d、weka
    e、excel

17、关于hbase,以下说法正确的是
    a、是一个分布式的开源数据库
    b、是一个面向列的开源数据库
    c、适合于非结构化数据存储的数据库
    d、hbase是基于行的模式

18、聚类分析是把一组数据按照差异性和相似性分为几个类别,使得属于同一类的数据之间相似性尽可能小,不同类之间的相似性尽可能大,跨类的数据关联性尽可能低。

19、mapreduce是一个分布式运算程序的编程框架,是用户开发基于hadoop的数据分析应用的核心框架。

20、hadoop2.8版本没有自带的wordcount程序实现词频统计,体验mapreduce的过程

21、在hbase的架构中,一个regionserver可以包含多个hregion,每个regionserver维护一个hlog,和多个hfiles以及其对应的memstore。regionserver运行于datanode上,数量可以与datnode数量一致。

22、hdfs中的文件在物理上是分块存储(block),块的大小可以通过配置参数( dfs.blocksize)来规定,默认大小在hadoop2.x版本中是64m

23、flume是cloudera提供的一个可靠性和可用性都非常高的日志系统,采用分布式的海量日志采集、聚合和传输的系统,支持在日志系统中定制各类数据发送方,用于收集数据;同时,flume具有通过对数据进行简单的处理,并写到各种数据接受方的能力。

24、kafka是一种高吞吐量的分布式发布订阅消息系统,它可以处理大规模的网站中的所有动作流数据。具有高稳定性、高吞吐量、支持通过kafka服务器和消费机集群来分区消息和支持hadoop并行数据加载的特性。

25、高可用性、高可靠性、可扩展性是日志收集系统所具有的基本特征。

26、常用的日志系统有hadoop的chukwa、cloudera的flume、facebook的scrible和linkedin的kafka这些工具大部分采用分布式架构,来满足大规模日志采集的需求。

27、数据集成是将不同应用系统、不同数据形式,在原应用系统不做任何改变的条件下,进行数据采集、转换好储存的数据整合过程。其主要目的是在解决多重数据储存或合并时所产生的数据不一致、数据重复或冗余的问题,以提高后续数据分析的精确度和速度。

28、数据转换(data transfer)时采用线性或非线性的数学变换方法将多维数据压缩成较少维的数据,消除他们在时间、空间、属性及精度等特征表现方面的差异。实际上就是将数据从一种表示形式变为另一种表现形式的过程。

主观题考查

1、写出hive中创建员工表emp的语句。字段名及数据类型如下,以'\t'分隔字段: empno int ename string job string hiredate string sal double

2、一、 根据给定数据完成操作 根据给定数据完成决策树分类分析和apriori关联分析,解读其含义。 二、 操作步骤 (一) 决策树分类(总计20分) 1. 整理数据: 将从日期列中解析出月(以month命名)、时段列(以time命名) 2. 读入数据 3. 分析数据特征: 分析month;time;category;dayofweek;pddistrict;resolution字段 4. 选择决策树算法 5. 将resolution作为分类结果 6. 分析各项指标(本部分占10分): 决策树支点数目: 分类正确率: 平均绝对误差: 混淆矩阵等: (二) apriori关联规则构建(总计15分) 1. 数据整理与读入步骤同上(将数值型数据转换为标称型数据)。 2. 仍然分析month;time;category;dayofweek;pddistrict;resolution字段 3. 将outputitemsets 设置为真,要求在结果中输出数据项集。 4. 分别用以下2种方法产生关联规则。以下关联规则如多于10余,则取前10条进行分析。 (1)最低置信度(confidence)为0.9(默认)的情况下得出的关联规则。 (2)最小提升度(lift)设为1的情况下得出的关联规则。 5. 解读各关联规则的含义(本部分占10分)

3、请你谈谈学习本课程每一部分内容的体会(不少于300字,不多于2000字)

猜你喜欢

  • 2023-10-22 23:22
  • 2023-10-22 23:16
  • 2023-10-22 23:00
  • 2023-10-22 22:53
  • 2023-10-22 22:03
  • 2023-10-22 21:37
  • 2023-10-22 21:33
  • 2023-10-22 21:21
  • 2023-10-22 21:16
  • 2023-10-22 20:49
网站分类
最新发表
标签列表
网站地图