蓝莓题库

中国大学mooc数据分析初步(崔峰)作业答案查询-k8凯发

欢迎来访!

k8凯发-凯发官网入口通识课问答 正文

作者2022-12-05 11:34:50通识课问答 78 ℃0 评论
【第〇周】数据分析之前奏

课后习题

1、下列关于数据和数据分析的说法正确的是( )
    a、数据就是数据库中的表格
    b、文字、声音、图像这些都是数据
    c、数据分析不可能预测未来几天的天气变化
    d、数据分析的数据只能是结构化的

2、下列关于数据分析流程的说法错误的是( )
    a、需求分析是数据分析最重要的一部分
    b、数据预处理是能够建模的前提
    c、分析与建模时只能够使用数值型数据
    d、模型评价能够评价模型的优劣

3、下列关于分析与建模流程的说法错误的是( )
    a、传统的统计分析对比分析不属于分析与建模流程
    b、分析与建模的模型选择要根据需要确定
    c、分析与建模时可以选择多个模型,同时分析
    d、分析与建模工作是数据分析的核心

4、下列关于模型评价与优化的说法正确的是( )
    a、模型构建完成就可以使用
    b、模型评价的目的是为了确认模型的有效性
    c、模型评价结果良好,模型一定可用,不需要重构
    d、所有的模型评价方法相同

5、下列不属于数据分析应用场景的是( )
    a、产品销量分析
    b、码头货物吞吐量预测
    c、计算机硬盘使用寿命预测
    d、某人一生的命运预测

6、下列不属于python优势的是( )
    a、语法简洁,程序开发速度快
    b、拥有大量的第三方库,能够调用c、c 、java语言
    c、程序的运行速度在所有计算机语言中最快
    d、开源免费

7、jupyter notebook不具备的功能是( )。
    a、jupyter nobook可以直接生成一份交互式文档
    b、jupyter notebook可以安装python库
    c、jupyter notebook可以导出html文件
    d、jupyter notebook可以将文件分享给他人

8、下列关于jupyter notebook的描述错误的是( )。
    a、jupyter notebook有两种模式
    b、jupyter notebook有两种单元形式
    c、jupyter notebook markdown无法使用latex语法
    d、jupyter notebook仅仅支持python语言

9、下列关于python数据分析库的描述错误的是( )。
    a、numpy的在线安装不需要其他任何辅助工具
    b、scipy 的主要功能是可视化图表
    c、pandas能够实现数据的整理工作
    d、scikit-learn 包含所有算法

10、下列属于anaconda主要特点的是( )。
    a、包含了众多流行的科学、数学、工程、数据分析的python包
    b、完全开源和免费
    c、支持python2.6.2.7. 3.4、3.5、3.6, 可自由切换
    d、额外的加速和优化是免费的

第5章实训

1、根据附件中的数据,完成课本《python数据分析与应用》164页的实训1-3。 请认真阅读注意事项: 所有的文本与代码都在notebook里,不要写在word中,其中的文字内容可以通过markdown语言来书写。 文章应该有标题,可自拟。 因为要互评,不要出现个人信息,如姓名学号之类。 在书写时,要注意到这是一篇文章,要有完整的结构与有意义的叙述,不要只是代码的堆砌。 如果有同学已经自学了更多的相关技术,或是前几章的技术,只要合适使用的,也非常欢迎填加进来,丰富文章内容,尤其这是最后一次作业,欢迎大家在完成基本任务的前提进行扩充。 一定要自己书写,不要抄袭,如果有同学在批改中发现有人抄袭,就告知我。

【第一周】数据分析之表示

课后习题

1、下列不属于数组属性的是( )。
    a、ndim
    b、shape
    c、size
    d、add

2、以下最能体现ufunce函数特点的是( )。
    a、又叫通用函数
    b、对数组里的每一个元素逐一-操作
    c、对整个数组进行操作
    d、数组里的元素都是相同类型的

3、创建一个3x3的数组,下列代码中错误的是( )。
    a、np.arange(0,9).reshape(3,3)
    b、np.eye(3)
    c、np.random.random([3,3,3])
    d、np.mat("1 2 3; 4 5 6; 7 8 9")

4、numpy提供的两种基本对象是( )。
    a、array
    b、ndarray
    c、ufunc
    d、matrix

5、下面描述属于广播机制的是( )。
    a、让所有的输入数组都向其中shape最长的数组看齐,shape 中不足的部分通过在前面加1补齐
    b、输出数组的shape是输人数组shape的各个轴上的最大值
    c、如果输人数组的某个轴和输出数组的对应轴的长度相同或者其长度为1,则这个数组能够用来计算,否则出错
    d、当输入数组的某个轴的长度为1时,沿着此轴运算时都用此轴上的第一组值

【第二周】数据分析之展示

课后习题

1、以下关于绘图标准流程说法错误的是( )。
    a、绘制最简单的图形可以不用创建画布
    b、添加图例可以在绘制图形之前
    c、添加x轴、y轴的标签可以在绘制图形之前
    d、修改x轴标签、y轴标签和绘制图形没有先后

2、下列参数中调整后显示中文的是( )。
    a、lines.linestyle
    b、lines.linewidth
    c、font.sans-serif
    d、axes.unicode_minus

3、下列代码中绘制散点图的是( )。
    a、plt.scatter(x,y)
    b、plt.plot(x, y)
    c、plt.legend('upper left')
    d、plt.xlabel('散点图)

4、下列字符串表示plot线条颜色、点的形状和类型为红色五角星点短虚线的是( )。
    a、'bs-'
    b、'go-.'
    c、'r -.'
    d、'r*:'

5、下列说法正确的是( )。
    a、散点图不能在子图中绘制
    b、散点图的x轴刻度必须为数值
    c、折线图可以用作查看特征间的趋势关系
    d、箱线图可以用来查看特征间的相关关系

【第三周】数据分析之概要

pandas习题

1、下列关于pandas数据读/写说法错误的是( )
    a、read_csv能够读取所有文本文档的数据
    b、read_sql能够读取数据库的数据
    c、to_csv函数能够将结构化数据写.csv文件
    d、to_excel函数能够将结构化数据写入excel文件

2、下列loc、 iloc. ix属性的用法正确的( )
    a、df.loc['列名','索引名']; df.iloc['索引位置','列位置']; df.ix['索引位置','列名']
    b、df.loc['索引名','列名']; df.iloc['索引位置','列名']; df.ix['索引位置','列名']
    c、df.loc['索引名','列名']; df.iloc['索引位置','列名']; df.ix['索引名', '列位置']
    d、df.loc['索引名','列名']; df.iloc['索引位置','列位置']; df.ix['索引位置', '列位置']

3、下列关于时间相关类错误的是( )。
    a、timestamp 是存放某个时间点的类
    b、period 是存放某个时间段的类
    c、timestamp数据可以使用标准的时间字符串转换得来
    d、两个数值上相同的period和timestamp所代表的意义相同

4、下列关于groupby方法说法正确的是( )。
    a、groupby 能够实现分组聚合
    b、groupby 方法的结果能够直接查看
    c、groupby是pandas提供的一个用来分组的方法
    d、groupby方法是pandas提供的一个用来聚合的方法

5、下列关于apply方法说法正确的是( )。
    a、apply方法是对dataframe每一 个元素应用某个函数的
    b、apply 方法能够实现所有aggregate方法的功能
    c、apply 方法和map方法都能够进行聚合操作
    d、apply 方法只能够对行列进行操作

6、下列关于分组聚合的说法错误的是( )。
    a、pandas 提供的分组和聚合函数分别只有一个
    b、pandas分组聚合能够实现组内标准化
    c、pandas 聚合时能够使用agg、apply、 transfom 方法
    d、pandas 分组函数只有一个groupby

7、使用pivot_table函数制作透视表用下列( )参数设置行分组键。
    a、index
    b、raw
    c、values
    d、data

8、使用其本身可以达到数据透视功能的函数是( )。
    a、groupby
    b、transform
    c、crosstab
    d、pivot_table

9、数据质量包含的要素有( )。
    a、准确性、 完整性
    b、一致性、可解释性
    c、时效性、可信性
    d、以上所有要素

10、以下关于教据分析预处理的过程描述正确的是( )。
    a、数据清洗包含了数据标准化、数据合并和缺失值处理
    b、数据合并按照合并轴方向主要分为左连接、右连接、内连接和外连接
    c、数据分析的预处理过程主要包括数据清洗、数据合并、数据标准化和数据转换,它们之间存在交叉,没有严格的先后关系
    d、数据标准化的主要对象是类别型的特征

11、有一份数据,需要查看数据的类型,并将部分数据做强制类型转换,以及对数值型数据做基本的描述性分析。下列的步骤和方法正确的是( )
    a、dypes 查看类型,asype转换类别,describe 描述性统计
    b、astype 查看类型,dtypes 转换类别、describe 描述性统计
    c、describe 查看类型,astype 转换类别,dtypes 描述性统计
    d、dtypes查看类型,describe转换类别,astype 描述性统计

12、下列关于concat函数、append方法、merge函数和join方法的说法正确的是( )。
    a、concat 是最常用的主健合并的函数,能够实现内连接和外连接
    b、append 方法只能用来做纵向堆叠,适用于所有纵向堆叠情况
    c、merge是最常用的主键合并的函数,但不能够实现左连接和右连接
    d、join 是常用的主键合并方法之一, 但不能够实现左连接和右连接

13、以下关于drop_duplicates函数的说法中错误的是( )。
    a、仅对dataframe和series类型的数据有效
    b、仅支持单一特征的数据去重
    c、数据重复时默认保留第一个数据
    d、该函数不会改变原始数据排列

14、以下关于缺失值检测的说法中,正确的是( )。
    a、null 和notnull可以对缺失值进行处理
    b、dropna方法既可以删除观测记录,亦可以删除特征
    c、fillna方法中用来替换缺失值的值只能是数据框
    d、pandas库中的interpolate模块包含了多种插值方法

15、以下关于异常值检测的说法中错误的是( )。
    a、原则利用了统计学中小概率事件的原理
    b、使用箱线图方法时要求数据服从或近似服从正态分布
    c、基于聚类的方法可以进行离群点检测
    d、基于分类的方法可以进行离群点检测

16、下列与标准化方法有关的说法中错误的是( )。
    a、离差标准化简单易懂,对最大值和最小值敏感度不高
    b、标准差标准化是最常用的标准化方法,又名零一均值标准化
    c、小数定标标准化实质上就是将数据按照一定的比例缩小
    d、多个特征的数据的k-means聚类不需要对数据进行标准化

17、关于标准差标准化,下列说法中错误的是( )。
    a、经过该方法处理后的数据均值为0,标准差为1
    b、可能会改变数据的分布情况
    c、python中可自定义该方法实现函数: def standardscaler(data): data = (data - data.mean()) / data.std() return data
    d、计算公式为

18、以下关于pandas数据预处理说法正确的是( )。
    a、pandas没有做哑变量的函数
    b、在不导入其他库的情况下,仅仅使用pandas就可实现聚类分析离散化
    c、pandas可以实现所有的数据预处理操作
    d、cut函数默认情况下做的是等宽法离散化

scikit-learn习题

1、下列关于sklean说法错误的是( )。
    a、sklearn全称为 scikit-learn
    b、sklearn 在k8凯发官网被分为7个大块
    c、sklearn 的聚类算法几乎都已经放在cluster 模块中了
    d、sklearn 需要 numpy和scipy库的支持

2、下列关于 train_test_split 函数的说法正确的是( )。
    a、train_test_split 能够将数据集划分为训练集、验证集和测试集
    b、生成的训练集和测试集在赋值的时候可以调换位置,系统能够自动识别
    c、train_test_split 每次的划分结果不同,无法解决
    d、train_test_split 函数可以自行决定训练集和测试集的占比

3、下列关于sklearn转换器的说法与使用方式错误的是( )。
    a、fit在转换器中起到的作用为训练模型
    b、fit在转换器中起到的作用为生成规则
    c、transform 在转换器中起到的作用为应用规则
    d、fit_transform是fit和transform的结合

4、下列算法中,sklearn中未提及的是( )。
    a、k-means 聚类算法
    b、logistic regression
    c、knn 最近邻分类算法
    d、apriori关联规则算法

5、下列关于分类算法描述正确的是( )。
    a、分类算法的标签和回归算法完全相同
    b、分类算法和聚类算法一样都没有标签
    c、分类算法的评价需要参考真实标签
    d、分类算法评价可以用均方误差来判断

航空公司客户价值分析习题

1、以下不属于rfm客户价值分析模型常用特征的是( )。
    a、消费金额
    b、消费人数
    c、最近一次消费时间和截止时间的间隔
    d、消费频率

2、下列关于k-means算法初始聚类中心说法正确的是( )。
    a、样本中择优选出
    b、样本中随机选出
    c、互相距离最近的n个点
    d、互相距离最远的n个点

3、k-means算法接收的数据类型为( )。
    a、连续型
    b、离散型
    c、名义型
    d、顺序型

4、下列关于k-means算法的说法错误的是( )。
    a、构建k-means聚类模型需要对数据进行标准化
    b、k-means算法涉及空间距离计算
    c、k-means算法训练结果具有一定的随机性,所以需要多次训练
    d、k-means算法是sklearn的cluster模块中唯一涉及距离计算的聚类算法

5、下列关于客户价值分析的说法错误的是( )。
    a、rfm模型常用于客户价值分析模型
    b、rfm模型适用于所有的客户价值分析
    c、客户价值分析是客户关系管理的一部分
    d、客户价值分析能够帮助制定营销策略

财政收入预测分析习题

1、lasso属于下面( )的特征选择方法。
    a、正则化方法
    b、向前选择法
    c、逐步筛选法
    d、向后消去法

2、下面不属于支持向量回归优点的是( )。
    a、能抓住数据和特征之间的非线性关系
    b、不容易出现过拟合
    c、异常值影响较小
    d、计算复杂度低

3、下面关于支持向量回归说法错误的是( )。
    a、svr来源于svm
    b、svr只能接收数值型
    c、svr接收的数据需要进行标准化
    d、svr模型对于异常值十分敏感

4、下面不属于灰色预测特点的是( )。
    a、参数估计简单
    b、预测精度高
    c、对数据的光滑性要求不高
    d、模型可检验

5、对回归预测模型而言,下面不属于常用的评价指标的是( )。
    a、可解释方差值
    b、中值绝对误差
    c、值
    d、值

第六章实训作业:关于红酒数据集的分析

1、在notebook中按顺序完成4个实训,以代码为主,除了必要的代码解释,不需要大量文字说明。 提交时请务必转换为html格式。 notebook格式如下图,要保证题号清楚:

2、以word或latex格式书写一篇结果完整的,以解决问题为目的的数据分析文章,通过一定的逻辑顺序将之前代码中的运算结果融合在文章当中。 切记不要再出现实训一、实训二这样的字眼,也不要再贴代码了,我们更关注结论。 分析报告以pdf的形式提交!!

猜你喜欢

网站分类
最新发表
标签列表
网站地图