第一周 商务智能概述及数据仓库1.1 商务智能概述随堂测验1、商务智能包括哪些核心技术?
a、数据仓库
b、数据库
c、多维分析
d、数据挖掘
2、将商务智能从一种想法变为企业实际应用的主要技术包括哪些?
a、计算机硬件
b、计算机软件
c、数据存储
d、网络技术
3、数据和信息之间的关系正确的是一下哪些选项?
a、数据是信息
b、信息是数据
c、信息是加工过的数据
d、数据是加工过的信息
4、为了应对不断加剧的竞争环境和不断扩大的竟争范围,企业要在激烈的竞争中取得优势,就必须快速、科学的进行决策。现实的需求促进了商务智能的产生和发展。
5、科学的决策依赖于数据,近几十年来的信息化建设为企业积累了大量的业务运营数据,这也为科学决策奠定了数据基础。
6、商务智能是一种商务领域的决策工具,在政府、机构和其他领域很难发挥其作用和优势。
7、信息是有价值的数据,其价值不因使用者而改变。
8、现实生活中人们之所以会犯错,是因为掌握的信息量不够。决策者如果拥有足够的多的信息就能做出正确、科学的决策,才能在商业竞争中立于不败之地。
9、管理就是决策,决策是企业管理的核心。
10、商务智能就是将隐藏于数据中的信息和知识用直观的方法展现出来。
1.2 业务数据和分析数据随堂测验1、设计数据库的目的是为了解决数据的存储和访问等基本问题,数据库在设计之初就要考虑满足以下操作。
a、多用户访问
b、大数据量访问
c、数据完整性
d、数据一致性
2、分析数据包括以下哪些内容
a、当前业务数据
b、历史业务数据
c、企业内部数据
d、外部数据
3、分析型数据的主要使用者是一下哪些人员?
a、用户
b、业务人员
c、管理人员
d、分析人员
4、分析型数中有冗余是因为以下哪些原因?
a、减少存储空间
b、提高查询效率
c、减少算计量
d、减少细节数据
5、分析数据来自于某一个指定的业务数据库,并通过批量读取的方式写入数据仓库。
6、信息有利于决策,因此管理者进行决策时候,信息越多越好。
7、数据越详细具体包含的信息也就越多,因此,分析型数据应该是明细数据。
8、当前的数据才能代表最新的信息,因此,分析型数据应该是当前数据而不是历史数据。
1.3 业务数据库和分析型应用随堂测验1、在事务型处理环境下,操作具有以下哪些特点?
a、操作频繁
b、操作数据量大
c、操作数据量小
d、处理时间短
2、在事务型处理环境下,操作具有以下哪些特点?
a、操作次数少
b、经常进行删除、增加、更新操作
c、多是过程重复操作
d、处理时间长
3、在事务型处理环境下,操作具有以下哪些特点?
a、处理时间短
b、基本不进行删除、修改更新操作
c、操作频率低
d、大量过程重复操作
4、针对分析型应用,以下哪些说法是正确的。
a、操作数据量大
b、操作数据量小
c、经常进行删除、修改和删除操作
d、相应时间长
5、针对分析型应用,以下哪些说法是正确的。
a、持续时间长
b、持续时间短
c、操作频繁
d、每次操作流程不确定
6、将不同数据源中的数据进行数据集成时,常常遇到以下哪些问题。
a、数据类型不一致
b、字段同名异义
c、字段异名同义
d、数值不一致
7、在数据库设计时使用范式约减的目的是为了:防止出现数据的更新、查找、 删除异常,同时减少数据的冗余。
8、分析型应用中,系统只会操作少量的和分析相关度额数据,对系统资源要求不高,因此在业务系统上进行分型应用能有效提高计算机资源利用效率,减少投资。
9、分析型应用针对于某一个主题,其数据来源也比较单一,因此分析时从业务系统抽取数据能有效提高工作效率。
10、分析型应用在正对某一个主题进行分析时,由于分析的数据来自于和改主题相关度额多个业务数据库或其他数据源,因此,如果采用即用即抽取的方法会带来复杂的“蜘蛛网”问题。
11、针对历史数据业务数据库是采用覆盖方式,而分析数据库是采用用时间字段进行标记,追加的方式进行处理。
12、分析型应用中更关心的发展趋势,因此需要保留历史数据。
13、业务型应用中使用者更关心的当前的状态和数值,因此对历史数据是采用删除覆盖的方式进行处理。
1.4 数据仓库概念随堂测验1、数据仓库有哪些特点?
a、面向主题
b、集成数据
c、数据随时间而变化
d、数据不常改变
2、以下说法哪些是正确的?
a、数据仓库建设是一个过程
b、数据仓库建设是一个项目
c、数据仓库是一个数据集合
d、数据仓库的数据组织不同于业务数据库
3、面向主题组织的数据有哪些特点?
a、主题数据独立
b、主题数据完整
c、主题数据一致
d、主题之间数据可以重叠
4、数据集成主要完成以下哪些工作?
a、多数据源数据抽取
b、数据转换
c、消除数据冲突
d、数据清洗
5、威廉英芒提出的数据仓库概念在业界引起了巨大反响,迎合了企业的需求,很快就在企业得到了大规模的推广和应用。
6、数据集市的概念提出才真正将数据仓库从概念走向了应用。
7、建立数据仓库的主要是为了进行信息的快速查找,为决策支持提供服务,这和业务数据库是不同的。
8、数据仓库中的数据更新简单的说就是对数据仓库中的数据值的修改。
9、业务数据一般是多用户共享使用,而数据仓库是分析员独享,所以业务数据库的业务操作响应时间比数据仓库分析响应时间要慢。
数据仓库概念1、商务智能包括哪些核心技术?
a、数据仓库
b、数据库
c、多维分析
d、数据挖掘
e、计算机技术
2、将商务智能从一种想法变为企业实际应用的主要技术包括哪些?
a、计算机硬件
b、计算机软件
c、数据存储
d、网络技术
e、云技术
f、电子商务
3、数据和信息之间的关系正确的是一下哪些选项?
a、数据是信息
b、信息是数据
c、信息是加工过的数据
d、数据是加工过的信息
e、数据和信息没有关系
f、数据无处不在
4、设计数据库的目的是为了解决数据的存储和访问等基本问题,数据库在设计之初就要考虑满足以下操作。
a、多用户访问
b、大数据量访问
c、数据完整性
d、数据一致性
e、批量数据读写
f、共享控制
5、分析数据包括以下哪些内容?
a、当前业务数据
b、历史业务数据
c、企业内部数据
d、外部数据
e、细节数据
f、综合数据
6、分析型数据的主要使用者是一下哪些人员?
a、用户
b、业务人员
c、管理人员
d、分析人员
e、决策者
f、程序员
7、分析型数中有冗余是因为以下哪些原因?
a、减少存储空间
b、提高查询效率
c、减少算计量
d、减少细节数据
e、增加信息量
f、增加计算量
8、在事务型处理环境下,操作具有以下哪些特点?
a、操作频繁
b、操作数据量大
c、操作数据量小
d、处理时间短
e、处理时间长
f、操作频率低
9、在事务型处理环境下,操作具有以下哪些特点?
a、操作次数少
b、经常进行删除、增加、更新操作
c、多是过程重复操作
d、处理时间长
e、响应时间短
f、操作过程未知
10、在事务型处理环境下,操作具有以下哪些特点?
a、处理时间短
b、基本不进行删除、修改更新操作
c、操作频率低
d、大量过程重复操作
e、每次操作数据量小
f、响应时间快
11、将不同数据源中的数据进行数据集成时,常常遇到以下哪些问题。
a、数据类型不一致
b、字段同名异义
c、字段异名同义
d、数值不一致
e、大量重复数据
f、非结构化数据
12、数据仓库有哪些特点?
a、面向主题
b、集成数据
c、数据随时间而变化
d、数据不常改变
e、数据常被修改
f、数据业务应用进行组织
13、以下说法哪些是正确的?
a、数据仓库建设是一个过程
b、数据仓库建设是一个项目
c、数据仓库是一个数据集合
d、数据仓库的数据组织不同于业务数据库
e、数据仓库建设有明确的起、止时间
f、服务于决策支持
14、面向主题组织的数据有哪些特点?
a、主题数据独立
b、主题数据完整
c、主题数据一致
d、主题之间数据可以物理重叠
e、主题之间数据可以逻辑重叠
f、主题游明确的界限
15、数据集成主要完成以下哪些工作?
a、多数据源数据抽取
b、数据转换
c、消除数据冲突
d、数据清洗
e、模型设计
16、为了应对不断加剧的竞争环境和不断扩大的竟争范围,企业要在激烈的竞争中取得优势,就必须快速、科学的进行决策。现实的需求促进了商务智能的产生和发展。
17、科学的决策依赖于数据,近几十年来的信息化建设为企业积累了大量的业务运营数据,这也为科学决策奠定了数据基础。
18、商务智能是一种商务领域的决策工具,在政府、机构和其他领域很难发挥其作用和优势。
19、信息是有价值的数据,其价值不因使用者而改变。
20、现实生活中人们之所以会犯错,是因为掌握的信息量不够。决策者如果拥有足够的多的信息就能做出正确、科学的决策,才能在商业竞争中立于不败之地。
21、管理就是决策,决策是企业管理的核心。
22、商务智能就是将隐藏于数据中的信息和知识用直观的方法展现出来。
23、分析数据来自于某一个指定的业务数据库,并通过批量读取的方式写入数据仓库。
24、信息有利于决策,因此管理者进行决策时候,信息越多越好。
25、数据越详细具体包含的信息也就越多,因此,分析型数据应该是明细数据。
26、当前的数据才能代表最新的信息,因此,分析型数据应该是当前数据而不是历史数据。
27、在数据库设计时使用范式约减的目的是为了:防止出现数据的更新、查找、 删除异常,同时减少数据的冗余。
28、分析型应用中,系统只会操作少量的和分析相关度额数据,对系统资源要求不高,因此在业务系统上进行分型应用能有效提高计算机资源利用效率,减少投资。
29、分析型应用针对于某一个主题,其数据来源也比较单一,因此分析时从业务系统抽取数据能有效提高工作效率。
30、分析型应用在正对某一个主题进行分析时,由于分析的数据来自于和改主题相关度额多个业务数据库或其他数据源,因此,如果采用即用即抽取的方法会带来复杂的“蜘蛛网”问题。
31、针对历史数据业务数据库是采用覆盖方式,而分析数据库是采用用时间字段进行标记,追加的方式进行处理。
32、分析型应用中更关心的发展趋势,因此需要保留历史数据。
33、业务型应用中使用者更关心的当前的状态和数值,因此对历史数据是采用删除覆盖的方式进行处理。
34、威廉英芒提出的数据仓库概念在业界引起了巨大反响,迎合了企业的需求,很快就在企业得到了大规模的推广和应用。
35、数据集市的概念提出才真正将数据仓库从概念走向了应用。
36、建立数据仓库的主要是为了进行信息的快速查找,为决策支持提供服务,这和业务数据库是不同的。
37、数据仓库中的数据更新简单的说就是对数据仓库中的数据值的修改。
38、业务数据一般是多用户共享使用,而数据仓库是分析员独享,所以业务数据库的业务操作响应时间比数据仓库分析响应时间要慢。
第二周 数据仓库设计2.1 数据仓库设计方法随堂测验1、数据库的各表之间是用键进行关联的,数据仓库中的维度表和事实表也是通过键进行连接。
2、数据库和数据仓库的的设计都以需求驱动为原则
3、数据库设计以需求驱动为原则;数据仓库的设计核心是数据,同时满足分析需求。
2.2 数据仓库三级模型随堂测验1、与数据库的设计相同,数据仓库的设计也是三级模型结构。
2、概念模型设计的核心是将实际需求机型高度的抽象和概括。
3、逻辑模型的设计就是将应用需求的主题域描述转换为实体关系描述的过程。
4、粒度指的是描述数据的综合程度,粒度越大表示数据细节数据多。
2.3 物理模型设计随堂测验1、物理模型设计包括以下哪些步骤?
a、实体转换成对应的表
b、属性转换成列
c、确定列类型
d、建立表之间的连接
2、在物理模型设计阶段除了考虑数据结构之外,还需要考虑以下哪些问题?
a、数据存储结构
b、存储时间
c、存储空间利用率
d、维护代价
3、同数据库的设计一样,数据仓库的模型满足第三范式即可。
2.4 元数据随堂测验1、以下哪种关于元数据的说法是错误的?
a、元数据是定义数据的数据
b、元数据是细节数据
c、元数据是综合数据
d、元数据是对数据进行定义和描述
2、以下对元数据分类正确的是:
a、商业元数据
b、技术元数据
c、基础元数据
d、综合元数据
3、元数据的使用者主要包括以下人员。
a、管理员
b、开发人员
c、用户
d、业务人员
4、商务元数据主要是从业务角度描述数据仓库中的数据。
5、技术元数据是存储关于数据仓库系统技术细节的数据。
6、技术元数据主要用于开发和管理。
2.5 数据的抽取和清洗随堂测验1、数据仓库模型创建完成后,在将数据源中的数据导入到数据仓库的过程中,需要完成以下哪些步骤?
a、数据的抽取
b、数据的转换
c、数据的清洗
d、数据的装载
2、数据仓库的抽取方法,从物理抽取角度可以分为以下哪几种?
a、脱机抽取
b、在线抽取
c、单机抽取
d、调度抽取
3、数据仓库的数据抽取方法中,从逻辑抽取角度可以分为以下哪几种方式?
a、全量抽取
b、增量抽取
c、网络抽取
d、绝对抽取
4、在实际环境下,很多数据集都包含缺失数据,对于缺失数据的处理常用的方法包括以下哪几种?
a、删除缺失记录
b、固定值填充
c、未缺失平均值填充
d、未缺失众数
5、在实际环境下,很多数据集都包含缺失数据,对于缺失数据的处理常用的方法包括以下哪几种?
a、缺失作为属性的一个取值
b、利用模型预测缺失值
c、用最少的属性值填充
d、用最大值填充
6、etl是数据仓库建设中的一个重要阶段,关系到数据仓库建设的成败。
7、在数据仓库的数据加载中,全量抽取能保证数据的完整性,因此建议一般情况下都采用全量抽取方式。
8、数据仓库模型建立后,第一装载数据一般都是采用全抽取方式进行。
9、增量抽取能有效的减少数据装载量,是日常数据更新时经常采用的方式。
10、在线抽取能有效的将最新的业务数据抽取到数据仓库中,因此在业务系统运行期间一般都采用在线抽取方式进行。
11、数据清洗就是消除数据源中不符合规范的数据的过程。
12、数据的清洗一般放在数据抽取阶段,这样可以节约后续的计算量和降低存储成本。
13、数据源中的空数据由于某种原因导致数据值空缺,是一类没有价值的数据,可以直接删除。
14、空缺数据可能隐含了某类信息,具有分析价值。
15、在数据装载中,如果有数据明显不符合逻辑取值,可以采用处理缺失值的方式进行处理。
2.6 数据转换和装载策略随堂测验1、以下哪些内容是数据转换阶段需要完成的工作?
a、数据选择
b、数据分离
c、数据合并
d、数据转化
2、以下哪些内容是数据转换阶段需要完成的工作?
a、数据汇总
b、数据丰富
c、数据删除
d、数据修正
3、以下哪些内容是数据转换的主要类型?
a、格式的修正
b、字段解码计算
c、字段导出
d、单字段分离
4、以下哪些内容是数据转换的主要类型?
a、信息合并
b、特征集合转化
c、度量单位转化
d、日期时间转化
5、以下哪些内容是数据转换的主要类型?
a、数据汇总
b、键值构造
c、属性转换
d、处理缺失值
6、数据转换一般可以为以下哪几类方法?
a、工具转换
b、人工转换
c、自动转换
d、批量转换
7、以下哪些方法是数据仓库装载经常采用的策略。
a、增量装载
b、完全刷新
c、抽样装载
d、调度装载
8、在进行数据仓库中的数据装载时,如果遇到装载的数据和数据仓库中已有数据重复,常用的处理方法以下哪些是正确的?
a、增加一条新记录
b、覆盖(更新)原有记录
c、合并新记录和已有记录
d、丢弃新纪录
9、在数据仓库中现有数据量较小的情况下,可以先清空所有数据,再进行全量装载,这种装载方法简单、直观且不易出错。
10、在数据仓库中现有数据量比较大的情况下采用增量装载策略,可以大大提高装载效率。
11、数据的转换和装载在数据仓库建设中时间占比最大,这是在规划建设周期时需要强调的。
12、数据仓库在使用过程中,数据的更新是维护工作的一部分,由于数据的更新(refresh)是一项非常耗时的工作,因此需要着重考虑数据刷新的时间窗,以及充分利用周期性的自动更新调度工具。
2.7 数据仓库实施随堂测验1、数据仓库没有马上在企业应用的原因主要在于以下问题。
a、包含企业全部主题,数据太复杂
b、技术风险大
c、投资风险大
d、建设周期长
2、以下哪些描述是数据集市的特点。
a、主题少
b、数据少
c、建设周期短
d、风险小
3、以下哪些描述是数据集市的特点。
a、投资小
b、见效快
c、数据分散
d、满足部门应用
4、以下数据仓库的特点描述中,哪些是正确的?
a、面向企业级应用
b、数据量大
c、主题多
d、建设周期长
5、以下对数据集市的特点描述中,哪些是正确的?
a、主题少
b、数据源少
c、需要和其他数据集市联合使用
d、面向部门级使用
6、数据仓库的数据存储模式从物理上可以是以下哪种架构?
a、集中存储式
b、分布式
c、重叠式
d、冗余式
7、以下哪些方法可以用来实施数据仓库?
a、“big-bang“,爆炸式
b、自底向上
c、自顶向下,总体规划,分步实施
d、分项并举
8、自底向上的数据仓库开发模式,相较于爆炸式、自顶向下等其他方法,具有的优点是以下哪些?
a、规划简单
b、边建设变积累经验
c、快速检验成效
d、投资小
9、数据仓库概念提出之后并没有在企业得以推广应用,在企业应用是在数据集市的概念提出之后。
10、数据集市是小型的数据仓库,是数据仓库在部门级的应用,它只需包含很少的主题,只考虑本部门的分析应用负责。
11、数据集是针对部门,不能通过建设数据集市的方式建设企业数据仓库。
12、数据集市的思想和企业多数时间的实际需求是一致的。
13、数据集市是数据仓库的一个子集
14、可以通过创建企业部门数据集市的方式创建企业数据仓库。
15、创建企业数据集市还是创建数据仓库是两种不同的开发模式,这在开发之前就要规划好,二者不能相互转换。
16、“爆炸式”建设数据仓库因为是总体规划、实施,因此建设周期短,风险较小。
17、自底向上开发方法,因为不需要大的总体的企业数据仓库规划,实施简单,因此在实践中被广泛采用。
18、自底向上的数据仓库建设模式,由于可以通过小的数据集市的建设积累经验,降低技术风险。并且这种方法不需要考虑总体的规划,简化了工作,在实践中常被使用。
数据仓库设计1、物理模型设计包括以下哪些步骤?
a、实体转换成对应的表
b、属性转换成列
c、确定列类型
d、建立表之间的连接
e、确定有哪些属性
f、确定属性名称
g、建立客观对象对实体的映射
h、建立实体之间的联系
2、在物理模型设计阶段除了考虑数据结构之外,还需要考虑以下哪些问题?
a、数据存储结构
b、存储时间
c、存储空间利用率
d、维护代价
e、字段大小
f、字段类型
g、表之间的连接
3、以下哪种关于元数据的说法是错误的?
a、元数据是定义数据的数据
b、元数据是细节数据
c、元数据是综合数据
d、元数据是对数据进行定义和描述
e、元数据是原数据的另一种说法
f、元数据也有数据类型
4、以下对元数据分类正确的是:
a、商业元数据
b、技术元数据
c、基础元数据
d、综合元数据
e、用户元数据
f、细节元数据
5、元数据的使用者主要包括以下人员。
a、管理员
b、开发人员
c、用户
d、业务人员
e、决策人员
f、分析人员
6、数据仓库模型创建完成后,在将数据源中的数据导入到数据仓库的过程中,需要完成以下哪些步骤?
a、数据的抽取
b、数据的转换
c、数据的清洗
d、数据的装载
e、确定数据类型
f、确定数据大小和长度
7、数据仓库的抽取方法,从物理抽取角度可以分为以下哪几种?
a、脱机抽取
b、在线抽取
c、单机抽取
d、调度抽取
e、周期抽取
f、一次性抽取
8、数据仓库的数据抽取方法中,从逻辑抽取角度可以分为以下哪几种方式?
a、全量抽取
b、增量抽取
c、网络抽取
d、绝对抽取
e、相对抽取
9、在实际环境下,很多数据集都包含缺失数据,对于缺失数据的处理常用的方法包括以下哪几种?
a、删除缺失记录
b、固定值填充
c、未缺失平均值填充
d、未缺失众数
e、改变类型
f、保持缺失
10、在实际环境下,很多数据集都包含缺失数据,对于缺失数据的处理常用的方法包括以下哪几种?
a、缺失作为属性的一个取值
b、利用模型预测缺失值
c、随机值填充
d、用最小值和最大值填充
e、用固定值填充
11、以下哪些内容是数据转换阶段需要完成的工作?
a、数据选择
b、数据分离
c、数据合并
d、数据转化
e、数据装载
f、数据类型确定
12、以下哪些内容是数据转换阶段需要完成的工作?
a、数据汇总
b、数据丰富
c、数据删除
d、数据修正
13、以下哪些内容是数据转换的主要类型?
a、格式的修正
b、字段解码计算
c、字段导出
d、单字段分离
14、以下哪些内容是数据转换的主要类型?
a、信息合并
b、特征集合转化
c、度量单位转化
d、日期时间转化
e、格式的修正
f、字段解码计算
g、字段导出
h、单字段分离
i、确定字段类型
j、字段映射
15、以下哪些内容是数据转换的主要类型?
a、数据汇总
b、键值构造
c、属性转换
d、处理缺失值
e、字段映射
f、选择数据源
16、数据转换一般可以为以下哪几类方法?
a、人工转换
b、工具转换
c、自动转换
d、批量转换
e、周期转换
f、整体转换
g、部分转换
17、以下哪些方法是数据仓库装载经常采用的策略。
a、增量装载
b、完全刷新
c、抽样装载
d、调度装载
e、手工装载
f、自动装载
18、在进行数据仓库中的数据装载时,如果遇到装载的数据和数据仓库中已有数据重复,常用的处理方法以下哪些是正确的?
a、增加一条新记录
b、覆盖(更新)原有记录
c、合并新记录和已有记录
d、丢弃新纪录
e、停止装载
19、数据仓库没有马上在企业应用的原因主要在于以下问题。
a、包含企业全部主题,数据太复杂
b、技术风险大
c、投资风险大
d、建设周期长
e、设计规划简单
f、效率较高
20、以下哪些描述是数据集市的特点。
a、主题少
b、数据少
c、建设周期短
d、风险小
e、风险大
f、数据多
g、主题多
h、建设周期长
i、设计规划负责
21、以下哪些描述是数据集市的特点。
a、投资小
b、见效快
c、数据分散
d、满足部门应用
e、满足企业应用
f、资金投入大
g、技术难度大
h、失败风险高
22、以下数据仓库的特点描述中,哪些是正确的?
a、面向企业级应用
b、数据量大
c、主题多
d、建设周期长
e、建设周期短
f、一次满足企业应用,投资少
23、以下对数据集市的特点描述中,哪些是正确的?
a、主题少
b、数据源少
c、需要和其他数据集市联合使用
d、面向企业级使用
e、建设周期短
f、只能满足部门级应用
24、数据仓库的数据存储模式从物理上可以是以下哪种架构?
a、集中存储式
b、分布式
c、重叠式
d、冗余式
25、以下哪些方法可以用来实施数据仓库?
a、“big-bang“,爆炸式
b、自底向上
c、自顶向下,总体规划,分步实施
d、分项并举
26、自底向上的数据仓库开发模式,相较于爆炸式、自顶向下等其他方法,具有的优点是以下哪些?
a、规划简单
b、边建设变积累经验
c、快速检验成效
d、总体投资小
e、建设周期短
27、数据库的各表之间是用键进行关联的,数据仓库中的维度表和事实表也是通过键进行连接。
28、数据库和数据仓库的的设计都以需求驱动为原则
29、数据库设计以需求驱动为原则;数据仓库的设计核心是数据,同时满足分析需求。
30、与数据库的设计相同,数据仓库的设计也是三级模型结构。
31、概念模型设计的核心是将实际需求机型高度的抽象和概括。
32、逻辑模型的设计就是将应用需求的主题域描述转换为实体关系描述的过程。
33、粒度指的是描述数据的综合程度,粒度越大表示数据细节数据多。
34、同数据库的设计一样,数据仓库的模型满足第三范式即可。
35、商务元数据主要是从业务角度描述数据仓库中的数据。
36、技术元数据是存储关于数据仓库系统技术细节的数据。
37、技术元数据主要用于开发和管理。
38、技术元数据主要用于技术分析和决策。
39、etl是数据仓库建设中的一个重要阶段,关系到数据仓库建设的成败。
40、在数据仓库的数据加载中,全量抽取能保证数据的完整性,因此建议一般情况下都采用全量抽取方式。
41、数据仓库模型建立后,第一装载数据一般都是采用全抽取方式进行。
42、增量抽取能有效的减少数据装载量,是日常数据更新时经常采用的方式。
43、在线抽取能有效的将最新的业务数据抽取到数据仓库中,因此在业务系统运行期间一般都采用在线抽取方式进行。
44、数据清洗就是消除数据源中不符合规范的数据的过程。
45、数据的清洗一般放在数据抽取阶段,这样可以节约后续的计算量和降低存储成本。
46、数据源中的空数据由于某种原因导致数据值空缺,是一类没有价值的数据,可以直接删除。
47、空缺数据可能隐含了某类信息,具有分析价值。
48、在数据装载中,如果有数据明显不符合逻辑取值,可以采用处理缺失值的方式进行处理。
49、在数据仓库中现有数据量较小的情况下,可以先清空所有数据,再进行全量装载,这种装载方法简单、直观且不易出错。
50、在数据仓库中现有数据量比较大的情况下采用增量装载策略,可以大大提高装载效率,但会降低数据质量。
51、数据的转换和装载在数据仓库建设中时间占比最大,这是在规划建设周期时需要强调的。
52、数据仓库在使用过程中,数据的更新是维护工作的一部分,由于数据的更新(refresh)是一项非常耗时的工作,因此需要着重考虑数据刷新的时间窗,以及充分利用周期性的自动更新调度工具。
53、数据仓库概念提出之后并没有在企业得以推广应用,在企业应用是在数据集市的概念提出之后。
54、数据集市是小型的数据仓库,是数据仓库在部门级的应用,它只需包含很少的主题,只考虑本部门的分析应用负责。
55、数据集是针对部门,不能通过建设数据集市的方式建设企业数据仓库。
56、数据集市的思想和企业多数时间的实际需求是一致的。
57、数据集市是数据仓库的一个子集
58、可以通过创建企业部门数据集市的方式创建企业数据仓库。
59、创建企业数据集市还是创建数据仓库是两种不同的开发模式,这在开发之前就要规划好,二者不能相互转换。
60、“爆炸式”建设数据仓库因为是总体规划、实施,因此建设周期短,风险较小。
61、自底向上开发方法,因为不需要大的总体的企业数据仓库规划,实施简单,因此在实践中被广泛采用。
62、自底向上的数据仓库建设模式,由于可以通过小的数据集市的建设积累经验,降低技术风险。并且这种方法不需要考虑总体的规划,简化了工作,在实践中常被使用。
第三周 联机多维分析3.1 多维分析模型随堂测验1、维度表和事实表构成了多维分析的两个基本数据结构表。
3.2 维度和度量随堂测验1、以下对事实表的特点描述中,正确的有哪些?
a、数据量大
b、表中行数多
c、表中列数多
d、表中数据常进行行追加
3.3 联机多维分析随堂测验1、多维数据的存储现在主要有以下哪些方式?
a、rolap
b、holap
c、molap
d、olap
多维分析1、使用联机多维分析的人员主要是以下哪些?
a、开发人员
b、专业分析人员
c、决策人员
d、业务用户
e、系统管理员
2、多维分析的数据结构包括以下哪些选项?
a、维度
b、事实
c、实体
d、关系
e、属性
f、字段
3、多维数据模型主要为了解决以下哪些问题?
a、数据存储
b、快速查询
c、数据展示
d、数据快速插入
e、数据快速更新
f、快速删除数据
g、获许信息和知识
4、以下哪些描述是多维数据结构的优点。
a、提高数据处理速度
b、提高查询效率
c、降低数据插入时间
d、查询更加便利
e、降低存储空间
f、减少数据冗余
5、事实表中包含以下哪几类属性字段。
a、键(码)字段
b、数值型属性字段
c、名字字段
d、类别字段
e、维度字段
6、以下选项中,可以是度量的有哪些?
a、合格品数
b、产品价格
c、产品名称
d、产品类别
e、客户年龄
f、销售金额
g、库存量
h、客户电话
7、以下对事实表的特点描述中,正确的有哪些?
a、数据量大
b、表中行数多
c、表中列数多
d、表中数据常进行值修改
e、表中数据常进行行追加
f、主要用来聚集计算
8、以下对维度表特点的描述,正确是有哪些?
a、数据量小
b、行数较少
c、列数较多
d、表中数据固定不变
e、数据类型多是字符
f、数据类型多是数值
9、以下对处理慢变维的数据主要方式的描述中,正确的有哪些?
a、新数据覆盖旧数据
b、增加代理键,增加新记录存储
c、增加新字段
d、合并字段
e、数值求和计算
10、联机多维分析相对于传统的报表分析有哪些特点?
a、减少了it人员工作量
b、决策者可以根据需求调整观察视图
c、不再是固定的数据组织格式
d、能够进行多角度综合数据
e、增加了分析的灵活性
f、减少了数据量
g、展现汇总数据而非细节数据
11、多维分析技术主要包括以下哪些?
a、上卷
b、下钻
c、切片
d、切丁
e、旋转
f、透视
g、删除
h、插入
i、更新
12、多维数据的存储现在主要有以下哪些方式?
a、rolap
b、molap
c、holap
d、olap
13、rolap存储模式的特点是哪些?
a、没有更新延迟
b、分析效率低
c、更新延迟大
d、数据占用空间的大
e、分析效率高
14、holap存储模式的特点是以下哪些?
a、提高了rolap的查询效率
b、降低了 molap的存储
c、细节数据存贮在关系数据库
d、汇总数据存储在多维数据集
e、数据更新延迟固定
f、丢失细节数据换取综合数据查询效率
g、丢失综合数据换取细节数据查询效率
15、多维分析中的维度就是观察或分析数据的角度或出发点。
16、多维分析的度量是分析人员关注的数值型数据。
17、维度表和事实表构成了多维分析的两个基本数据结构表。
18、维度表和事实表构成决策者分析主题的视图,使得数据构成变得清新而自然。
19、多维数据模型是一个物理模型。
20、多维数据集是数据仓库中数据的一个子集,也是基于主题的一个数据集合。
21、多维数据集或多维数据仓库中的数据是按照记录的方式进行存放的。
22、多维数据集或多维数据仓库中的数据存放在多维数组中。
23、多维数据模型不一定建立在多维数据存储之上。
24、多维数据集可以建立在关系数据库之上,通过统一维度模型(udm)组织形式,可以对非多维存储中的数据进行多维分析。
25、度量属性构成的表称为事实表。
26、维度表中的属性之间如果在语义上存在包含和被包含的关系,这些属性称为维度层,简称维层。
27、在维度属性里,维层的顺序关系,称为维路径,在多维分析的上卷和下钻时,必须严格按照维路径进行操作。。
28、在对多维数据集进行操作时,类似于对数据库的操作,也是借用了sql语句。
29、多维数据集的操作不是使用sql,而是使用mdx(multidimensional expressions),这样操作表达式更擅长于大数据量的查询操作。
30、维度数据是用来描述分析角度、过滤分析条件的数据,一般都是字符(描述)类型。
31、用来定义被分析的数值型事实信息称为度量数据。
32、度量是决策者所关心的有实际意思的数值,一般是客户发生事件或动作的事实记录,比如购买产品数量,金额等。
33、多维数据集结构里只能有一个事实表。
34、同一个度量组组中的数据一定有相同的维。
35、维度表中的数据是用来描述、刻画、说明事实表中记录的特征信息,正是有了维度数据的解释,事实表中的数字才被赋予了实际的含义。
36、维层用来描述维度的属性集合以及这些成员的相对位置,维层是构建分析维路径的基础。
37、维度表中的数据相对固定,但也不是完全不变,有些维的某属性会有缓慢的变化,这些维称为慢变维(scd)。
38、利用多维分析技术,决策者可以先提出假设,然后通过多角度组织数据进行证实或证伪,这种方式能够快速获取决策信息。
第九周 数据挖掘理论基础9.1 数据预处理随堂测验1、数据的预处理主要包括以下哪些内容?
a、数据的清理
b、数据的集成
c、数据变换
d、数据归约和数据离散化
2、孤立点数据就是错误数据。
9.2 聚类分析随堂测验1、聚类就是根据对象之间相似度的高低进行归并分组的过程。
2、空间距离计算和夹角余弦都是度量对象相似度的方法。
3、欧氏距离可以消除变量间的相关性干扰,因此使用欧氏距离描述对象相似度时,可以不用考虑属性间的相关性。
4、通过距离度量变量间相似度时,应该先对描述变量属性的数据进行归一化处理,以消除不同属性值量纲对计算结果的影响。
9.3 关联分析随堂测验1、关联规则是一个概率值下的描述,因此,进行关联分析的前提是数据集足够大。
9.4 决策树分析随堂测验1、在对决策树模型进行训练时,模型的拟合精度越高,模型预测效果越好。
猜你喜欢
- 2023-02-26 23:55
- 2023-02-26 23:30
- 2023-02-26 22:55
- 2023-02-26 22:39
- 2023-02-26 22:32
- 2023-02-26 22:26
- 2023-02-26 22:03
- 2023-02-26 21:45
- 2023-02-26 21:44
- 2023-02-26 21:42