数据挖掘习题
填空题
- 数据仓库就是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合。
- 数据处理通常分成两大类:联机事务处理(OLTP)和联机分析处理(OLAP)。
- 调和数据是存储在企业级数据仓库(EDW)和操作型数据存储中的数据。
- 使用星型模式可以从一定程度上提高查询效率。因为星型模式中数据的组织已经经过预处理,主要数据都在庞大的事实表中。
- 数据仓库中存在不同综合级别的数据。一般把数据分成四个级别:早期细节级、当前细节级、轻度综合级和高度综合级。
- 关联规则的经典算法包括Apriori和FP-growth,其中FP-growth的效率更高。
- 分类的过程包含获取数据、预处理、分类器设计和分类决策。
- 分类器设计阶段包括三个过程:划分数据集、分类器构造和分类器测试。
- 分类问题中常用的评价准则有精确度、查全率和查准率、F-measure和几何均值。
- 支持向量机中常用的核函数有多项式核函数、径向核函数和S型核函数。
- 聚类分析包括连续型、二值离散型、多值离散型和混合类型四种类型描述属性的相似度计算方法。
- 连续型属性的数据样本之间的距离有欧氏距离、曼哈顿距离和明考斯基距离。
- 划分聚类方法对数据集进行聚类时包括三个要点:选定某种距离作为数据样本间的相似性度量、选择评价聚类性能的准则函数和选择某个初始类,之后用迭代的方法得到聚类结果,使得评价聚类的准则函数取得最优值。
- 层次聚类方法包括:凝聚型层次聚类和分解型层次聚类两种层次聚类方法。
简述题
- 请简述数据挖掘中关联规则Apriori算法的思想。
- Apriori算法多次扫描交易记录集,目的是产生长度不同的频繁集。首先产生1-频繁集$L_1$,在此基础上经过连接、修剪产生2-频繁集$L_2$,直到无法产生新的频繁集则算法终止。
- 这里在第 k 次循环中,也就是产生k-频繁集$Lk$的过程中,首先产生k-候选频繁集的集合$C_k$,简称候选集。$C_k$中的每一项集是对两个只有一个项不同的属于$L{k-1}$的频繁集连接产生。$C_k$进行修剪,产生对应的$L_k$。
- 请比较PCA(主成分分析)和LDA(线性判别分析)的区别。
- PCA为非监督降维,LDA为有监督降维
- PCA希望投影后的数据方差尽可能的大(最大可分性),因为其假设方差越多,则所包含的信息越多;而LDA则希望投影后相同类别的组内方差小,而组间方差大。LDA能合理运用标签信息,使得投影后的维度具有判别性,不同类别的数据尽可能的分开。 //
- 请分析特征选择和特征提取有何区别?
- 这两者达到的效果是一样的,就是试图去减少特征数据集中的属性(或者称为特征)的数目,但是两者所采用的方式方法却不同。
- 特征提取的方法主要是通过属性间的关系,如组合不同的属性得到新的属性,这样就改变了原来的特征空间。
- 特征选择的方法是从原始特征数据集中选择出子集,是一种包含的关系,没有更改原始的特征空间。
- 聚类和分类有什么区别和联系?
- 区别
- 数据分类方法是在已知类标号的训练集基础上进行分类器设计工作的,所以分类方法又称为监督学习方法。
- 聚类分析方法使用的数据样本没有类标号,聚类分析又称为非监督学习方法。聚类分析是研究如何在没有训练的条件下把样本划分为若干类,聚类之后的数据集可以直接用来进行科学分析,也可以作为其他方法的训练集。
- 联系
- 宏观上,看起来都是把“杂乱的数据”进行划分成各种类。
- 区别
- TF-IDF算法是什么?有什么实际意义?
- TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。
- 字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。
- 它经常被用作搜索信息检索,文本挖掘和用户建模的加权因子。TF-IDF加权的各种形式常被搜索引擎应用,作为文件与用户查询之间相关程度的度量或评级。
- 数据挖掘与统计的区别和联系?
- 统计学主要利用概率论建立数学模型,是研究随机现象的常用数学工具之一。
- 数据挖掘分析大量数据,发现其中的内在联系和知识,并以模型或规则表达这些知识。
- 虽然两者采用的某些分析方法(如回归分析)是相同的,但是数据挖掘和统计学是有本质区别的:
- 一个主要差别在于处理对象(数据集)的尺度和性质。数据挖掘经常会面对尺度为GB甚至TB数量级的数据库,而用传统的统计方法很难处理这么大尺度的数据集。传统的统计处理往往是针对特定的问题采集数据(甚至通过试验设计加以优化)和分析数据来解决特定问题;而数据挖掘却往往是数据分析的次级过程,其所用的数据原本可能并非为当前研究而专门采集的,因而其适用性和针对性可能都不强,在数据挖掘的过程中,需要对异常数据及冲突字段等进行预处理,尽可能提高数据的质量,然后才对经过预处理的数据进行数据挖掘。
- 另一个差别在于面对结构复杂的海量数据,数据挖掘往往需要采用各种相应的数学模型和应用传统统计学以外的数学工具,才能建立最适合描述对象的模型或规则。
- 总之,统计学在生物医学研究中常采用假设检验(或称显著性检验)方法,其侧重假设驱动(hypothesis-driven),即提出假设并加以检验;而数据挖掘则不具备这样的功能,其主要是数据驱动(data-driven),即从数据中发现规律并得到知识。
- 什么是关联规则?关联规则的应用有哪些?
- 关联规则挖掘最初由R.Agrawal等人提出,用来发现超级市场中用户购买的商品之间的隐含关联关系,并用规则的形式表示出来,称为关联规则(Association Rule)。
- 关联规则除了可以发现超市购物中隐含的关联关系之外,还可以应用于其他很多领域。关联规则的应用还包括文本挖掘、商品广告邮寄分析、网络故障分析等。
- 什么是分类?分类的应用领域有哪些?
- 分类是指把数据样本映射到一个事先定义的类中的学习过程,即给定一组输入的属性向量及其对应的类,用基于归纳的学习算法得出分类。
- 分类问题在商业、银行业、医疗诊断、生物学、文本挖掘、因特网筛选等领域都有广泛应用。
- 例如,在银行业中,分类方法可以辅助工作人员将正常信用卡用户和欺诈信用卡用户进行分类,从而采取有效措施减小银行的损失;在医疗诊断中,分类方法可以帮助医疗人员将正常细胞和癌变细胞进行分类,从而及时制定救治方案,挽救病人的生命;在因特网筛选中,分类方法可以协助网络工作人员将正常邮件和垃圾邮件进行分类,从而制定有效的垃圾邮件过滤机制,防止垃圾邮件干扰人们的正常生活。
- 什么是聚类分析?聚类分析的应用领域有哪些?
- 聚类分析是将物理的或者抽象的数据集合划分为多个类别的过程,聚类之后的每个类别中任意两个数据样本之间具有较高的相似度,而不同类别的数据样本之间具有较低的相似度。
- 聚类分析在科学数据分析、商业、生物学、医疗诊断、文本挖掘、Web数据挖掘等领域都有广泛应用。
- 在科学数据分析中,比如对于卫星遥感照片,聚类可以将相似的区域归类,有助于研究人员根据具体情况做进一步分析;在商业领域,聚类可以帮助市场分析人员对客户的基本数据进行分析,发现购买模式不同的客户群,从而协助市场调整销售计划;在生物学方面,聚类可以帮助研究人员按照基因的相似度对动物和植物的种群进行划分,从而获得对种群中固有结构的认识;在医疗诊断中,聚类可以对细胞进行归类,有助于医疗人员发现异常细胞的聚类,从而对病人及时采取措施;在文本挖掘和Web数据挖掘领域中,聚类可以将网站数据按照读者的兴趣度进行划分,从而有助于网站内容的改进。
书上的题
- 简述你对数据仓库未来发展趋势的看法。
- 数据仓库技术的发展包括数据抽取、存储管理、数据表现和方法论等方面。在数据抽取方面,未来的技术发展将集中在系统集成化方面。它将互连、转换、复制、调度、监控纳入标准化的统一管理,以适应数据仓库本身或数据源可能的变化,使系统更便于管理和维护。在数据管理方面,未来的发展将使数据库厂商明确推出数据仓库引擎,作为数据仓库服务器产品与数据库服务器并驾齐驱。在这一方面,带有决策支持扩展的并行关系数据库将最具发展潜力。在数据表现方面,数理统计的算法和功能将普遍集成到联机分析产品中,并与Internet/Web技术紧密结合。按行业应用特征细化的数据仓库用户前端软件将成为产品作为数据仓库解决方案的一部分。数据仓库实现过程的方法论将更加普及,将成为数据库设计的一个明确分支,成为管理信息系统设计的必备。
- 请列出3种数据仓库产品,并说明其优缺点。
- Essbase(MOLAP产品),采用以服务器为中心的分布式体系结构的OLAP服务器。
- 优点是提供丰富的API,具有几百个计算公式,支持多种计算,用户可以自己构建复杂的查询;可以充分定制开发,有30多个前端工具可供选择,支持多种财务标准,能与其他数据源集成。
- 缺点是开发难度较大,部署也不容易。
- NCR Teradata 是高端数据仓库市场最有力的竞争者,主要运行在UNIX操作系统平台上。
- 优点是产品性能很好。
- 缺点是产品价格相对较高,中小企业用户难以接受,其联机多维分析相对较弱。
- SAS系统是SAS公司提供的数据仓库解决方案包括30多个专用模块。
- 优点是功能强大、性能高、特长突出。
- 缺点是系统比较复杂。
- Essbase(MOLAP产品),采用以服务器为中心的分布式体系结构的OLAP服务器。
- 什么是数据仓库的数据ETL过程?
- 数据的ETL过程就是调和数据的过程。
- 数据ETL是用来实现异构数据源的数据集成,即完成数据的抓取/抽取、清洗、转换、加载与索引等数据调和工作。
- 简单地说,数据是从企业内外部的各业务处理系统(操作型数据)流向企业级数据仓库(EDW)或操作型数据存储区(ODS),在这个过程中,要根据企业(或其他组织)的数据模型和元数据库对数据进行调和处理,形成一个中间数据层,然后再根据分析需求,从调和数据层(EDW、ODS)将数据引入导出数据层,如形成满足各类分析需求的数据集市。
- 什么是星型模式?它的特征是什么?
- 星型模式是最流行的数据仓库导出数据层的设计结构。
- 它的特征是:
- 在星模式中,事实表居中,多个维表呈辐射状分布于其四周,并与事实表连接。
- 位于星形中心的实体是事实表,是用户最关心的基本实体和查询活动的中心,为数据仓库的查询活动提供定量数据。
- 位于星模式四周的实体是维度实体,其作用是限制和过滤用户的查询结果,缩小访问范围。
- 每个维表都有自己的属性,维表和事实表通过关键字相关联。
- 什么是信息包图法?它为什么适用于数据仓库的概念模型的设计?
- 信息包图法,也叫用户信息需求表,就是在一张平面表格上描述元素的多维性,其中的每一个维度用平面表格的一列表示,通常的维度如时间、地点、产品和顾客等。
- 而细化本列的对象就是类别,例如时间维度的类别可以细化到年、月、日,甚至小时;平面表格的最后一行(代表超立方体中的单元格)即为指标度量值,例如,某年在某销售点的某类产品的实际销售额。创建信息包图时需要确定最高层和最低层的信息需求,以便最终设计出包含各个层次需要的数据仓库。
- 总之,信息包图法是一种自上而下的数据建模方法,即从用户的观点开始设计(用户的观点是通过与用户交流得到的),站在管理者的角度把焦点集中在企业的一个或几个主题上,着重分析主题所涉及数据的多维特性,这种自上而下的方法几乎考虑了所有的信息源,以及这些信息源影响业务活动的方式。
- 什么是关联规则?关联规则的应用有哪些?
- 关联规则挖掘最初由R.Agrawal等人提出,用来发现超级市场中用户购买的商品之间的隐含关联关系,并用规则的形式表示出来,称为关联规则(Association Rule)。
- 关联规则除了可以发现超市购物中隐含的关联关系之外,还可以应用于其他很多领域。关联规则的应用还包括文本挖掘、商品广告邮寄分析、网络故障分析等。
- 关联规则的分类有哪些?关联规则挖掘的步骤包括什么?
- 关联规则的分类:
- 基于规则中涉及到的数据的维数,关联规则可以分为单维的和多维的。
- 基于规则中数据的抽象层次,可以分为单层关联规则和多层关联规则。
- 基于规则中处理的变量的类型不同,关联规则可以分为布尔型和数值型。
- 关联规则挖掘的步骤:
- 找出交易数据库中所有大于或等于用户指定的最小支持度的频繁项集;
- 利用频繁项集生成所需要的关联规则,根据用户设定的最小可信度进行取舍,产生强关联规则。
- 关联规则的分类:
- Apriori 算法的计算题:P107
- 什么是分类?分类的应用领域有哪些?
- 分类是指把数据样本映射到一个事先定义的类中的学习过程,即给定一组输入的属性向量及其对应的类,用基于归纳的学习算法得出分类。
- 分类问题在商业、银行业、医疗诊断、生物学、文本挖掘、因特网筛选等领域都有广泛应用。
- 例如,在银行业中,分类方法可以辅助工作人员将正常信用卡用户和欺诈信用卡用户进行分类,从而采取有效措施减小银行的损失;在医疗诊断中,分类方法可以帮助医疗人员将正常细胞和癌变细胞进行分类,从而及时制定救治方案,挽救病人的生命;在因特网筛选中,分类方法可以协助网络工作人员将正常邮件和垃圾邮件进行分类,从而制定有效的垃圾邮件过滤机制,防止垃圾邮件干扰人们的正常生活。
- 什么是聚类分析?聚类分析的应用领域有哪些?
- 聚类分析是将物理的或者抽象的数据集合划分为多个类别的过程,聚类之后的每个类别中任意两个数据样本之间具有较高的相似度,而不同类别的数据样本之间具有较低的相似度。
- 聚类分析在科学数据分析、商业、生物学、医疗诊断、文本挖掘、Web数据挖掘等领域都有广泛应用。
- 在科学数据分析中,比如对于卫星遥感照片,聚类可以将相似的区域归类,有助于研究人员根据具体情况做进一步分析;在商业领域,聚类可以帮助市场分析人员对客户的基本数据进行分析,发现购买模式不同的客户群,从而协助市场调整销售计划;在生物学方面,聚类可以帮助研究人员按照基因的相似度对动物和植物的种群进行划分,从而获得对种群中固有结构的认识;在医疗诊断中,聚类可以对细胞进行归类,有助于医疗人员发现异常细胞的聚类,从而对病人及时采取措施;在文本挖掘和Web数据挖掘领域中,聚类可以将网站数据按照读者的兴趣度进行划分,从而有助于网站内容的改进。
- 请描述K-means聚类算法的操作步骤:P139
- 贝叶斯网络的三个主要议题是什么?
- 预测
- 贝叶斯网络的预测是指从起因推测一个结果的推理,也成为由顶向下的推理。
- 诊断
- 贝叶斯网络的诊断是指从结果推测一个起因的推理,也称为由底至上的推理。
- 学习
- 贝叶斯网络的学习是指由先验的贝叶斯网络得到后验的贝叶斯网络的过程。
- 预测
- 怎样从历史数据中训练出结点之间的条件概率或联合条件概率?
- 要训练条件概率$P(B|A)$,可以在历史数据中统计A发生的次数$T(A)$,然后统计在A发生的数据中B发生的次数$T(A,B)$,条件概率$P(B|A) = T(B)/T(A)$。
- 要训练联合条件概率$P(C|A,B$),可以在历史数据中统计A、B共同发生的次数$T(A,B)$,然后在A、B共同发生的数据中统计C发生的次数T$(A,B,C)$,联合条件概率$P(C|A,B)=T(A,B,C)/T(A,B)$。
- 以上的符号A、B、C可以表示某个事件,也可以表示该事件的相反事件。
- 如果贝叶斯网络的各个结点都没有任何证据,从历史数据中如何用两种不同的方法的得到各结点的发生概率?
- 用各节点的发生次数除以总的数据条数,就是各个节点的发生概率。
- 首先,用第一种方法计算原因节点的发生概率,然后计算原因节点到中间节点或结果节点的条件概率,最后根据原因节点的概率和这些条件概率计算结果节点的概率。
- 前馈网络和递归网络有什么本质区别?
- 前馈网络和递归网络的本质区别是网络的某些输出是不是循环作为网络的输入。
- 前馈网络的所有输出都不能作为输入,而递归网络的某些输出可以循环作为网络的输入。
- 多层前馈网络中隐藏层神经元的作用是什么?
- 多层前馈网络中隐藏层神经元的作用是增强网络的适应能力。
- 通过隐藏层,多层前馈网络可以逼近系统中任意非线性的成分。
- 在 BP 算法中,总体误差对网络输出的偏导数和和有序导数是否一致?总体误差对网络输入的偏导数和有序导数是否一致?
- 在BP算法中,总体误差对网络输出的偏导数和有序导数始终一致。
- 这是因为:总体误差与网络输出变量之间没有中间变量。
- 而总体误差对网络输入的偏导数和有序导数是不一致的。
- 这是因为:总体误差和输入变量之间有中间变量。
- 在BP算法中,总体误差对网络输出的偏导数和有序导数始终一致。
- 遗传算法的主要应用有哪些?
- 函数优化问题
- 组合优化问题
- 生产调度问题
- 自动控制
- 图像处理
- 人工生命
- 遗传编程
- 机器学习
- 简单遗传算法包括哪些步骤?
- SGA的基本流程如下:
- 初始化,产生初始种群。
- 个体评价,即计算种群中每个个体的适应度。
- 按选择概率Ps,执行选择算子,从当前种群中选择部分个体进入下一代种群。
- 按交叉概率Pc,执行交叉算子。
- 按变异概率Pm,执行变异算子。
- 若满足设定的终止条件,则输出种群中适应度最优的个体作为问题的最优解或满意解,否则执行(2)。
- SGA的基本流程如下: