当前位置：首页 > news >正文

临时抱佛脚

news 2025/6/6 11:13:27

1.数据、信息、知识分别有哪些特性？三者之间又有何联系？（PPT chap1）

数据：琐碎性，具体，客观

信息：有用性，针对性，主观性，排他性

知识：概念性，抽象性，预测性，指导性

数据（Data）、信息（Information）和知识（Knowledge）是数据认知的不同层次。

2.数据挖掘的技术定义是什么？

从广义的观点上，数据挖掘是从大型数据集（可能是不完全的、有噪声的、不确定性的、各种存储形式的）中，挖掘隐含在其中的、人们事先不知道的、对决策有用的知识的过程

从狭义的观点上，数据挖掘是从特定形式的数据集中提炼知识模式的方法。

3.关联规则挖掘有那两个基本过程？每个过程的主要任务是什么？为什么其中的一个过程更重要？

发现频繁项集：通过用户给定的最小支持度，寻找所有频繁项目集或者最大频繁项目集
生产关联规则：通过用户给定的最小置信度，在频繁项目集中寻找关联规则

相对于第一个子问题而言，由于第二个子问题相对简单，而且在内存、I/O以及算法效率上改进余地不大，因此，第一个子问题是近年来关联规则问题算法研究的重点

4.一般把KDD看作有哪些基本处理步骤构成？这些步骤的主要目的是什么？

问题定义： 明确你需要从数据中发现什么有用的信息。这是整个过程的起点和关键。

数据抽取： 从源数据库中选择并提取出与你的目标相关的数据。

数据预处理： 对抽取出的数据进行“清洗”，包括处理缺失值、消除噪声和重复项，并进行数据格式转换，确保数据质量和一致性。

数据挖掘： 运用特定的算法，从经过预处理的数据中找出你需要的模式或知识。

模式评估： 呈现发现的知识，并评估其是否符合你的预期。如果结果不满意，则需要返回之前的步骤进行调整，直到获得有用的知识。

5.请简述Apriori算法步骤并说明该算法的缺陷

Apriori 算法通过逐步增加项目集的大小来发现频繁项目集。它从包含单个元素的频繁项目集（L1）开始，每次迭代都尝试生成更大尺寸的频繁项目集。

在每一步（例如，发现 k 个元素的频繁项目集时），算法会先生成所有可能的 k-候选项目集 (Ck)。然后，它通过扫描数据库来计算这些候选集的支持度，并筛选出那些支持度达到阈值的，从而得到最终的 k-频繁项目集 (Lk)。这个过程会一直重复，直到无法再找到更大的频繁项目集为止。

多次扫描事务数据库，需要很大的I/O负载
可能产生庞大的候选集

6.简述分类器的性能表示（书P164）与评估（书P165）的主要方法

性能表示

分类器的性能表示方法类似于信息检索系统。当只有两个类别（例如，A类和B类）时，分类器会产生四种可能的输出结果，这些结果可以帮助我们了解分类器的表现

保持法：把所有数据随机分成两部分：一部分用于训练分类器（比如 1/3 的数据），另一部分用于测试分类器（剩下的 2/3 数据）
交叉验证：把数据随机分成 n 等份。每次取其中一份作为测试集，剩下的 n−1 份作为训练集来建立模型并进行测试。这个过程会重复 n 次，直到每一份都做过测试集

7.DBSCAM

概念：DBSCAN是一种基于密度的聚类算法，它能够发现任意形状的簇，并且可以识别出噪声点。核心思想：如果一个区域内的数据点密度足够高，那么这些点就属于同一个簇

步骤：1.从数据集中随机选择一个未被访问的点P 2.检查P的领域 3.扩展簇：遍历其领域所有点 4.重复1～3直到数据集中的所有点都被访问并分配

优点：能够发现任意形状的簇，能够识别噪声点，无需预设簇的数量

缺点：参数选择困难，对密度差异大的数据集效果不佳，处理高纬数据困难

8.层次聚类主要方法和特点是什么？请简要介绍。

主要方法 1.凝聚的层次聚类是一种自底向上的策略：首先将每个对象作为一个簇，然后合并这些原子簇为越来越大的簇，直到所有的对象都在一个簇中，或者某个终结条件被满足，绝大多数层次聚类方法属于这一类，它们只是在簇间相似度的定义上有所不同。

2.分裂的层次聚类与凝聚的层次聚类相反，采用自顶向下的策略，它首先将所有对象置于一个簇中，然后逐渐细分为越来越小的簇，直到每个对象自成一簇，或者达到了某个终结条件

9.密度聚类方法的主要思路是：