浅谈数据挖掘技术
2021-11-24
来源:欧得旅游网
科技信息 oIT技术论 ̄20 SCIENCE&TECHNOLOGYINFORMATION 2008年第35期 浅谈数据挖掘技术 李娜 (西安外事学院信息工程学院实验中心 陕西【摘西安710077) 要】随着海量数据搜集技术提高、数据挖掘算法的不断完善、多处理器计算机技术的不断发展,成为支持数据挖掘技术发展的基础, 数据挖掘使数据库技术进入了一个更高级的阶段,它不仅能对历史数据进行查询和遍历,并且可以找出历史数据之间的游在联系,从而促进信 息的传递 【关键词】KDD;数据挖掘;数据挖掘技术 一、KDD简述 个决策而进行的一系列判断过程的树形图。这些决策集合通过对数据 知识发现(Knowledge discovery in database,简称KDD)是从数据 集的分类产生规则,典型的应用是分类规则的挖掘。决策树的基本组成部分包括决策节点、分支和叶子。决策树的结 中发现有用知识的整个过程:数据挖掘是KDD过程中的一个特定步 骤,它用专门算法从数据中抽取模式。随着KDD研究的不断深人,人 构是一棵二叉树或多叉树,二叉树的内部非叶子节点一般表示为一个 们对KDD的理解越来越全面,对KDD的定义也不断修改.目前对 逻辑判断。树的边是逻辑判断的分支结果。多叉树的内部节点是属性,KDD比较通用的一个定义是:KDD是从大量数据中提取出可信的、新 边是该属性的所有取值,这样,有几个属性值就有几条边。构造一个决 策树分类器通常分为两步:树的生成和剪枝。树的生成采用自上而下 颖的、有效的并能被人理解的模式的处理过程。 的递归分治法。剪枝就是剪去那些不会增大树的错误预测率的分枝。 数据挖掘(Data Mining,DM)也称为数据库中的知识发现 数据挖掘中决策树是一种经常用到的技术,可以用于分析数据,也可 D、CART、Quest和C5.0。 (Knowledge Discoveryin Database,KDD),是近几年来随着数据库和人 以用来作预测.常用的算法有CHAI二、数据挖掘 工智能发展起来的一门新兴的技术,数据挖掘就是从大量的、不完全 的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人 5.贝叶斯 贝叶斯分类是统计学分类方法。它可以预测类成员关系的可能 们事先不知道的、但又是潜在有用的信息和知识的过程。数据挖掘是 性,如给定样本属于一个特定类的概率。贝叶斯分类基于贝叶斯定理,从数据库中发现知识的全部过程中的一个特定步骤.也可以说是一核 将先验信息与样本信息综合,得到后验信息。在数据挖掘中,主要有两 心步骤。数据挖掘主要是利用各种知识发现算法从数据库数据中发现 种bayes方法.即Nave—bayes方法和bayes网络。朴素贝叶斯分类直接 有关的知识。目前常用的数据挖掘技术有:关联规则法、粗糙集方法、 利用bayes公式进行预测.把从训练样本中计算出的各个属性值和类 分类方法、聚类方法、人工神经网络、决策树法、遗传算法等 三、数据挖掘技术方法 别频率比作为先验概率,并假定各个属性之间是独立的,就可以用 bayes公式和相应的概率公式计算出要预测实例的对各类别的条件概 常用的数据挖掘技术可以分成统计分析类、知识发现类和其他类 率值。选取概率值最大的类别作为预测值。此方法简单易行并且具有 型的数据挖掘技术三大类。下面介绍数据挖掘技术的几种常用方法。 较好的精度。比较研究发现,朴素贝叶斯分类算法可以与判定树和神 经网络算法相媲美。用于大型数据库,也已表现出高准确率与高速度。 6.规则归纳 人工神经网络(ANN)是以计算机网络系统模拟生物神经网络的 规则归纳相对来讲是数据挖掘特有的技术。它指的是通过统计方 智能计算系统。神经网络的主要部分是神经元.它具有的生物特征包 f-Then规则。规则归纳的技术在数据挖掘中 括:是一个多输入、单输出的元件;具有非线性的元件;具有可塑性,传 法归纳、提取有价值的I1.人工神经网络 递强度可变的特征:其输出是每个输入综合的结果。网络上的每个结 被广泛使用.例如关联规则的挖掘 7.模糊集 点相当于一个神经元,经可以记忆(存储)、处理一定的信息。并与其它 模糊集即利用模糊集合理论对实际问题进行模糊评判、模糊决 模糊性越强, 成分类、聚类、特征采掘等多种数据采掘任务。具有以下优点:可以充 策、模糊模式识别和模糊聚类分析。系统的复杂性越高.分逼近任意复杂的非线性关系;所有定量或定性的信息都等势分布贮 将模糊逻辑引入,允许定义“模糊”边界,提供了在高抽象层处理的便 存于网络内的各神经元,故有很强的鲁棒性和容错性:采用并行分布 利。李德毅等人在传统模糊理论和概率统计的基础上.提出了定性定 结点并行 1:作。它是一种通过训练来学习的非线性预测模型。可以完 处理方法,使得快速进行大量运算成为可能;可学习和自适应不知道 量不确定性转换模型~云模型,并形成了云理论。或不确定的系统;能够同时处理定量、定性知识 在过去十几年里神经 网络取得了飞速的发展,发展出了很多的模型及其改进.例如BP(Back 四、结束语 数据挖掘是当前数据库和信息决策领域的前沿研究方向之一,数 Propagation,后向传播)模型,回归神经网络(RNN),Ho eld神经网络, 据挖掘的研究和应用受到了学术界和实业界越来越多的重视。数据挖 掘技术也正以前所未有的速度在不断的发展,我们相信,在未来的市 RBF神经网络等 场竞争中,拥有了数据挖掘技术必将比别人获得更快的市场信息,必 2.粗糙集 粗糙集(Rough Set)能够在缺少关于数据先验知识的情况下,只以 将赢得更多的商机。考察数据的分类能力为基础,解决模糊或不确定数据的分析和处理问 题。粗糙集理论由波兰科学家Z.Pawlak在1982年首先提出.定义它为 一【参考文献】 Paolo Giudici(Applied Data Mining:Statjst al Methods for Business and 种研究不精确、不确定性知识的数学工具。粗糙集用于离散值属性. [1]Industry). 因此,在对连续值属性进行处理前必须要先进性数据的离散化。 3.遗传算法 [2]Gordon s.Linoff Michael J.A.Berry(Mining the Web:Transforming Customer Data into Customer Value). [3]张云涛,龚玲《数据挖掘原理与技术》. 遗传算法是一种基于生物自然选择与遗传机理的随机搜索算法, 是一种仿生全局优化方法。遗传算法具有的隐含并行性、易于和其它 [4]薛鸿民(Web数据挖掘技术研究》现代电子技术2006. 模型结合等性质使得它在数据挖掘中被加以应用。遗传算法的应用还 [5]宋中山曾广平《基于XML的Web数据挖掘技术》中南民族大学学报:自然 体现在与神经网络、粗集等技术的结合上。如利用遗传算法优化神经 科学版2005年第24卷第1期. 网络结构,在不增加错误率的前提下,删除多余的连接和隐层单元:用 遗传算法和bp算法结合训练神经网络,然后从网络提取规则等。但遗 作者简介:李娜(1978~),讲师,2002年毕业于西安电子科技大学.现任西 传算法的算法较复杂,收敛于局部极小的较早收敛问题尚未解决。 4.决策树 决策树是用树形结构来表示决策集合,用以表示人们为了做出某 安外事学院信息工程学院实验中心教师.研究方向为软件工程。 [责任编辑:张艳芳] 73