浅谈数据挖掘技术

2021-11-24 来源：欧得旅游网

科技信息　ｏＩＴ技术论￣２０　ＳＣＩＥＮＣＥ＆ＴＥＣＨＮＯＬＯＧＹＩＮＦＯＲＭＡＴＩＯＮ　２００８年第３５期　浅谈数据挖掘技术　李娜　（西安外事学院信息工程学院实验中心　陕西【摘西安７１００７７）　要】随着海量数据搜集技术提高、数据挖掘算法的不断完善、多处理器计算机技术的不断发展，成为支持数据挖掘技术发展的基础，　数据挖掘使数据库技术进入了一个更高级的阶段，它不仅能对历史数据进行查询和遍历，并且可以找出历史数据之间的游在联系，从而促进信　息的传递　【关键词】ＫＤＤ；数据挖掘；数据挖掘技术　一、ＫＤＤ简述　个决策而进行的一系列判断过程的树形图。这些决策集合通过对数据　　知识发现（Ｋｎｏｗｌｅｄｇｅ　ｄｉｓｃｏｖｅｒｙ　ｉｎ　ｄａｔａｂａｓｅ，简称ＫＤＤ）是从数据　集的分类产生规则，典型的应用是分类规则的挖掘。决策树的基本组成部分包括决策节点、分支和叶子。决策树的结　中发现有用知识的整个过程：数据挖掘是ＫＤＤ过程中的一个特定步　骤，它用专门算法从数据中抽取模式。随着ＫＤＤ研究的不断深人，人　构是一棵二叉树或多叉树，二叉树的内部非叶子节点一般表示为一个　　们对ＫＤＤ的理解越来越全面，对ＫＤＤ的定义也不断修改．目前对　逻辑判断。树的边是逻辑判断的分支结果。多叉树的内部节点是属性，ＫＤＤ比较通用的一个定义是：ＫＤＤ是从大量数据中提取出可信的、新　边是该属性的所有取值，这样，有几个属性值就有几条边。构造一个决　策树分类器通常分为两步：树的生成和剪枝。树的生成采用自上而下　颖的、有效的并能被人理解的模式的处理过程。　的递归分治法。剪枝就是剪去那些不会增大树的错误预测率的分枝。　数据挖掘（Ｄａｔａ　Ｍｉｎｉｎｇ，ＤＭ）也称为数据库中的知识发现　数据挖掘中决策树是一种经常用到的技术，可以用于分析数据，也可　Ｄ、ＣＡＲＴ、Ｑｕｅｓｔ和Ｃ５．０。　（Ｋｎｏｗｌｅｄｇｅ　Ｄｉｓｃｏｖｅｒｙｉｎ　Ｄａｔａｂａｓｅ，ＫＤＤ），是近几年来随着数据库和人　以用来作预测．常用的算法有ＣＨＡＩ二、数据挖掘　工智能发展起来的一门新兴的技术，数据挖掘就是从大量的、不完全　的、有噪声的、模糊的、随机的实际应用数据中，提取隐含在其中的、人　５．贝叶斯　贝叶斯分类是统计学分类方法。它可以预测类成员关系的可能　　们事先不知道的、但又是潜在有用的信息和知识的过程。数据挖掘是　性，如给定样本属于一个特定类的概率。贝叶斯分类基于贝叶斯定理，从数据库中发现知识的全部过程中的一个特定步骤．也可以说是一核　将先验信息与样本信息综合，得到后验信息。在数据挖掘中，主要有两　心步骤。数据挖掘主要是利用各种知识发现算法从数据库数据中发现　种ｂａｙｅｓ方法．即Ｎａｖｅ—ｂａｙｅｓ方法和ｂａｙｅｓ网络。朴素贝叶斯分类直接　有关的知识。目前常用的数据挖掘技术有：关联规则法、粗糙集方法、　利用ｂａｙｅｓ公式进行预测．把从训练样本中计算出的各个属性值和类　分类方法、聚类方法、人工神经网络、决策树法、遗传算法等　三、数据挖掘技术方法　别频率比作为先验概率，并假定各个属性之间是独立的，就可以用　ｂａｙｅｓ公式和相应的概率公式计算出要预测实例的对各类别的条件概　常用的数据挖掘技术可以分成统计分析类、知识发现类和其他类　率值。选取概率值最大的类别作为预测值。此方法简单易行并且具有　型的数据挖掘技术三大类。下面介绍数据挖掘技术的几种常用方法。　较好的精度。比较研究发现，朴素贝叶斯分类算法可以与判定树和神　经网络算法相媲美。用于大型数据库，也已表现出高准确率与高速度。　６．规则归纳　人工神经网络（ＡＮＮ）是以计算机网络系统模拟生物神经网络的　规则归纳相对来讲是数据挖掘特有的技术。它指的是通过统计方　智能计算系统。神经网络的主要部分是神经元．它具有的生物特征包　ｆ－Ｔｈｅｎ规则。规则归纳的技术在数据挖掘中　括：是一个多输入、单输出的元件；具有非线性的元件；具有可塑性，传　法归纳、提取有价值的Ｉ１．人工神经网络　递强度可变的特征：其输出是每个输入综合的结果。网络上的每个结　被广泛使用．例如关联规则的挖掘　７．模糊集　点相当于一个神经元，经可以记忆（存储）、处理一定的信息。并与其它　模糊集即利用模糊集合理论对实际问题进行模糊评判、模糊决　模糊性越强，　成分类、聚类、特征采掘等多种数据采掘任务。具有以下优点：可以充　策、模糊模式识别和模糊聚类分析。系统的复杂性越高．分逼近任意复杂的非线性关系；所有定量或定性的信息都等势分布贮　将模糊逻辑引入，允许定义“模糊”边界，提供了在高抽象层处理的便　存于网络内的各神经元，故有很强的鲁棒性和容错性：采用并行分布　利。李德毅等人在传统模糊理论和概率统计的基础上．提出了定性定　结点并行　１：作。它是一种通过训练来学习的非线性预测模型。可以完　　处理方法，使得快速进行大量运算成为可能；可学习和自适应不知道　量不确定性转换模型～云模型，并形成了云理论。或不确定的系统；能够同时处理定量、定性知识　在过去十几年里神经　网络取得了飞速的发展，发展出了很多的模型及其改进．例如ＢＰ（Ｂａｃｋ　四、结束语　数据挖掘是当前数据库和信息决策领域的前沿研究方向之一，数　Ｐｒｏｐａｇａｔｉｏｎ，后向传播）模型，回归神经网络（ＲＮＮ），Ｈｏ　ｅｌｄ神经网络，　据挖掘的研究和应用受到了学术界和实业界越来越多的重视。数据挖　掘技术也正以前所未有的速度在不断的发展，我们相信，在未来的市　ＲＢＦ神经网络等　场竞争中，拥有了数据挖掘技术必将比别人获得更快的市场信息，必　２．粗糙集　　粗糙集（Ｒｏｕｇｈ　Ｓｅｔ）能够在缺少关于数据先验知识的情况下，只以　将赢得更多的商机。考察数据的分类能力为基础，解决模糊或不确定数据的分析和处理问　题。粗糙集理论由波兰科学家Ｚ．Ｐａｗｌａｋ在１９８２年首先提出．定义它为　一【参考文献】　Ｐａｏｌｏ　Ｇｉｕｄｉｃｉ（Ａｐｐｌｉｅｄ　Ｄａｔａ　Ｍｉｎｉｎｇ：Ｓｔａｔｊｓｔ　ａｌ　Ｍｅｔｈｏｄｓ　ｆｏｒ　Ｂｕｓｉｎｅｓｓ　ａｎｄ　种研究不精确、不确定性知识的数学工具。粗糙集用于离散值属性．　［１］Ｉｎｄｕｓｔｒｙ）．　因此，在对连续值属性进行处理前必须要先进性数据的离散化。　３．遗传算法　［２］Ｇｏｒｄｏｎ　ｓ．Ｌｉｎｏｆｆ　Ｍｉｃｈａｅｌ　Ｊ．Ａ．Ｂｅｒｒｙ（Ｍｉｎｉｎｇ　ｔｈｅ　Ｗｅｂ：Ｔｒａｎｓｆｏｒｍｉｎｇ　Ｃｕｓｔｏｍｅｒ　Ｄａｔａ　ｉｎｔｏ　Ｃｕｓｔｏｍｅｒ　Ｖａｌｕｅ）．　［３］张云涛，龚玲《数据挖掘原理与技术》．　遗传算法是一种基于生物自然选择与遗传机理的随机搜索算法，　是一种仿生全局优化方法。遗传算法具有的隐含并行性、易于和其它　［４］薛鸿民（Ｗｅｂ数据挖掘技术研究》现代电子技术２００６．　模型结合等性质使得它在数据挖掘中被加以应用。遗传算法的应用还　［５］宋中山曾广平《基于ＸＭＬ的Ｗｅｂ数据挖掘技术》中南民族大学学报：自然　体现在与神经网络、粗集等技术的结合上。如利用遗传算法优化神经　科学版２００５年第２４卷第１期．　网络结构，在不增加错误率的前提下，删除多余的连接和隐层单元：用　遗传算法和ｂｐ算法结合训练神经网络，然后从网络提取规则等。但遗　作者简介：李娜（１９７８～），讲师，２００２年毕业于西安电子科技大学．现任西　传算法的算法较复杂，收敛于局部极小的较早收敛问题尚未解决。　４．决策树　决策树是用树形结构来表示决策集合，用以表示人们为了做出某　安外事学院信息工程学院实验中心教师．研究方向为软件工程。　［责任编辑：张艳芳］　７３　

因篇幅问题不能全部显示，请点此查看更多更全内容

查看全文

全部栏目

浅谈数据挖掘技术