首页 - 范文大全 - 文章正文

数据挖掘技术论文(数据挖掘技术论文开题报告)

时间:2020-04-27 06:14:07 作者:黑曼巴 分类:范文大全 浏览:69

毕业需要写作论文。如何撰写数据挖掘技术的开放报告论文?以下是由小编编写的数据挖掘技术论文的开篇报告,欢迎阅读!

数据挖掘技术综述

数据挖掘是一种相对较新的数据库技术。它基于一个由大量日常积累的数据组成的数据库,从中发现——个潜在的有价值的信息,称为知识,用于支持决策。数据挖掘是一种数据库应用技术。本文首先对数据挖掘进行了概述,解释了什么是数据挖掘,什么是数据挖掘技术,然后介绍了数据挖掘的常用技术、数据挖掘的主要过程、如何进行数据挖掘、主要应用领域以及国内外现状分析。

一、研究背景和意义

近十年来,随着数据库系统的广泛普及和计算机技术的快速发展,人们利用信息技术产生和收集数据的能力有了很大提高。数以千万计的数据库已经用于商业管理、政府办公室、科学研究和工程开发等。尤其是网络系统的普及,导致信息爆炸式增长。这一趋势将继续发展。大量的信息给人们带来了方便,但也带来了许多问题。首先,信息太多,难以消化。第二,很难辨别信息是真是假。第三,信息安全难以保证。第四,信息形式不一致,难以统一处理。面对这种情况,一个新的挑战出现了:我们如何不被浩瀚的信息海洋淹没,及时发现有用的知识,提高信息的利用率?这时,一种新技术,——数据挖掘,出现并得到应用。

面对海量的存储数据,如何从中发现有价值的信息或知识成为一项非常困难的任务。数据挖掘正是为了满足这一需求而产生和发展起来的。数据挖掘研究的主要目的是发现知识、可视化数据和纠正数据。

二。概观

1、数据挖掘

数据挖掘是从大量不完整、有噪声、模糊和随机的数据中提取隐藏的、未知的但可能有用的信息和知识的过程。这些数据可以是结构化的,如关系数据库中的数据,也可以是半结构化的,如文本、图形、图像数据,甚至是分布在网络上的异构数据。发现知识的方法可以是数学的、非数学的、演绎的或归纳的。所发现的知识可用于信息管理、查询优化、决策支持、过程控制等。它也可以被执行

数据本身的维护。数据挖掘借助数理统计、人工智能和知识工程领域多年的研究成果,建立了自己的理论体系。它是一个跨学科的领域,可以集成数据数据库、人工智能、数理统计、可视化、并行计算等技术。2、数据挖掘技术

数据挖掘是对观察到的数据集进行分析,以便发现未知的关系,并以一种新的方式对数据进行总结,这种方式能够被数据所有者理解并对其有价值。它使用各种分析方法和工具来建立模型并发现大规模海量数据中的数据关系。这些模型和关系可以用来做决策和预测。

数据挖掘的过程就是知识发现的过程,它可以发现以下几种知识:广义知识,它反映了相似事物的共性;特色知识,反映事物各方面的特色知识;差异知识,反映不同事物之间属性差异的知识;相关知识,反映事物之间依赖或相关的知识;预测知识,基于历史和当前数据预测未来数据;偏差知识揭示了事物偏离规范的异常现象。所有这些知识都可以在不同的概念层次上找到。随着概念树的推广,从微观到中观再到宏观,以满足不同用户和不同决策层的需求。

数据挖掘是一门跨学科的学科,涉及数据库、人工智能、数理统计、力学、人工神经网络、可视化、并行计算等。它是目前世界上数据库和决策支持领域最先进的研究方向之一。

3、数据挖掘功能

数据挖掘通过预测未来趋势和行为做出预测性和基于知识的决策。数据挖掘的目标是从数据库中发现隐藏的和有意义的知识,根据其功能可以分为以下几类。

3.1关联分析

关联分析可以发现数据库中大量数据的相关性。一种常用的技术是关联规则和序列模式。关联规则是为了发现一个事物和其他事物之间的相关性或相互依赖性。

3.2集群

输入数据未标记任何类型。聚类就是按照一定的规则将数据划分成合理的集合,即将对象分成多个类或簇,使同一簇中的对象具有很高的相似性,而不同簇中的对象差异很大。聚类增强了人们对客观现实的理解,是概念描述和偏差分析的前提。聚类技术主要包括传统的模式识别方法和数学分类法。

3.3趋势和行为的自动预测

数据挖掘自动对大型数据库进行分类和预测,搜索预测信息,并自动提出模型来描述重要的数据类别或预测未来的数据趋势。因此,过去需要大量手动分析的问题现在可以从数据本身快速而直接地得出结论。

3.4概念描述

对于数据库中庞杂的数据,人们期望用简洁的描述形式来描述收集到的数据集。概念描述是描述某一类对象的内涵并总结其相关特征。概念描述分为特征描述和差异描述,特征描述描述特定类对象的共同特征,差异描述描述不同类对象之间的差异。生成类的特征只涉及类对象中所有对象的共性。产生差异描述的方法有很多,如决策树方法和遗传算法。

3.5偏差检测

数据库中的数据经常有一些异常记录,因此检测这些与数据库的偏差是非常有意义的。偏差包括许多潜在的知识,如分类中的异常情况、不符合规则的特殊情况、观测结果与模型预测值之间的偏差、量值随时间的变化等。偏差检测的基本方法是找出观测结果和参考值之间有意义的差异。这通常用于检测金融银行业务中的欺诈行为,或在市场分析中分析特殊消费者的消费习惯。

三。研究现状及主要问题

自从KDD这个词首次出现在1989年8月举行的第11届国际人工智能联合会议上。到目前为止,由美国人工智能协会主办的KDD国际研讨会已经举行了13次,其规模已经从最初的研讨会发展到国际学术会议。参与者人数从20人迅速增加到30人,超过1000人论文人)。研究的重点已经逐渐从发现方法转移到系统应用,直到大规模集成系统的开发。它还关注各种发现策略和技术的集成以及各种学科之间的相互渗透。数据挖掘和知识发现也被列为其他专题会议的主题之一,成为计算机科学领域的一个热门话题。

与国外相比,我国对糖尿病肾病的研究起步较晚,尚未形成一个完整的体系。1993年,国家自然科学基金第一次支持了我们在这个领域的研究项目。目前,国内许多科研机构和高等院校都在竞相开展知识发现的基础理论和应用研究。这些机构包括清华大学、中国科学院计算技术研究所、空军第三研究所、海军装备示范中心等。其中,北京系统工程

研究所对模糊方法在知识发现中的应用进行了深入研究,北京大学也在进行数据立方体代数的研究,华中科技大学、复旦大学、浙江大学、中国科技大学、中国科学院数学研究所、吉林大学等单位对关联规则挖掘算法进行了优化和改造。南京大学,四川联合大学和上海交通大学讨论和研究了非结构化数据的知识发现和网络数据挖掘。

四.研究内容

1、数据挖掘的过程

数据挖掘指的是一个完整的过程,它从大型数据库中挖掘出以前未知的、有效的和实用的信息,并利用这些信息来做出决策或丰富知识。

数据挖掘的一般过程如下图所示:

图1,数据挖掘的一般过程

2.1神经网络

神经网络方法模拟人脑神经元的结构,基于多点模型和Hebb学习规则。神经网络模型主要有三种:前馈网络、反馈网络和自组织网络。为

2.2决策树

决策树学习侧重于从一组无序和不规则的事件中推导出决策树表示的分类规则。它采用自顶向下递归比较决策树内部节点的属性值,并根据不同的属性值判断节点向下的分支,在决策树的叶节点得到结论。

2.3遗传算法

遗传算法是一种模拟生物进化过程的优化技术和算法。以进化理论为基础,运用遗传组合、遗传变异和自然选择设计方法。它由三个基本算子组成:繁殖、交叉和变异。

2.4传统统计分析

这种技术基于传统的数理统计。数据库中字段项之间有两种关系:函数关系(确定性关系可以用函数公式表示)和相关关系(确定性关系不能用函数公式表示,但仍然是相关确定性关系)。可以使用判别分析、因子分析、相关分析、多元回归分析和偏最小二乘回归方法来分析它们。

2.5关联规则

关联规则是为了发现一个事物和其他事物之间的相关性或相互依赖性。关联规则是表明属性:的值经常一起出现在给定的数据集中的条件,并且是在数据挖掘中起更广泛作用的知识之一。

2.6可视化技术

可视化技术是一种理论、方法和技术,它利用计算机图形和图像技术将数据转换成图形或图像显示在屏幕上并进行交互处理。可视化数据挖掘技术将可视化有机地融入到数据挖掘中,使用户对数据挖掘有更直接、直观、清晰的了解,为用户有效、主动地参与数据挖掘过程提供了一种方法。

3、数据挖掘的应用领域

数据挖掘技术从一开始就面向应用。它不仅是对特定数据库的简单检索查询调用,而且还对这些数据进行微观、中等甚至宏观的统计、分析、综合和推理,以指导实际问题的解决,试图发现事件之间的相关性,甚至利用现有数据预测未来的活动。

一般而言,数据挖掘已经应用于金融、保险、零售、直销、通信、制造和医疗服务。从更广的意义上来说,数据挖掘意味着在事实或观察数据的集合中寻找模式的决策支持过程。

4、数据挖掘的发展方向

目前,数据挖掘的研究主要包括:数据库知识发现,将知识发现(KDD)与数据库系统、数据仓库系统和网络数据库系统相结合,充分利用网络中丰富的资源;在机器学习方面,我们将进一步研究知识发现方法,希望能够克服现有算法的计算瓶颈,如重视贝叶斯方法和Boosting算法的研究和改进;在统计领域,增加传统统计方法在数据挖掘中的应用。数据挖掘研究正在蓬勃发展,并将在未来引发更大的浪潮。它的研究主要集中在以下几个方面:专门用于知识发现的数据挖掘语言的研究可能会像SQL语言一样走向形式化和标准化;在数据挖掘过程中寻求可视化方法,使知识发现过程能够被用户理解,也便于知识发现过程中的人机交互;研究网络环境下的数据挖掘技术,特别是在互联网上建立数据挖掘服务器,配合数据库服务器实现数据挖掘;加强对各种非结构化数据的挖掘,如文本数据、图形图像数据和多媒体数据。

5、数据挖掘新技术

Web数据挖掘技术主要解决半结构化数据源模型和半结构化数据模型的查询和集成问题。这需要一个模型来清晰地描述网络上的数据,而找到一个半结构化的数据模型是解决这个问题的关键。此外,还需要半结构化模型提取技术,即从现有数据中自动提取半结构化模型的技术。

XML可以看作是一种半结构化的数据模型,它可以方便地将XML的文档描述与关系数据库中的属性进行匹配,实现精确的查询和模型提取。使用XML。网站设计人员不仅可以创建文本和图形,还可以为文档类型定义构建多层次、相互依赖的系统、数据树、元数据、超链接结构和样式表。

6.数据挖掘面临的问题和挑战

虽然数据挖掘技术在各个方面都得到了广泛的应用,但是数据挖掘技术的研究还不够成熟,在应用上有很大的局限性。正是这些局限性推动了数据挖掘技术的进一步发展:

(1)挖掘的对象数据库更大,具有更高的维度和更复杂的属性。数据挖掘处理的数据通常非常大。

(2)数据丢失问题由于大多数数据库不是为知识发现而定制的,因此可能存在一些重要的数据和属性丢失问题。

(3)各种形式的输入数据目前,数据挖掘工具只能处理有限的数据形式,只能处理数字结构化数据。

(4)网络和分布式环境的KDD问题随着网络的发展和资源的丰富,独立处理独立数据库的技术人员的工作方法应该是合作的。

五.研究的预期结果

数据挖掘技术的系统引入使得更多的研究者能够在数据库中发现有用的和潜在的有价值的数据知识。

六.摘要

通过搜索各种数据,我了解了数据挖掘的基本概念、数据挖掘技术、数据挖掘的实际应用以及国内外的现状。在论文中,将介绍数据挖掘的概念和发展,并总结数据挖掘中使用的技术。在现有研究成果的基础上,分析了数据挖掘领域存在的问题。在研究领域,可能主要集中在网络信息的主要应用上。

七.毕业论文流程安排

序列号论文各阶段内容排列日期

1数据调查和方案设计1.4-1.10

2数据挖掘介绍1.11-1.25

4数据挖掘常用技术研究1.26-2.15

5数据挖掘应用研究2.15-3.1(中期检查)

6数据挖掘新技术研究3.1-3.10

7数据挖掘的发展方向3.11-3.16

8书写论文3.16-4.10

9 论文修改4.11-4.30

10准备答辩,并提交给老师进行复习5.1-5.5

上一篇:我的烦恼350字左右,作文我的烦恼500字左右

下一篇:中国现代名人榜,中国现代王姓名人

猜你喜欢
发布评论
登录后发表评论
登录后才能评论

AI 新用户?

免费使用内容重写服务

开始新的写作