首页 - 范文大全 - 文章正文

数据挖掘本科论文(数据挖掘方面的毕业论文选题)

时间:2020-08-04 12:09:20 作者:黑曼巴 分类:范文大全 浏览:106

《数据挖掘综述》

本文是一个数据挖掘相关硕士学位论文模型和数据挖掘相关论文模型的数据库。

关键词:数据挖掘;研究;发展趋势

摘要:随着计算机技术的发展,数据挖掘技术已经扩展到新的领域,引起了越来越多学者的关注。摘要:介绍了数据挖掘技术的概念和功能,选取了中国知网关于数据挖掘的文献,分析了这些文献的关键词共现和作者合作情况,得出了近十年来数据挖掘领域的研究方向和热点,并预测了数据挖掘未来的发展趋势。

中间图分类号:G250文件标识码:A条编号:1003-1588(2018)08-0130-04

20世纪90年代,计算机技术和计算机网络技术开始迅速发展,数据和信息的外延进一步扩大。传统的纸质文档和文档数据被扩展成各种类型,如视频、音频、图形、图像、电子文件等。这不仅使信息的形式多样化,而且使信息产生的速度有了质的飞跃。以互联网为例。2013年,全球互联网流量达到每天1EB(约10亿GB),并且仍以40%的速度增长。科学家预测,2020年全球信息量将超过40ZB[1]。互联网技术的出现使人们更容易与信息互动和合作,并使信息量呈指数级增长[2]。

海量的数据信息为人们提供了便利,但同时也带来了一定的负面影响,如信息过载、信息距离、信息孤岛等。太多无用的信息使得有效的信息难以被发现和提炼。这就是约翰·尼斯堡所说的“信息丰富但知识匮乏”的困境。因此,只有通过分析海量数据,提炼隐藏的有效信息和知识资源,才能有效利用。然而,仅仅依靠传统的人工检索分析方法或自动数据库分析很难获得令人满意的结果。由于分析对象数量庞大,传统的手工检索需要消耗大量的人力和物力来实现既定的目标,并且由于信息的时效性,一些分析结果往往是无用的。虽然数据库分析可以避免信息时效性的风险,但很难有效地组织信息数据之间的关系内容或关联规则,根据现有的数据信息分析未来的发展趋势,更难以获得深入的知识。因此,当人们迫切需要一种新的工具来改变这种状况时,数据挖掘技术应运而生。

1什么是数据挖掘

数据挖掘,也称为数据库中的知识发现,是由UsamaM定义的。法耶兹和其他人是从大量数据中收集有效、新颖、潜在有用和最终可理解的知识的过程。数据挖掘在国际会议上被认为是“提取数据库中未知的、潜在有用的和不平凡的知识”。中国学者也对数据挖掘进行了研究和总结。杨认为“数据挖掘是从数据中提取潜在的信息,这些信息包含了过去未知的有用价值”;华柏林认为“数据挖掘是从大量的、不完全的、有噪声的、模糊的和随机的实际应用数据中提取潜在信息和知识的过程,这些数据隐藏在其中但有一定的用途”;王明认为“数据挖掘是在大规模数据存储中自动发现有用信息的过程”[3-6。总之,数据挖掘是一个过程,它包括海量数据的收集和清理,通过关联规则或分类对数据的处理,以及结果的可视化呈现,以便人们能够清楚地识别海量数据的内部联系。

2基于中国知网的数据挖掘文献分析

2.1数据源和排列

作者调查分析的文献均来自CNKI数据库,检索时间为2017年5月29日,检索时间为2006-2016年,时间跨度为10年,“数据挖掘”是检索的主题词,共计34155条文献记录,包括主题词、关键词、标题、参考文献等。都获得了。据统计,得到了2006年至2016年每年发布的数据挖掘文档的分布图(见图1)。图1显示,从2006年到2016年,每年发布的数据挖掘文档的数量超过2000,这表明数据挖掘和数据挖掘相关领域已经受到高度关注。自2012年以来,发布的数据挖掘相关文档数量呈逐年上升趋势,2016年首次超过4000篇。预计未来几年数据挖掘仍将是各领域关注和应用的热点。

图12006-2016数据挖掘论文发表数量

2.2绘图和分析

2.2.1关键词和关键词的共现。共现是指同一或不同特征在文档中共同出现的现象。关键词和关键词的共现可以称为“共词现象”。这一现象可以用来大致确定一个学科的研究重点和研究结构,并阐明该学科中各学科之间的关系[7]。人们普遍认为,一篇文章中出现越多不同的词,这些词之间的关系就越密切。通过计算一组文档中出现在同一文档中的关键词或主题的频率,可以由这些词形成相关的“共词网络”。作者使用中国知网可视化分析工具分析从中国知网收集的文件,并获得图2。对关键词进行统计分析后,得到表1(排除了通用性强的“数据挖掘”一词)。无向图的内部中心性表示网络中一个节点和其他节点之间的关联度。对于有g个节点的无向图,节点I的中心性是I和其他g-1节点之间的直接连接的总数,CD(NI)等于∑gJ等于1×ij(I≠j)。斯坦利·瓦瑟曼和凯瑟琳·福斯特在1994年提出了一个计算中心度的标准化公式,即C′d(Ni)等于CD (Ni)/G-1 [8]。作者分析了图2和表1,发现“关联规则”的出现频率被计算为3108。其中心度为0.79,大大超过了其他关键词的中心度。它的节点最大,位于关键字网络图的中心。关键词“频繁项集”和“Apriori算法”的出现频率分别为392次和773次,与“关联规则”的共现频率分别达到253次和546次,共现概率超过60%。这表明这三个关键词具有高度的内在相关性。“数据仓库”、“决策树”、“聚类”和“大数据”等关键词在2006年至2016年发布的数据挖掘文档中出现的频率也很高。这表明过去10年来数据挖掘研究的热点都与它们有关。此外,中心性与关键词出现的频率没有正相关。有些关键词出现频率低,但中心度高。这意味着该关键字属于近年来新出现的关键字。这些关键词一般属于新兴的枢纽节点,经常与其他关键词一起出现,起到承接的作用。未来可能会有广阔的发展空间。例如,关键词“神经网络”、“电子商务”和“分类”的中心度已经达到0.26以上,但是它们不是高频率的子关键词。这表明这些关键词在学术界引起了极大的关注和讨论。回顾过去10年的数据挖掘关键词,笔者发现它们可以分为三类:数据挖掘方法如“关联规则”、“决策树”、“Apriori算法”、“电子商务”、“数据仓库”等数据挖掘应用技术,“大数据”和“云计算”。其中,数据挖掘方法贯穿于数据挖掘研究的全过程,关键词的出现频率普遍较高。它是整个数据挖掘的中心,“关联规则”属于这一类。而数据挖掘应用技术是基于数据挖掘方法,以“应用”为核心开发一系列相关关键词。“大数据”和“云计算”作为独立的类别,虽然近年来出现的频率越来越高,但与数据挖掘的整体相关性并不是很密切,所以实力相当

表12006-2016数据挖掘相关文献关键词频率表

系统304在线分析2292.2.2作者的分布图。作者通过CNKI可视化分析工具对数据挖掘文献的作者分布情况进行统计后发现,胡和杨炳如自2006年以来发表了相关的数据挖掘文献(由于篇幅限制,仅截取了前11位作者的文献分布情况),随后几年陆续发表了大量文献。然而,自2011年以来,发表的文件数量逐年减少。唐、和范新生开始以上述两位作者的身份同时发表数据挖掘文献,并延续至今。虽然已发表的文档数量不高,但他们长期坚持进行数据挖掘研究。吴嘉瑞和任玉兰开始发表数据挖掘文献的时间比上述作者晚,以前的研究成果也较少,但他们、张冰和张小莽在不久的将来发表了大量的研究成果。笔者经调查发现,近年来论文数量达到高峰的张兵、吴嘉瑞、张晓芒均属于北京中医药大学,而、唐属于医学界。这表明医疗行业在现阶段非常重视数据挖掘领域的研究(见图3)。

图32006-2016数据挖掘文档作者分布

2.2.3组织分布图。不同的组织对同一学科有不同的贡献,有些组织在不同时期对同一学科的关注也不同。作者利用中国知网可视化分析工具,分析了30所大学在不同时期发表的数据挖掘论文数量。由于空间限制,只有前13所大学被列为例子(见图4)。其中,北京科技大学和合肥工业大学自2006年以来发布了大量的数据挖掘研究成果,但总体趋势在经历了高峰期后有所下降,并持续至今。北京中医药大学则处于相反的状态。2006年,该大学发表的文章数量相对较少,但研究结果和此后发表的文章数量总体呈上升趋势。武汉大学也在2006年开始出版数据挖掘文献。在接下来的几年里,大量的文献不断被发表,尤其是近年来,武汉大学发表的文献数量呈现出明显的上升趋势。2006年,四川大学、吉林大学、同济大学和中南大学发表了更多的文献和研究成果,并稳步发展。清华大学在2006年发表了大量数据挖掘文献后,长期处于下降趋势,但在2012年转向上升趋势。图4显示大学是出版数据挖掘文献的主要力量,企业和科研机构发表的成果相对较少,表明数据挖掘领域的研究工作一般由大学承担。机构的分布在一定程度上表明了当地对数据挖掘领域的重视,如图4所示。我国南方沿海地区和中原北部地区高度重视数据挖掘研究,而西北和西南地区相对不重视数据挖掘研究。综合数据挖掘文献,武汉大学在该领域处于领先地位,2006年发表了相当数量的数据挖掘文献,近年来该领域的研究并未减少,未来几年仍将是该研究领域的主力军。虽然合肥工业大学发布的数据挖掘文档数量仅次于武汉大学,但大多数都是在2011年之前发布的。近年来,合肥工业大学已经减少了对数据挖掘领域的关注。北京中医药大学在数据挖掘领域的研究起步较晚,发表的论文数量相对较少,但其在数据挖掘领域的研究近年来发展迅速。

图42006-2016数据挖掘领域文献组织分布

2.3分析结果

作者分析了关键词和关键词的共现图、作者分布图和组织分布图。从研究课题来看,数据挖掘的研究一直在发展,并不仅仅满足于数据挖掘方法和理论的研究,而是逐渐将技术应用引入到研究课题中,并不断将研究范围扩展到其他领域,如近年来应用数据挖掘的医学领域。从作者分布来看,作者在新兴领域发表的文章数量逐渐增加,而在理论研究领域发表的文章数量相对减少。从组织分布的角度来看,当组织在其关注领域处于发展的热点时期时,发表的文章数量将明显增加,并将推动整个学科的发展和应用。目前,虽然在数据挖掘领域发表的大部分文献都集中在一些著名的大学,但是组织在新兴应用领域的影响和发展不容忽视,他们将来也可能在这个领域有发言权。

数据挖掘的3个热点和趋势

3.1数据挖掘理论与技术研究

对数据挖掘理论和技术的研究可以使数据挖掘技术的理论体系更加完善,可以涵盖随着时代技术的发展而出现的其他类别的技术理论领域,可以对大量的数据资源进行高效有效的分析,可以获得正确的词间关系或潜在知识。因此,研究和开发数据挖掘的理论体系是非常必要的。

3.2数据挖掘应用技术研究

单独存在的理论知识对用户来说意义不大。只有将理论转化为应用技术,才能创造新的价值。企业和用户会出于兴趣和实用性的目的产生关键的关注对象,如数据挖掘应用系统,如电子商务挖掘和客户关系管理。因此,数据挖掘的应用技术将在企业和用户的明确要求下科学发展。

3.3大数据云计算的数据挖掘研究

大数据云计算是一种新的计算模式,它是分布式处理、并行处理、网格计算、网络存储、虚拟化、负载均衡等传统计算机技术与网络技术发展相结合的产物[9]。大数据和云计算专注于在快速有效的分析后获取海量资源中包含的隐藏知识和相关关系。在该领域的数据挖掘技术发展中,必须注意安全和隐私问题([10】。数据挖掘过程中会出现专利侵权和网络泄露,敏感信息的泄露会严重影响用户体验。如何在不涉及隐私和安全的情况下进一步开发数据挖掘技术和工具是未来需要研究的重要课题。

结论

综上所述,数据挖掘已经引起了社会各界越来越多的关注,成为一个热门的研究课题。由此可见,数据挖掘的理论、技术和应用具有重要意义。目前,大数据挖掘已经涉及到越来越多的领域,如近年来在医学领域的大量应用,未来还会涉及到更多的领域。然而,数据挖掘并不是万能的,它只是一种分析方法和工具,需要专业人员根据具体情况,结合相关行业的总体环境和国家的政策法规进行综合分析,才能获得正确专业的数据挖掘信息。

参考:

[1]中国工业研究网。目前,全球互联网流量达到1EB [EB/OL]。[2017-05-30]。http://www.chinairn.com/news/20131011/090221827.html.

杨。可视化分析在数据挖掘领域的研究现状和趋势[。图书情报工作,2015 (S2): 142-147。

赵丹群。数据挖掘:原理、方法和应用[。现代图书馆与信息技术,2000 (6): 41-44。

[4]乌萨马。《知识发现——数据库:一个新的视角》,[M。关系数据挖掘,2001:28-47。

⑸柏华·林。数据挖掘与知识发现的关系分析[[]。信息论与实践,2008 (4): 507-510。

[6][10]王明。《数据挖掘概述》,[。河北软件学院学报,2012 (1): 45-48。

吕娜吴晓求。热点分析仪的研究

数据挖掘论文参考:

大数据论文

如何查找毕业论文数据

大数据杂志

纸质数据

大数据论文

数据挖掘论文

本文总结了:本文是关于数据挖掘的硕士和学士学位论文,包括数据挖掘论文题目、论文提纲、数据挖掘论文开题报告、文献综述和参考文献。

上一篇:《清平乐·村居》,清平乐·村居古诗

下一篇:想象未来学校作文400字(未来的学校作文一等奖)

猜你喜欢
发布评论
登录后发表评论
登录后才能评论

AI 新用户?

免费使用内容重写服务

开始新的写作