文本解读能力论文开题报告(文本聚类的开题报告)
文本聚类打开报告基于均值的文本聚类研究摘要:文本聚类可以将相似度较大的文本归为一类。它计算复杂度低,并具有与文档数量成线性关系的特点。在文本集由向量空间模型表示后,文本的相似性由向量之间的距离表示:4个评价标准文本聚类的有效性需要验证。5实验结果的聚类分析本文使用的实验数据主要是搜狗语料库。两个表中的实验结果表明了改进算法的有效性。
文本聚类打开报告
基于均值的文本聚类研究
摘要:文本聚类可以将相似度较大的文本归为一类。K-Means常用于文本聚类,但由于聚类中心的选择会影响聚类结果,导致聚类不稳定,因此采用一种基于聚类中心的改进算法对文本进行分析,并通过实验验证了该算法的有效性。
中国论文网http://www.xzbu.com/9/view-6244858.htm
关键词文本聚类;k-均值;相似性;度量标准
中间图分类号:TP391文件标识码:b
货号:1671-489X(20XX)18-0050-03
基于K均值的文本聚类研究//张越,胡,李
摘要文本聚类可以将相似度较大的文本聚类到同一个类中,由于对聚类中心的影响,通常采用K-Means算法进行文本聚类,导致聚类不稳定。因此,本文paper采用了一种基于聚类中心的文本分析改进算法,通过实验,验证了改进算法的有效性。
关键词文本聚类;k-均值;相似性;测量标准
文本聚类是文本挖掘的一项重要技术,它将不同的文本聚合成不同的类别。这是一种无人监督的学习技术。每个类别中包含的文本具有很大的相似性,而不同类别之间的相似性相对较小。文本聚类是数据挖掘的一个重要分支。它可以应用神经网络、机器学习等技术对不同的文本进行自动分类。
在文本聚类分析中,向量空间模型[1]通常用于文本特征表示,能够更好地表示文本。在文本聚类的研究中,Steinbach等人研究了基于划分的方法和基于层次的方法在文本聚类中的适用性[2-3],并得出结论:使用K-Means算法进行聚类不仅具有良好的聚类效果,而且适用于数据量大的聚类场合。本文根据研究者对K-均值的发现,结合实际研究,采用一种基于K-均值的改进算法进行聚类。Dhillod等人发现,使用余弦夹角作为相似性度量比使用欧几里德距离度量[4]要好得多。
1文本聚类
文本聚类的方法有很多种,主要包括层次法、划分法、密度法、模型法和网格法[5]。在这些聚类方法中,基于划分的K-means是最常用的方法,也是许多改进方法的基础。本文采用的改进方法也是基于K-均值的。
K-Mean最早是由麦克奎因[提出的。由于其高效性和对算法执行过程的易理解性,可以广泛应用于大型数据集。目前许多研究都是基于K-均值进行的。它计算复杂度低,并具有与文档数量成线性关系的特点。它具有较高的计算效率、较强的可扩展性和适应大数据集的能力。K-means以k为初始聚类数,然后将n个文本分成k个聚类,使得类中的文本具有较高的相似性,而不同类之间的相似性较小。
K均值的具体算法过程如下:
1)首先给出n个数据文本,从n个数据文本中选择k个文本,其中k个数据文本最初代表k个类的数据中心;
2)计算每个剩余文本到每个中心的距离,并将其分类到最近的中心类中;
3)重新计算已获得的所有类的中心。通常,计算中心的准则函数采用平方误差准则,使得生成的结果类尽可能独立和紧凑;
4)迭代执行第二步和第三步的动作,直到新中心等于原始中心或小于指定阈值,并且直到算法完成。
示出了具体的算法流程如图1。
2改进的聚类算法
虽然K-means算法用于文本聚类时具有计算复杂度低、计算效率高、可扩展性强、适应大数据集能力强等优点,但实验发现,初始聚类中心的选择不仅影响聚类结果,孤立点的存在也对文本相似度的判断有很大影响,导致聚类判断不稳定。基于此,本文采用了一种改进的文本聚类方法。改进的关键在于聚类中心的计算。使用与原始聚类中心相似的文本数据作为聚类中心来计算平均值。
改进的K-均值算法描述如下:
1)首先给出n个数据文本,从n个数据文本中选择k个文本,其中k个数据文本最初代表k个类的数据中心;
2)计算每个剩余文本到每个中心的距离,并将其分类到最近的中心类别,并将其记录为平均值;
3)选择文本集{D1,D2,Dk}在类中的类中心大于或等于(1a)*表示,其中一个[-0.31,0.31],重新计算新文本集中的类中心;
4)迭代执行步骤2和步骤3的动作,直到新中心等于原始中心或小于指定阈值,并且直到算法完成。
3相似性计算
文本聚类包括文本相似度的计算。只有具有很大相似性的文本才能被聚类到同一类中。因此,相似性度量对文本聚类至关重要。在文本聚类中,相似性度量方法一般包括曼哈顿距离、余弦距离和欧洲距离,其中余弦距离能更好地反映文本的相似性。本文主要使用余弦距离。两个文本之间的相似性越大,它们之间的相关性就越强。在文本集由向量空间模型表示后,文本的相似性由向量之间的距离表示:
(1) 4个评价标准
文本聚类的有效性需要验证。本文主要用F度量和平均纯度来评价聚类结果。
1)F测量。f测度结合了评价标准的召回率和准确率。
准确度:P(i,r)=nir/nr (2)
召回率:R(i,r)=nir/ni (3)
其中,国家清单报告是r类中包含的第一类文本的数量,nr是r类中实际文本的数量,ni是原应属于第一类的文本的数量,f值的计算公式为:
(4)
最终从公式(4)获得的评估函数是:
(5)
其中n是文本的总数。从公式中可以看出,F值越高,聚类效果越好。
2)平均纯度。除了使用F度量来评估聚类之外,本文还使用平均纯度来度量文本聚类的质量[7]。如果ci类的大小为ni,则该类的纯度为:
(6)
其中nj代表ci类和J类的交集,平均纯度公式为:
(7)
其中k是最终的簇号。一般来说,纯度越高,聚类效果越好。
5实验结果的聚类分析
本文使用的实验数据主要是搜狗语料库。搜狗语料库主要包括10个文本类别:军事、征兵、信息技术、文化、卫生、汽车、体育、旅游、金融和教育。搜狗语料库包含每个类别的文件夹,其中使用文本文本。为了验证改进算法比原始算法更有效,进行了多次实验,最后选择其中一次实验结果作为例子来比较两种算法的F度量和纯度,分别如表1和表2所示。
从表1可以看出,具有改进的聚类中心的K-均值算法具有相对提高的纯度。从表2可以看出,F值显著增加。两个表中的实验结果表明了改进算法的有效性。
结论
基于文本的聚类分析可以对大量的文本进行聚类,对聚类算法的改进可以大大提高聚类的准确性。实验证明达到了设计效果,为后期的各种数据挖掘工作奠定了基础。
参考
[1]等.自动标引的向量空间模型[J].计算机学报,1975,18(11):613-620 .
《文档聚类技术的比较》,[大学出版社。KDD 2000年文本挖掘研讨会论文集。2000:1-20。
[3]赵英,卡里皮斯。文档数据集的层次聚类算法[[]。数据挖掘与知识发现,2005,10(2):141-168 .
[4]迪隆1997年,莫哈1997 .使用聚类的大型稀疏文本数据的概念分解[J .机器学习,2001年年,
42(1):143-175 .
[5]邵峰晶,于忠清。数据挖掘原理与算法[M .北京用户用户:中国水利水电出版社,2003年年。
《分类和分析的一些方法》
多元观测的[ C]//第五届伯克利会议录
数学研讨会。统计与科学1967:281-
296.
[7]哈穆达,卡迈勒m。协作文档包括[C]//2006 SIAM数据挖掘会议(SDM06).
2006年:453-463 .