计算机技术有哪些(基于语义分析在计算机技术文本分类中的应用研究)
文本分类技术是人工智能的重要组成部分,而语义分析算法是传统的脚本编译算法。2].传统的文本分类算法包括决策树、Rocchio、朴素贝叶斯,神经网络、支持向量机、线性最小二乘拟合、KNN、遗传算法、最大熵、广义实例集等[3]。将语义分析算法应用于文本分类[4]是本文的重点。P1.1:根据固定的关键字,用超文本标记语言识别识别段数据并将其删除。P1.2:根据自学习关键词识别自然文本中的关键词,并根据词频和相关性估计其值。
1需求分析需要一个可以在云中运行的文本分类软件。该软件主要运行在安卓客户端和云服务器之间。软件需要使用最少的数据量来实现最大的云数据集成和文本分析精度。
1.1过程分析本文的要求不要求更智能的识别方法,而是通过语义分析,通过对特殊关键词和关键词组合来识别文本分类结果。本文的研究内容主要用于识别和分析500字以内的自然文本。这部分自然文本主要用于分析对,的网页文本,也用于通过对捕获的超文本识别码识别内容文本和代码段。业务流程图如如图1所示。
1.2模块分析传统的语义分析算法来源于人工输入的特定文本之间的判断,而一般的语义分析算法只能识别80 ~ 120个关键词[5]。然而,这种规模的识别词典不能满足对自然文本识别的要求,因此本文采用了如图2所示的三层识别方法。
P1.1:根据固定的关键字,用超文本标记语言识别识别段数据并将其删除。P1.2:根据自学习关键词识别自然文本中的关键词,并根据词频和相关性估计其值。
P1.3:根据自学习关键词,识别自然文本的含义,评估不同文本片段之间的相似性,总结对文本片段。然而,该软件的自学习部分(P2)并没有从传统的人工智能算法中获取关键词词典,而是使用语义分析中常用的关联算法来管理关键词[6]。自学习部分放在云服务器上,通过软件更新将自学习结果发送给客户端。自学习产生的流量来自服务器和互联网的连接,不占用GPRS通道。
软件的移动部分(P3)根据实际分析得到的数据匹配结果,通过对,阶段的固定关键字字典集进行远程比较,但大部分数据需要提交给P1模块进行本地比较。在移动终端形成比较字符串后,可以最大程度地减少GPRS链路的数据量。1.3数据流分析
P1模块输入数据D1.1是P1.1的关键字字典数据,它以数据库表的形式存储在数据库中,形成一个数据表。该数据主要用于帮助识别字段中的非信息字符串,如超文本标记语言中的标识字符串。P1模块输入数据D1.2是P1.2的关键字字典数据,它来自自然文本中频繁出现的字符串和用户容易搜索的字符串。字符串的这一部分来自于对对,大量信息的比较,这些信息来自于互联网遍历捕获的文本和搜索引擎收集的文本。
P1模块输入数据D1.3是P1.3的关键字字典数据,来自字典数据,该字典数据经常与通过进一步挖掘对D1.2数据获得的D1.2数据合并。这部分词典数据也来自语义分析。由于本文的算法没有使用无限递归方法[7],而是采用三层计算架构,语义分析段代码在多层使用,没有递归限制。因此,P1模块的数据流阶段对很简单。P1模块的输出数据流为DL1,定义为比较结果字符串。作为搜索引擎对,进行语义识别的结果,这个字符串不具备人脑识别的功能,但是它可以在计算机论文,中为自然语言提供镜像,并且可以在计算机中进行模糊自然语言识别和模糊对比。
P2有两个输入,P2.1搜索字符串数据来自合作搜索引擎,该引擎运行在光纤数据干线上,数据量大,不会出现在GPRS链路上。这部分合作搜索引擎的数据采集内容主要包括搜索字符串、搜索时间、出现IP、出现IP区域、捆绑账号等。P2.2通过网络随机遍历收集的各种超文本都是通过单字段收集和多关键字分析进行挖掘的,因此数据结构相对简单。2算法设计
由于篇幅所限,本文只讨论和展示了一些核心代码和算法设计,在复杂的算法过程中没有给出伪码。P1.1是超文本对比率算法,超文本对比率算法使用最经典的语义分析算法。P1.2和P1.3采用的算法是对经典语义分析算法[8]的扩展,可以使语义分析算法更适合自然语言中的文本分类。本文算法的主要成果是利用最少的CPU和RAM资源,比较对,的自然语言文本,从而获得更高效的软件,适应当前的互联网云服务市场[9]。
2.1超文本对比率函数算法(P1.1本地)读取字典数据表并执行对比循环函数。
对比循环函数的伪代码如下
不要在网上搜索记录集
打开文本文件获取文本
从0到1的文本文件获取文本文件中间文本文件
获取SUMSHOW COMPARE DIG _ DICT _ T _ textfile下一个I
LOOPRETURN SUMSHOW
2.2数据逻辑网络(P1.2本地)的实现数据逻辑网络主要是利用数据结构来实现数据库中的数据逻辑网络,每个数据都有几个上级数据和几个下级数据[10]。每个数据一般不超过15 汉字(32个字符)。上级数据和下级数据存储在特殊的字段中,每个字段都以二维数组的形式进行管理。二维数组包括目标字符串(32个字符)、响应频率和最终响应时间。
为了充分调动数据逻辑网络,采用了一种全新的遍历算法。分别遍历对记录的两个2D阵列字段,逐一比较计算对文章的内容。在比较中,其他词的词频同时记录,两个二维数组字段由对进一步维护和更新,由于空间限制,设计分析只在此模型下进行。2.3文本相似性评估算法(P1.3局部)
本文采用的文本相似度评估算法分为两个部分:第一部分对对输入文本进行比较和评估,并对对词典中的每个关键词进行词频分析。同时,用[t]和[2]检验对关键词的位置,结果用最小最大值作为(0,1)值域。汇总并列出每个处理结果。同时,对输入文本和每个关键词的关联词进行词频分析,对对关键词的关联词位置进行[t]检验和[2]检验,结果也被最小最大值处理为(0,1)值域。最小最大值结果设计为小数点后12位。汇总并列出每个处理结果。
在第二段中,对第一段中形成的两个数据表和存储在系统中的数据表进行[t]检验和[2]检验,以获得检验结果的[P]值。当[P]为0.05时,认为两篇文章相似,且[P]值越小,文章相似度越高。本文的算法已经过测试。将两篇相同的自然语言文章输入系统后,两篇文章的[P]值接近于0,表明本文算法具有较高的识别率。3个结词
本文从软件工程的角度分析和设计了语义分析在计算机文本分类中的应用。在对图像的设计模型中,本文实现了不使用任何神经网络递归算法就可以得到一个高效的软件系统。该算法系统可广泛应用于移动互联网设备。