论文摘要
信息是人类文明赖以存在的基石,互联网信息的复杂性对传统文本挖掘技术提出了更高的要求,如何利用海量文本自身蕴含的巨大能量提升互联网信息的价值,成为日益重要的问题。本文着眼于将互联网海量庞杂的教育类信息进行收集、提炼和组织,借助互联网信息规模巨大和形态多样的特点,提升传统文本分类聚类技术的实用性,通过设计教育新闻平台为用户提供教育相关的资讯服务,并针对该平台的需求在特征提取和标注训练数据两个关键技术进行重点研究。未登录词识别对于文本分类和聚类技术非常重要,未登录词本身也是数据所蕴含的知识。本文借助字标注和CRFs分词模型强大的未登录词识别能力,提出了一个生成未登录词词典的算法,具体过程为:1)从海量数据中锁定存在未登录词的文本;2)从该类文本中抽取存在未登录词的不稳定区域;3)从不稳定区域中获取未登录词并建立词典。该算法的特色在于缩小了计算数据的规模,使得海量文本的挖掘变得可行,同时利用迭代算法抽取词语,避免了后缀树算法带来的过多噪声信息。训练集自动标注算法是从两个基本假设出发所构建的一个迭代反馈的框架。主要过程从初始查询开始,从检索文档中获取类别相关词,利用相关词组合查询再进行搜索,重复此过程,直到满足某个终止条件。基于该框架设计了LA-1和LA-2两个算法,LA-1利用类名称进行主题限制,而LA-2算法利用查询扩展技术来组合生成二元查询,在准确率和泛化能力上取得了平衡。本文用实验验证了未登录词识别的效果以及两种技术对于文本分类效果的改进。未登录词认同率较高,达到了实用的标准。加入未登录词词典后,长文本分类准确率有小幅稳定提升,而短文本分类准确率有大幅明显提高,同时聚类效果变得更好。训练集自动标注算法生成的训练文本基本达到了同人工标注同等的训练效果,它的灵活性使得个性化分类服务变为可能,也能为主流的半监督学习算法提供初始数据。在此基础上,本文实现了木棉新闻聚合平台,未登录词词典用于改进分类聚类效果和识别文本关键词,自动标注的训练文本用于提供教育领域个性化的分类系统。两种算法均取得了良好的效果,证明了其在真实环境下的实用性和有效性。
论文目录
相关论文文献
- [1].基于平行周遍原则的汉语未登录词的知识表示与预测[J]. 中文信息学报 2020(08)
- [2].基于扩展规则与统计特征的未登录词识别[J]. 计算机应用研究 2019(09)
- [3].基于知识图谱的未登录词语义研究[J]. 计算机科学 2017(01)
- [4].条件随机场与领域本体元素集相结合的未登录词识别研究[J]. 现代图书情报技术 2015(04)
- [5].基于《现代汉语语义词典》的未登录词语义预测研究[J]. 北京大学学报(自然科学版) 2016(01)
- [6].基于遗传算法的汉语未登录词识别[J]. 计算机应用与软件 2008(07)
- [7].面向普通未登录词理解的二字词语义构词研究[J]. 中文信息学报 2015(05)
- [8].汉语框架网中未登录词元的框架选择[J]. 中文信息学报 2014(03)
- [9].基于知网的汉语普通未登录词语义分析模型[J]. 计算机应用与软件 2012(08)
- [10].基于知识库的汉语未登录词语义预测[J]. 中文信息学报 2018(01)
- [11].基于网络的中文未登录词译文挖掘方法研究[J]. 安徽广播电视大学学报 2016(01)
- [12].基于分词提取重复串的未登录词遗漏量化模型[J]. 中文信息学报 2011(02)
- [13].基于统计信息的未登录词的扩展识别方法[J]. 中文信息学报 2009(03)
- [14].中文文本未登录词识别的研究[J]. 电脑知识与技术 2019(20)
- [15].基于聚类算法的“未登录”敏感信息标注技术研究[J]. 网络安全技术与应用 2016(03)
- [16].基于隐马尔科夫模型的古汉语词性标注[J]. 微型电脑应用 2020(05)
- [17].基于子字单元的神经机器翻译未登录词翻译分析[J]. 中文信息学报 2018(04)
- [18].基于改进PMI和最小邻接熵结合策略的未登录词识别[J]. 计算机系统应用 2020(06)
- [19].基于条件随机场的词结构分析方法[J]. 武汉大学学报(理学版) 2017(03)
- [20].基于改进Encoder-Decoder模型的新闻摘要生成方法[J]. 计算机应用 2019(S2)
- [21].基于层次分析法的中文分词算法改进[J]. 信息技术 2016(10)
- [22].汉语自动分词技术研究[J]. 计算机与数字工程 2008(11)
- [23].基于词表和N-gram算法的新词识别实验[J]. 中国索引 2008(01)
- [24].基于微博短文本的大数据分析方法探索与研究[J]. 江苏通信 2018(01)
- [25].基于领域文献的未登录词识别方法研究[J]. 情报杂志 2012(01)
- [26].基于论坛语料识别中文未登录词的方法[J]. 计算机工程与设计 2010(03)
- [27].一种基于合并策略的机构名称切分方法[J]. 计算机技术与发展 2008(05)
- [28].现代汉语缩略语自动识别研究的现状与展望[J]. 渭南师范学院学报 2008(06)
- [29].基于微博内容的新词发现方法[J]. 模式识别与人工智能 2014(02)
- [30].基于混合策略的中文生物医学领域未登录词识别研究[J]. 现代图书情报技术 2013(01)