木棉教育新闻平台关键技术的研究与实现

木棉教育新闻平台关键技术的研究与实现

论文摘要

信息是人类文明赖以存在的基石,互联网信息的复杂性对传统文本挖掘技术提出了更高的要求,如何利用海量文本自身蕴含的巨大能量提升互联网信息的价值,成为日益重要的问题。本文着眼于将互联网海量庞杂的教育类信息进行收集、提炼和组织,借助互联网信息规模巨大和形态多样的特点,提升传统文本分类聚类技术的实用性,通过设计教育新闻平台为用户提供教育相关的资讯服务,并针对该平台的需求在特征提取和标注训练数据两个关键技术进行重点研究。未登录词识别对于文本分类和聚类技术非常重要,未登录词本身也是数据所蕴含的知识。本文借助字标注和CRFs分词模型强大的未登录词识别能力,提出了一个生成未登录词词典的算法,具体过程为:1)从海量数据中锁定存在未登录词的文本;2)从该类文本中抽取存在未登录词的不稳定区域;3)从不稳定区域中获取未登录词并建立词典。该算法的特色在于缩小了计算数据的规模,使得海量文本的挖掘变得可行,同时利用迭代算法抽取词语,避免了后缀树算法带来的过多噪声信息。训练集自动标注算法是从两个基本假设出发所构建的一个迭代反馈的框架。主要过程从初始查询开始,从检索文档中获取类别相关词,利用相关词组合查询再进行搜索,重复此过程,直到满足某个终止条件。基于该框架设计了LA-1和LA-2两个算法,LA-1利用类名称进行主题限制,而LA-2算法利用查询扩展技术来组合生成二元查询,在准确率和泛化能力上取得了平衡。本文用实验验证了未登录词识别的效果以及两种技术对于文本分类效果的改进。未登录词认同率较高,达到了实用的标准。加入未登录词词典后,长文本分类准确率有小幅稳定提升,而短文本分类准确率有大幅明显提高,同时聚类效果变得更好。训练集自动标注算法生成的训练文本基本达到了同人工标注同等的训练效果,它的灵活性使得个性化分类服务变为可能,也能为主流的半监督学习算法提供初始数据。在此基础上,本文实现了木棉新闻聚合平台,未登录词词典用于改进分类聚类效果和识别文本关键词,自动标注的训练文本用于提供教育领域个性化的分类系统。两种算法均取得了良好的效果,证明了其在真实环境下的实用性和有效性。

论文目录

  • 摘要
  • Abstract
  • 目录
  • 第一章 绪论
  • 1.1 互联网海量数据的挑战和机遇
  • 1.2 国内外研究现状
  • 1.2.1 从信息中获取知识
  • 1.2.2 海量文本挖掘案例
  • 1.3 论文的主要内容
  • 1.3.1 论文主要工作
  • 1.3.2 论文的术语定义
  • 1.4 论文的组织结构
  • 第二章 相关理论和技术
  • 2.1 信息的采集与提炼
  • 2.1.1 网页的采集和更新策略
  • 2.1.2 网页正文信息抽取技术
  • 2.2 文本特征的提取和选择
  • 2.2.1 中文分词概述
  • 2.2.2 中文分词的几种模型
  • 2.2.2.1 基于词典和规则的分词模型
  • 2.2.2.2 基于词典和 HMM 的分词模型
  • 2.2.2.3 基于字标注的分词模型
  • 2.2.3 中文分词的未登录词问题
  • 2.2.4 文本特征选择
  • 2.3 文本分类和聚类
  • 2.3.1 有监督学习、无监督学习、半监督学习
  • 2.3.2 产生式模型,判别式模型,非参数模型
  • 2.3.3 NB、KNN 和 SVM 的比较
  • 2.3.4 文本聚类技术介绍
  • 2.4 查询扩展技术
  • 2.5 本章小结
  • 第三章 系统总体设计
  • 3.1 设计目标
  • 3.2 新闻聚合平台的框架设计
  • 3.3 新闻聚合平台模块详细设计
  • 3.3.1 信息采集模块
  • 3.3.2 文本分类模块
  • 3.3.3 话题聚类模块
  • 3.3.4 展现和排序模块
  • 3.4 本章小结
  • 第四章 未登录词典生成算法
  • 4.1 研究目标
  • 4.2 识别未登录词的可行性
  • 4.3 大规模语料的选择和分析
  • 4.3.1 语料的选择
  • 4.3.2 大规模语料的观察结果
  • 4.4 生成未登录词典算法
  • 4.4.1 获取切分不稳定文本
  • 4.4.2 从不稳定区域中获取候选词
  • 4.4.3 未登录词的最终确认
  • 4.4.4 改进的 Stanford 分词器
  • 4.5 实验设计与分析
  • 4.5.1 实验目标与环境
  • 4.5.2 实验数据
  • 4.5.3 实验设计与结果分析
  • 4.5.3.1 未登录词识别效果
  • 4.5.3.2 未登录词词典对于分类效果的影响
  • 4.6 算法分析和比较
  • 4.7 本章小结
  • 第五章 训练集自动标注算法
  • 5.1 设计目标
  • 5.2 自动标注方法的可行性分析
  • 5.2.1 标注数据的质量指标
  • 5.2.2 搜索方法的优点
  • 5.2.3 适用性与局限性
  • 5.3 自动标注算法的设计
  • 5.3.1 算法基本假设
  • 5.3.2 算法总体框架
  • 5.4 自动标注算法的实现
  • 5.4.1 基于类名限制的第一算法 LA-1
  • 5.4.2 基于查询扩展的第二算法 LA-2
  • 5.4.2.1 衡量查询和词语的相关度
  • 5.4.2.2 概念的泛指和特指
  • 5.4.2.3 构造查询
  • 5.4.2.4 算法的具体描述
  • 5.5 实验设计与分析
  • 5.5.1 实验目标与环境
  • 5.5.2 实验数据
  • 5.5.3 实验设计与结果分析
  • 5.6 算法分析
  • 5.7 本章小结
  • 第六章 新闻平台系统实现
  • 6.1 总体架构实现
  • 6.2 模块详细设计与实现
  • 6.3 展示效果
  • 6.4 本章总结
  • 结论
  • 参考文献
  • 攻读硕士学位期间取得的研究成果
  • 致谢
  • 相关论文文献

    • [1].基于平行周遍原则的汉语未登录词的知识表示与预测[J]. 中文信息学报 2020(08)
    • [2].基于扩展规则与统计特征的未登录词识别[J]. 计算机应用研究 2019(09)
    • [3].基于知识图谱的未登录词语义研究[J]. 计算机科学 2017(01)
    • [4].条件随机场与领域本体元素集相结合的未登录词识别研究[J]. 现代图书情报技术 2015(04)
    • [5].基于《现代汉语语义词典》的未登录词语义预测研究[J]. 北京大学学报(自然科学版) 2016(01)
    • [6].基于遗传算法的汉语未登录词识别[J]. 计算机应用与软件 2008(07)
    • [7].面向普通未登录词理解的二字词语义构词研究[J]. 中文信息学报 2015(05)
    • [8].汉语框架网中未登录词元的框架选择[J]. 中文信息学报 2014(03)
    • [9].基于知网的汉语普通未登录词语义分析模型[J]. 计算机应用与软件 2012(08)
    • [10].基于知识库的汉语未登录词语义预测[J]. 中文信息学报 2018(01)
    • [11].基于网络的中文未登录词译文挖掘方法研究[J]. 安徽广播电视大学学报 2016(01)
    • [12].基于分词提取重复串的未登录词遗漏量化模型[J]. 中文信息学报 2011(02)
    • [13].基于统计信息的未登录词的扩展识别方法[J]. 中文信息学报 2009(03)
    • [14].中文文本未登录词识别的研究[J]. 电脑知识与技术 2019(20)
    • [15].基于聚类算法的“未登录”敏感信息标注技术研究[J]. 网络安全技术与应用 2016(03)
    • [16].基于隐马尔科夫模型的古汉语词性标注[J]. 微型电脑应用 2020(05)
    • [17].基于子字单元的神经机器翻译未登录词翻译分析[J]. 中文信息学报 2018(04)
    • [18].基于改进PMI和最小邻接熵结合策略的未登录词识别[J]. 计算机系统应用 2020(06)
    • [19].基于条件随机场的词结构分析方法[J]. 武汉大学学报(理学版) 2017(03)
    • [20].基于改进Encoder-Decoder模型的新闻摘要生成方法[J]. 计算机应用 2019(S2)
    • [21].基于层次分析法的中文分词算法改进[J]. 信息技术 2016(10)
    • [22].汉语自动分词技术研究[J]. 计算机与数字工程 2008(11)
    • [23].基于词表和N-gram算法的新词识别实验[J]. 中国索引 2008(01)
    • [24].基于微博短文本的大数据分析方法探索与研究[J]. 江苏通信 2018(01)
    • [25].基于领域文献的未登录词识别方法研究[J]. 情报杂志 2012(01)
    • [26].基于论坛语料识别中文未登录词的方法[J]. 计算机工程与设计 2010(03)
    • [27].一种基于合并策略的机构名称切分方法[J]. 计算机技术与发展 2008(05)
    • [28].现代汉语缩略语自动识别研究的现状与展望[J]. 渭南师范学院学报 2008(06)
    • [29].基于微博内容的新词发现方法[J]. 模式识别与人工智能 2014(02)
    • [30].基于混合策略的中文生物医学领域未登录词识别研究[J]. 现代图书情报技术 2013(01)

    标签:;  ;  ;  ;  

    木棉教育新闻平台关键技术的研究与实现
    下载Doc文档

    猜你喜欢