基于频繁共现熵的跨语言网页自动分类研究

基于频繁共现熵的跨语言网页自动分类研究

论文摘要

网页自动分类可有效的提高互联网信息的组织与应用,在建立网页自动分类模型时,需要大量的可信的已标注数据集。相对中文网页来说网页数量增长迅速,已标注数据集缺乏,然而数据集标注又是项费时费力的工作,相对英文网页而言,有较多的已标注的英文网页,中文和英文虽然是不同的语言表述,但中文和英文之间也存在着共同的语义,可以考虑通过英文知识来对中文进行分类。已有研究表明,可以通过已标注英文网页来建立中文网页自动分类模型。在传统的分类模型中,是训练集与待分类数据集的所有共现熵特征作为分类知识进行分类的,然而实际上并不是所有的共现熵特征都能很好地表示分类知识,因此如何更好地选择共现特征是一个关键的问题。针对已标注中文数据集的缺乏,而有已标注英文网页较丰富的情况,本文提出了基于频繁共现熵的分类器,该分类器适用于待分类数据集的批量自动分类,引用了待分类数据集的词特征信息,用频繁共现熵方法选取更能表示分类知识的词特征信息。首先,为了更好把已标注的英文网页信息应用到中文网页分类中,本文使用了Google Translate翻译工具;然后,使用频繁共现熵计算所有共现特征的共现熵值,按其值从大到小进行排序,接着选取不同比例的排序靠前的共现特征作为分类知识,通过已标注英文网页信息训练分类模型,充分应用英文知识对中文进行分类。本文工作和创新点在于:1.提出了频繁共现熵方法,并把该方法应于到跨语言网页分类中,该方法能提取更好的分类特征信息。2.建立了基于频繁共现熵的自适应贝叶斯模型,还有基于频繁共现熵的朴素贝叶斯模型和向量空间模型,并把该模型应用于跨语言网页分类中,同时比较了其余其他分类器的效果,性能与基准模型相比都有相应的提高。

论文目录

  • 摘要
  • Abstract
  • 1 绪论
  • 1.1 研究背景
  • 1.2 跨语言文本分类的研究意义及应用
  • 1.3 论文组织
  • 2 跨语言文本分类的概述
  • 2.1 文本分类
  • 2.1.1 文本分类的过程
  • 2.1.2 文本分类的基本模型
  • 2.1.3 文本分类评价指标
  • 2.2 跨语言文本分类
  • 2.2.1 跨语言分类的研究方法
  • 2.2.2 跨语言分类的相关研究
  • 2.3 本章小结
  • 3 基于频繁共现熵的跨语言网页分类
  • 3.1 熵(信息论)的概述
  • 3.1.1 熵的定义
  • 3.2 频繁共现熵
  • 3.3 朴素贝叶斯分类模型(NB 模型)
  • 3.4 自适应贝叶斯分类模型(ANB 模型)
  • 3.5 本章小结
  • 4 实验设计与分析
  • 4.1 跨语言网页自动分类流程图
  • 4.2 实验数据
  • 4.3 实验环境
  • 4.4 实验准备
  • 4.5 实验结果及分析
  • 4.5.1 参数π的选取
  • 4.5.2 NB+FCE 模型性能
  • 4.5.3 ANB+FCE 模型性能
  • 4.5.4 与基准分类模型对比结果分析
  • 4.5.5 本文方法的进一步讨论
  • 4.6 本章小结
  • 5 总结和展望
  • 5.1 本文总结
  • 5.2 进一步工作
  • 参考文献
  • 个人简历
  • 致谢
  • 相关论文文献

    • [1].“还、又、再、也”和能愿动词连用共现考察[J]. 宿州学院学报 2017(03)
    • [2].基于突发词共现的微博突发话题检测[J]. 滨州学院学报 2020(04)
    • [3].基于专利技术共现网络的无人驾驶汽车技术融合演化研究[J]. 情报杂志 2020(04)
    • [4].图情领域的大共现及其发展现状[J]. 情报资料工作 2016(01)
    • [5].“没(有)”和“了”共现问题的研究[J]. 文教资料 2009(01)
    • [6].国外反义词共现研究综述[J]. 外国语言文学 2014(03)
    • [7].基于语义共现与注意力网络的问题分类方法[J]. 浙江科技学院学报 2020(04)
    • [8].复合共现趋向结构功能初探[J]. 安徽大学学报(哲学社会科学版) 2014(04)
    • [9].对“了”的部分隐现问题的思考——读《从表现功能看“了”的隐现动因》有感[J]. 教育教学论坛 2017(13)
    • [10].基于Ucinet共现分析的协同度评价[J]. 广西科技师范学院学报 2016(04)
    • [11].共现分析在专利地图中的应用研究[J]. 现代情报 2009(07)
    • [12].现代汉语协配手段之间的共现规律研究[J]. 华文教学与研究 2018(02)
    • [13].“把手”共现的动态认知模式——兼论“把”的动态性[J]. 商 2014(21)
    • [14].基于同义词关系改进的局部共现查询扩展[J]. 情报杂志 2010(09)
    • [15].基于词共现的文本分类算法[J]. 河北省科学院学报 2018(03)
    • [16].基于科技文献多重共现的数据模型理论与知识发现应用范例研究[J]. 图书情报工作 2019(09)
    • [17].基于弱共现和突发监测的情报学学科研究主题及交叉性分析[J]. 图书情报工作 2015(21)
    • [18].多词共现分析方法的实现及其在研究热点识别中的应用[J]. 图书情报工作 2014(24)
    • [19].基于共现分析的我国突发事件关联研究[J]. 系统工程 2011(06)
    • [20].语料库语境共现对大学英语词汇教学的启示[J]. 黑龙江教育学院学报 2009(03)
    • [21].基于三词共现分析的学者主要研究兴趣识别及个性化外文推荐服务的实现[J]. 情报学报 2013(06)
    • [22].基于词共现关系和粗糙集的微博话题检测方法[J]. 计算机系统应用 2016(06)
    • [23].从情状类型看“V过(了)O”中的“过”“了”共现问题[J]. 现代语文(语言研究版) 2012(11)
    • [24].基于词共现图的中文微博新闻话题识别[J]. 智能系统学报 2012(05)
    • [25].基于文献标题词汇共现获取词间关系研究[J]. 图书情报工作 2009(08)
    • [26].总括副词“都”与时间副词的共现语序[J]. 对外汉语研究 2012(00)
    • [27].基于超网络的作者-机构-国家混合共现网络研究[J]. 情报学报 2015(01)
    • [28].基于时空共现的移动用户社会关系类型推断[J]. 吉林大学学报(工学版) 2019(02)
    • [29].基于共现分析的网络舆情话题发现及态势演化研究[J]. 情报科学 2016(01)
    • [30].基于共现词网改造的领域本体自动构建模型研究[J]. 情报理论与实践 2014(01)

    标签:;  ;  ;  ;  ;  

    基于频繁共现熵的跨语言网页自动分类研究
    下载Doc文档

    猜你喜欢