中文文本信息过滤技术研究

中文文本信息过滤技术研究

论文摘要

随着Internet的飞速发展,网络上的信息呈指数增长,其内容之丰富,种类之繁多堪称世界上最大的图书馆,如何有效地查询到符合用户兴趣的内容,关系到我们能否充分利用这个巨大的信息资源的问题。于是,针对用户个性化需求的信息过滤系统便产生了。信息过滤技术也成为当今信息技术领域讨论的热点。本文主要针对网络文本的信息过滤技术进行研究。本文在对国内外信息过滤系统分析研究的基础上,从分析中文文本信息处理和文本信息过滤两方面入手,详细地讨论了文本信息过滤中的影响过滤结果的几个关键技术。一方面,对自动化的中文分词和文档分类技术进行了研究,提出了适合文本信息过滤的合理的文本处理方法,最后利用基于潜在语义LSI的概念空间向量模型对文档进行描述,兴趣主题分类。另一方面,在对用户需求进行基于伪反馈和局部上下文分析的查询扩展的基础上,构建扩展后的兴趣文件模型,并把主题的权重信息加入到用户兴趣模型中。而且提出了在协同过滤方法中的基于用户兴趣主题的用户分类和利用典型反馈对新用户进行智能化推荐的过滤策略。最后在构建的基于Agent的文本信息过滤系统上,实践了这几个关键技术的应用,系统取得了满意的过滤结果。

论文目录

  • 摘要
  • Abstract
  • 第一章 引言
  • 1.1 文本信息过滤的研究背景及意义
  • 1.2 国内外研究现状
  • 1.3 本文的主要研究内容及其安排
  • 第二章 Web 文档处理
  • 2.1 Web 文档预处理
  • 2.2 中文自动分词
  • 2.2.1 现有的分词算法
  • 2.2.2 基于Hash 结构的机械统计分词方法
  • 2.3 文本分类
  • 2.3.1 基于外延的分类
  • 2.3.2 基于语义的分类
  • 2.3.3 基于LSI 和Rough 集的文本分类
  • 2.4 本章小结
  • 第三章 文本信息过滤的逻辑模型
  • 3.1 向量空间模型
  • 3.1.1 特征项的选择
  • 3.1.2 特征权重的计算
  • 3.1.3 文档相似度的计算
  • 3.2 潜在语义索引模型
  • 3.2.1 词-文档矩阵的建立
  • 3.2.2 奇异值分解
  • 3.3 基于概念索引的模型
  • 3.4 本章小结
  • 第四章 用户兴趣模板的构造及更新
  • 4.1 用户兴趣模板构造
  • 4.1.1 基于伪相关反馈的用户兴趣模板构造
  • 4.1.2 基于Rocchio 算法的用户兴趣模板构造
  • 4.1.3 基于查询扩展的用户兴趣模板构造
  • 4.2 用户兴趣模板更新
  • 4.3 本章小结
  • 第五章 文本信息过滤的过滤策略
  • 5.1 阈值学习
  • 5.1.1 Direct Utility 方法
  • 5.1.2 Beta-Gamma 方法
  • 5.1.3 Logistic Regression 方法
  • 5.1.4 Score Distribution 方法
  • 5.2 基于典型反馈的文本推荐
  • 5.3 本章小结
  • 第六章 中文文本信息过滤系统研究与实现
  • 6.1 个性化文本信息过滤系统
  • 6.1.1 用户兴趣模式更新策略
  • 6.1.2 信息过滤策略
  • 6.1.3 智能决策推荐
  • 6.1.4 与其他Agent 通讯机制
  • 6.2 系统评估及测试
  • 6.2.1 系统评估方法
  • 6.2.2 系统测试结果分析
  • 6.3 本章小结
  • 第七章 总结
  • 参考文献
  • 致谢
  • 在读期间发表论文
  • 相关论文文献

    • [1].自然场景图像中的中文文本提取[J]. 计算机与数字工程 2020(01)
    • [2].基于词或词组长度和频数的短中文文本关键词提取算法[J]. 计算机科学 2016(12)
    • [3].中文文本情感分析方法研究[J]. 电脑知识与技术 2018(02)
    • [4].基于中文文本分析的微博情感地图的制作[J]. 计算机系统应用 2017(02)
    • [5].浅谈对外传播中文文本的写作[J]. 对外传播 2012(10)
    • [6].《纽约公约》通过五十周年之年再论公约中文文本[J]. 仲裁研究 2009(01)
    • [7].基于字符级双通道复合网络的中文文本情感分析[J]. 计算机应用研究 2020(09)
    • [8].用于形式背景提取的中文文本表示[J]. 计算机技术与发展 2010(09)
    • [9].基于混合注意力机制的中文文本蕴含识别方法[J]. 北京信息科技大学学报(自然科学版) 2020(03)
    • [10].面向中文文本倾向性分类的对抗样本生成方法[J]. 软件学报 2019(08)
    • [11].中文文本情感倾向分析研究[J]. 情报资料工作 2013(01)
    • [12].基于事件语义特征的中文文本蕴含识别[J]. 中文信息学报 2013(05)
    • [13].中文文本情感倾向性五元模型研究[J]. 通信技术 2011(07)
    • [14].一种基于情感词典和朴素贝叶斯的中文文本情感分类方法[J]. 计算机应用研究 2010(10)
    • [15].面向领域中文文本信息处理的术语识别与抽取研究综述[J]. 图书情报工作 2010(16)
    • [16].基于城市监控的自然场景图像的中文文本提取方法[J]. 计算机研究与发展 2019(07)
    • [17].中文文本信息隐藏研究进展[J]. 通信学报 2019(09)
    • [18].基于规则的中文文本时间表达式识别和规范化方法[J]. 信息工程大学学报 2017(05)
    • [19].基于非负矩阵分解的中文文本主题分类[J]. 计算机工程 2009(13)
    • [20].中文文本分割模式获取及其优化方法[J]. 南昌大学学报(理科版) 2011(06)
    • [21].中文文本倾向性分类技术比较研究[J]. 信息安全与通信保密 2010(04)
    • [22].面向阅读理解的多对一中文文本蕴含问题研究[J]. 中文信息学报 2018(04)
    • [23].基于支持向量机的中文文本蕴涵识别研究[J]. 计算机应用与软件 2014(04)
    • [24].基于流形学习的视频中文文本检测算法[J]. 科技通报 2012(10)
    • [25].中文文本复制检测系统[J]. 山西大同大学学报(自然科学版) 2008(02)
    • [26].基于多层注意力机制的中文文本蕴涵识别方法[J]. 计算机工程与设计 2020(08)
    • [27].自然场景图像中的中文文本检测算法[J]. 计算机工程与设计 2018(03)
    • [28].基于情感字典与连词结合的中文文本情感分类[J]. 四川大学学报(自然科学版) 2015(01)
    • [29].基于深度学习的智能中文文本检校方法[J]. 现代电信科技 2017(04)
    • [30].基于语义和统计特征的中文文本表示方法[J]. 中国管理信息化 2009(15)

    标签:;  ;  ;  

    中文文本信息过滤技术研究
    下载Doc文档

    猜你喜欢