基于文本分类算法的短信用户兴趣分层算法研究

基于文本分类算法的短信用户兴趣分层算法研究

论文摘要

计算机网络、Internet以及数据库技术地逐渐发展和成熟,为各个领域的信息共享提供了一个有效的平台。海量的信息一方面给人们的生活带来了前所未有的方便,然而另一方面也使得人们必须面对一些问题:如何在大量种类繁多的信息中有效地提取出所需要的信息以及如何让提取信息的过程更加地快速和高效。为了能够快速有效地提取出用户所需要的信息,本文在文本分类的基础上设计一个基于文本分类算法的中文短信用户兴趣分层算法。用户兴趣分层算法是对测试的中文短信集进行层次划分。其中,各个层次代表着用户的兴趣倾向。通过对短信的分层处理,用户可以快速的获取用户所需要的信息;同时,可以根据用户的兴趣层次来提高信息检索的速度。特征选取在很大程度上影响着分类的精确度,特征空间的维度也直接影响着对文本的处理。特征选取的目的是降低特征空间的冗余度,使得选出来的特征能够尽可能的反映文本的内容。针对中文短信作为处理的文本数据,本文主要采用特征选取方法中的词频反文档频率(TF-IDF)作为特征选取的标准,再根据用户兴趣分层的需要结合一些其他的过滤方法来降低短信特征空间的冗余度,以便尽可能的提高用户兴趣分层算法的处理效率和增加用户兴趣层次的准确度。为了验证用户兴趣分层算法中兴趣层次的准确性以及经过特征选取后短信文本的特征空间冗余度的缩减比例,本文以短信数据作为测试集并设计实验验证并定量分析最后的结果。

论文目录

  • 摘要
  • Abstract
  • 第1章 绪论
  • 1.1 研究背景及意义
  • 1.2 国内外研究现状
  • 1.3 研究内容
  • 1.4 论文的组织结构
  • 第2章 文本分类理论及算法
  • 2.1 文本分类的内容及应用
  • 2.2 文本分类的过程
  • 2.3 文本的表示
  • 2.4 文本分类算法
  • 2.5 分类性能的评估
  • 2.6 本章小结
  • 第3章 中文短信特征集及特征选取
  • 3.1 中文短信初始特征集
  • 3.2 特征选择和特征提取
  • 3.3 本实验的特征选取
  • 3.4 本章小结
  • 第4章 中文短信的用户兴趣分层算法
  • 4.1 用户兴趣的定义
  • 4.2 用户兴趣分层算法
  • 4.3 本章小结
  • 第5章 实验设计和结果分析
  • 5.1 实验设计
  • 5.2 实验结果及分析
  • 5.3 本章小结
  • 第6章 结束语
  • 6.1 全文总结
  • 6.2 工作展望
  • 参考文献
  • 致谢
  • 相关论文文献

    标签:;  ;  ;  

    基于文本分类算法的短信用户兴趣分层算法研究
    下载Doc文档

    猜你喜欢