计算机网络、Internet以及数据库技术地逐渐发展和成熟,为各个领域的信息共享提供了一个有效的平台。海量的信息一方面给人们的生活带来了前所未有的方便,然而另一方面也使得人们必须面对一些问题:如何在大量种类繁多的信息中有效地提取出所需要的信息以及如何让提取信息的过程更加地快速和高效。为了能够快速有效地提取出用户所需要的信息,本文在文本分类的基础上设计一个基于文本分类算法的中文短信用户兴趣分层算法。用户兴趣分层算法是对测试的中文短信集进行层次划分。其中,各个层次代表着用户的兴趣倾向。通过对短信的分层处理,用户可以快速的获取用户所需要的信息;同时,可以根据用户的兴趣层次来提高信息检索的速度。特征选取在很大程度上影响着分类的精确度,特征空间的维度也直接影响着对文本的处理。特征选取的目的是降低特征空间的冗余度,使得选出来的特征能够尽可能的反映文本的内容。针对中文短信作为处理的文本数据,本文主要采用特征选取方法中的词频反文档频率(TF-IDF)作为特征选取的标准,再根据用户兴趣分层的需要结合一些其他的过滤方法来降低短信特征空间的冗余度,以便尽可能的提高用户兴趣分层算法的处理效率和增加用户兴趣层次的准确度。为了验证用户兴趣分层算法中兴趣层次的准确性以及经过特征选取后短信文本的特征空间冗余度的缩减比例,本文以短信数据作为测试集并设计实验验证并定量分析最后的结果。
本文来源: https://www.lw50.cn/article/a73c4b209204f5f80b509f06.html