二阶段文本分类器及分类在推荐系统中的应用

二阶段文本分类器及分类在推荐系统中的应用

论文摘要

文本分类在文本挖掘和信息检索系统中发挥着重要的作用。这种技术可以改善检索性能、提供导航/浏览机制、发现相似文本等。因此,文本分类已成为一种处理和研究文本的重要技术。目前,基于统计和机器学习的文本分类算法已经比较成熟,但可以考虑通过某种方式引入其他方法来改进分类效果,比如下面所提的统计方法。分类算法除了在文本挖掘和信息检索系统中发挥着重要的作用外,还可以考虑在电子商务个性化推荐系统中的应用。针对上述二方面,本人做了以下工作:第一:提出了基于K-means的二阶段多类SVM分类方法。该方法分为二个阶段,第一阶段采用K-means聚类,在聚类结束以后,抽样调查每个小类的分类精准度,完全分对的类可以不必进行第二步的分类,从而降低了已经聚类正确的实例再次分类的风险;第二阶段采用LIBSVM来进行分类。本文在理论论证后,使用中英文语料,通过实验证实该方法切实可行,相较于直接使用LIBSVM进行分类,分类准确度分别提高了9.35%和1.5%。第二:用户个性化推荐是电子商务领域中的研究热点与核心技术,近年来得到了广泛的关注和快速的发展,本文将分类技术引入推荐系统。文中提出了基于分类的用户多兴趣个性化推荐方法。该方法分为二个模块,第一模块是长期兴趣模块(LIM),针对用户多兴趣的特征,通过分类来提高推荐准确度;第二是短期兴趣模块(SIM),针对用户短期兴趣的专注性,引入WEB日志上下文分析的方法。最后,本文分别对LIM和SIM进行了实验证实,证实该方法切实可行,相较于传统方法,推荐准确度及用户满意度都得到了较好提升。

论文目录

  • 摘要
  • Abstract
  • 1 绪论
  • 1.1 课题的背景及意义
  • 1.2 国内外研究现状
  • 1.2.1 国外现状
  • 1.2.2 国内现状
  • 1.3 本文的工作和论文组织
  • 2 中文文本分类技术概述
  • 2.1 文本分类定义
  • 2.2 自动分词
  • 2.2.1 自动分词方法
  • 2.2.2 分词中的难题
  • 2.3 文本表示
  • 2.4 特征提取
  • 2.5 文本自动分类方法
  • 2.5.1 贝叶斯分类算法
  • 2.5.2 支持向量机分类算法
  • 2.5.3 KNN分类算法
  • 2.5.4 分类委员会
  • 2.5.5 神经网络
  • 2.5.6 其它常见分类算法
  • 2.6 评价指标
  • 2.7 本章小结
  • 3 基于K-means的二阶段多类SVM分类器
  • 3.1 K-means聚类算法与多类SVM分类器介绍
  • 3.1.1 K-means聚类算法介绍
  • 3.1.2 多类SVM分类器介绍
  • 3.2 二阶段多类SVM分类方法论证
  • 3.3 英文数据集实验及结果分析
  • 3.3.1 聚类数为6时的情况
  • 3.3.2 聚类数为36时的情况
  • 3.4 中文数据集实验及结果分析
  • 3.4.1 聚类数为6时的情况
  • 3.4.2 聚类数为36时的情况
  • 3.5 本章小结
  • 4 分类在推荐系统中的应用
  • 4.1 相关算法概述
  • 4.1.1 基于内容过滤的算法
  • 4.1.2 基于协同过滤的算法
  • 4.1.3 混合推荐模型
  • 4.2 基于分类的用户多兴趣模型
  • 4.2.1 长期兴趣模块
  • 4.2.2 短期兴趣模块
  • 4.3 长期兴趣模块实验及结果分析
  • 4.3.1 实验设计
  • 4.3.2 评价指标
  • 4.3.3 实验结果分析
  • 4.4 短期兴趣模块实验及结果分析
  • 4.4.1 实验设计
  • 4.4.2 评价指标
  • 4.4.3 实验结果分析
  • 4.5 本章小结
  • 5 总结与展望
  • 5.1 本文的总结
  • 5.2 进一步的研究工作
  • 参考文献
  • 攻读硕士学位期间发表的论文
  • 致谢
  • 相关论文文献

    • [1].基于支持向量机的文本分类器的实现与设计[J]. 网友世界 2014(12)
    • [2].一种改进的多项式核支持向量机文本分类器[J]. 计算机应用研究 2009(08)
    • [3].基于模糊支持向量机与决策树的文本分类器[J]. 计算机应用 2008(12)
    • [4].一种面向机械领域文本分类器的设计[J]. 微电子学与计算机 2012(04)
    • [5].多层文本分类器的研究及应用[J]. 计算机应用与软件 2012(03)
    • [6].利用开源框架构建基于深度神经网络的短文本分类器[J]. 四川图书馆学报 2018(01)
    • [7].中文文本分类方法研究[J]. 电脑知识与技术 2019(04)
    • [8].基于THUCTC的金融语料情感分析模型优化[J]. 广东工业大学学报 2018(03)
    • [9].基于KNN算法的文本分类器的设计与实现[J]. 电脑编程技巧与维护 2016(08)
    • [10].基于多种特征选择的NB组合文本分类器设计[J]. 计算机工程 2009(24)
    • [11].基于Web的专用爬虫的研究[J]. 贵州师范大学学报(自然科学版) 2009(03)
    • [12].针对能源使用概况的现状分析建模[J]. 经贸实践 2018(15)
    • [13].基于支持向量机的PU中文文本分类器构建[J]. 南京邮电大学学报(自然科学版) 2015(06)
    • [14].基于概率的覆盖算法在文本分类器中的应用[J]. 漳州职业技术学院学报 2009(02)
    • [15].藏文文本分类器的设计与实现[J]. 科技致富向导 2010(12)
    • [16].一种新颖的特征提取方法在文本分类器中的应用[J]. 邵阳学院学报(自然科学版) 2008(01)
    • [17].基于TAN结构的贝叶斯文本分类器研究[J]. 网络安全技术与应用 2012(01)
    • [18].贝叶斯算法实现文本分类器[J]. 大众科技 2011(02)
    • [19].kNN文本分类器类偏斜问题的一种处理对策[J]. 计算机研究与发展 2009(01)
    • [20].贝叶斯文本分类器的研究与改进[J]. 计算机工程与应用 2009(12)
    • [21].一种改进的高效贝叶斯短信文本分类器[J]. 南京师范大学学报(工程技术版) 2014(03)
    • [22].基于SVM算法的文本分类技术研究[J]. 计算机仿真 2013(02)
    • [23].基于贝叶斯算法的中文文本分类器设计与实现[J]. 信息与电脑(理论版) 2018(05)
    • [24].基于文本挖掘的流行病学致病因素的提取[J]. 北京生物医学工程 2013(02)
    • [25].一种改进的贝叶斯算法在短信过滤中的研究[J]. 计算机技术与发展 2015(09)
    • [26].基于KNN的中文文本分类性能研究[J]. 科技风 2011(23)
    • [27].一种主题爬虫文本分类器的构建[J]. 中文信息学报 2010(06)
    • [28].新型快速中文文本分类器的设计与实现[J]. 计算机工程与应用 2009(22)
    • [29].基于Rocchio方法和k均值聚类的支持向量机文本分类方法[J]. 软件导刊 2008(06)
    • [30].覆盖算法下文本分类特征选择的研究[J]. 计算机技术与发展 2008(11)

    标签:;  ;  ;  

    二阶段文本分类器及分类在推荐系统中的应用
    下载Doc文档

    猜你喜欢