问答系统中的短文本聚类研究与应用

问答系统中的短文本聚类研究与应用

论文摘要

伴随着Web 2.0技术的快速发展,用户交互式问答系统已经吸引了越来越多的关注。交互式问答系统提供了一个从提问人到解答者的纽带,并且利用各种机制不断激励问答社区中的人提供答案、解决问题。然而,交互式问答系统中往往充满了各种相似甚至重复的问题。这些系统中的冗余问题大大影响了用户快速信息获取的需求。本文致力于使用短文本聚类算法组织交互式问答系统中的问题。提出了一种新的聚类策略,TermCut策略。该策略首先发现文档集中的核心词汇,然后按照核心词汇的出现与否聚类短文本。为了检测这些核心词汇,本文将短文本集建模成一张图的形式。在这张图中,每一个节点代表了一条短文本,而节点之间的边代表了它们之间的语义关联。这样,按照某个词的出现与否,可以二分此图使得,其中一个子图中的短文本包含此词,而另一个子图中的短文本不包含此词。选择那些能够最大化类内相似度,同时最小化类间相似度的词,作为所谓的核心词汇。TermCut然后基于核心词汇的出现与否划分短文本集,划分结果中一个簇包含该核心词汇,而另一个簇不包含此词。通过不断的二分文档集,最终,一系列的聚类结果得以形成。基于TermCut聚类策略,本文进一步提出了两种具体的聚类算法,分别是基于目标类数的TermCut (CNTC),以及基于阈值的TermCut (TTC).二者的区别在于终止条件的不同。CNTC使用先验的目标聚簇数作为终止条件。当算法已经产生了足够多的聚类时,便停止继续二分的过程。在某些特定情况下,很难获得具体的目标聚簇数。这种情况下,本文提出了TTC算法。与CNTC不同,TTC使用一个相似度阈值作为算法的终止条件。当划分过程不能导致类内相似度的增加和类间相似度的减少时,便终止该算法,并将结果输出。本文然后设计了一个原型系统,将所提出的短文本聚类算法应用到问题推荐中去。首先,提出了一种基于主题的用户兴趣度模型来获取交互式问答系统中不同用户的兴趣。基于该兴趣模型,可以按照用户的兴趣,将系统中的问题进行排序。排序较高的问题将被聚类,并推荐给用户。文中将会给出该算法的展示界面。

论文目录

  • 摘要
  • ABSTRACT
  • 目录
  • 表目录
  • 图目录
  • 第1章 绪论
  • 1.1 搜索引擎
  • 1.2 问答系统
  • 1.2.1 自动问答系统
  • 1.2.2 用户交互式问答系统
  • 1.3 本文的内容和创新
  • 1.4 本文组织结构
  • 第2章 相关工作
  • 2.1 经典聚类算法
  • 2.2 长文本聚类
  • 2.3 短文本聚类
  • 2.4 短文本分类
  • 第3章 TermCut短文本聚类算法
  • 3.1 所提聚类算法概述
  • 3.2 文本模型
  • 3.3 RMcut聚类评估标准
  • 3.4 提取核心词汇
  • 3.5 TermCut短文本聚类策略
  • 3.6 本章小结
  • 第4章 算法验证
  • 4.1 数据集
  • 4.2 评估标准
  • 4.3 实验设置及结果
  • 4.3.1 CNTC算法效果验证
  • 4.3.2 TTC算法效果验证
  • 4.4 本章小结
  • 第5章 在问题推荐中应用短文本聚类算法
  • 5.1 问题推荐的背景
  • 5.2 问题推荐算法
  • 5.2.1 相关记号
  • 5.2.2 基于主题的用户兴趣度模型
  • 5.2.3 基于主题的用户兴趣度模型中的参数估计
  • 5.2.4 问题排序
  • 5.2.5 推荐实验结果
  • 5.3 将短文本聚类技术应用于问题推荐
  • 5.4 本章小结
  • 第6章 总结
  • 6.1 本文工作总结
  • 6.2 本文主要的贡献和创新之处
  • 6.3 下一步的研究工作
  • 参考文献
  • 致谢
  • 博士期间所发表论文
  • 相关论文文献

    • [1].机器学习方法在文本聚类中的应用[J]. 电子世界 2018(22)
    • [2].基于特征空间的文本聚类[J]. 计算机技术与发展 2017(09)
    • [3].基于深度特征语义学习模型的垃圾短信文本聚类研究[J]. 现代计算机(专业版) 2018(07)
    • [4].基于语义相似度的文本聚类研究[J]. 现代图书情报技术 2016(12)
    • [5].基于社交网络中非平衡文本聚类方法的研究[J]. 科技创新导报 2016(13)
    • [6].结合语义与统计的特征降维短文本聚类[J]. 计算机工程 2012(22)
    • [7].文本聚类研究[J]. 电脑知识与技术 2009(20)
    • [8].一种结合主题模型与段落向量的短文本聚类方法[J]. 华东理工大学学报(自然科学版) 2020(03)
    • [9].基于文本聚类与情感分析的群租房微博舆情量化研究[J]. 图书情报研究 2019(01)
    • [10].一种基于t-分布随机近邻嵌入的文本聚类方法[J]. 南京大学学报(自然科学) 2019(02)
    • [11].多特征融合文本聚类的新闻话题发现模型[J]. 国防科技大学学报 2017(03)
    • [12].基于频繁项集的海量短文本聚类与主题抽取[J]. 计算机研究与发展 2015(09)
    • [13].面向路线图编制的模糊均值文本聚类挖掘方法研究[J]. 河北工业大学学报 2011(03)
    • [14].基于文本聚类的煤矿安全隐患类型挖掘研究[J]. 中国安全科学学报 2019(03)
    • [15].基于竞争学习的大规模微博文本聚类[J]. 江苏科技大学学报(自然科学版) 2017(06)
    • [16].基于特征翻译和潜在语义标引的跨语言文本聚类实验分析[J]. 现代图书情报技术 2014(01)
    • [17].一种改进的文本聚类方法[J]. 自动化技术与应用 2008(09)
    • [18].动态索引树文本聚类方法中节点阀值的优化[J]. 电脑开发与应用 2010(09)
    • [19].基于卫星装配工艺的短文本聚类研究[J]. 软件工程 2020(04)
    • [20].可增量的用户短文本聚类方法研究[J]. 计算机技术与发展 2017(11)
    • [21].基于信息损失度的文本聚类研究[J]. 内蒙古师范大学学报(自然科学汉文版) 2017(05)
    • [22].基于余弦距离选取初始簇中心的文本聚类研究[J]. 计算机工程与应用 2018(10)
    • [23].具有词判别力学习能力的短文本聚类概率模型研究[J]. 计算机应用研究 2018(12)
    • [24].面向在线社交网络用户生成内容的饮食话题发现研究[J]. 现代图书情报技术 2016(10)
    • [25].基于信息融合的网页文本聚类距离选择方法[J]. 广州大学学报(自然科学版) 2016(01)
    • [26].深度词汇网络学习的文本聚类研究[J]. 北京化工大学学报(自然科学版) 2015(02)
    • [27].一种基于本体的文本聚类方法[J]. 吉林大学学报(理学版) 2010(02)
    • [28].有标记的文本聚类方法研究[J]. 舰船电子工程 2009(04)
    • [29].基于关键词的学术文本聚类集成研究[J]. 情报学报 2019(08)
    • [30].敏感话题发现中的增量型文本聚类模型[J]. 信息网络安全 2015(09)

    标签:;  ;  ;  ;  ;  

    问答系统中的短文本聚类研究与应用
    下载Doc文档

    猜你喜欢