基于话题模型的社区问题聚类算法研究

基于话题模型的社区问题聚类算法研究

论文摘要

在Web2.0时代,互联网上的社区问答服务(Community Question Answering,CQA)已发展成为重要的信息获取方式。随着用户提交问题的累积,如何有效地组织和管理这些海量的问题成为重要的研究课题。目前,问答社区通常以层次类别来组织问题,这一管理方式的不足在于其对用户行为的严重依赖:提问者需要手工地为提交的问题选择合适的类别。为了减少用户在类别选择中的人工劳动,提升问题管理的智能化水平,本文研究了如何自动实现社区问题的类别化管理。我们把该问题看做聚类任务,根据社区问题之间的相互关联,对它们做自动类别划分。在数据挖掘中,文本聚类的目的即是把一个文档集合划分为互不重合的簇,每个簇对应一个类别或领域。和传统的文本数据不同,社区问题同时包含着非结构化的文本信息和结构化的用户信息,这些用户信息也表征了问题所属的类别。我们以文本和用户作为社区问题的两个维度,形式化地定义了社区问题包含的聚类特征。在现有的话题模型基础上,我们提出了Basic-PLSA模型,在文本特征上对社区问题做自动聚类。为了包含用户特征,我们以不同的方式扩展Basic-PLSA模型,分别提出了User-PLSA和Reg-PLSA模型。在User-PLSA中,文本和用户特征线性合并在同一个概率框架下。而Reg-PLSA则根据用户特征把社区问题构建成图结构,并在该图结构上对模型推断和参数估计过程做正则化(regularization)操作。实验表明,论文提出的方法有效实现了社区问题聚类,其中的Reg-PLSA模型取得了最佳的聚类效果和运行效率;而且,引入用户信息显著地改善了社区问题聚类的性能。同时,通过实验,我们也研究了文本特征的变化对聚类结果的影响。此外,本文考察了提出模型的进一步应用,即识别问答社区中的新类别。利用类别的先验知识,我们把无监督的Basic-PLSA模型改进为半监督的识别模型,成功地为问答社区识别出了高质量的新类别,且取得了比Basic-PLSA更好的识别性能。

论文目录

  • 摘要
  • Abstract
  • 主要符号对照表
  • 第1章 引言
  • 1.1 问答社区概述
  • 1.2 本文的研究问题和主要内容
  • 1.3 本文的主要贡献和内容安排
  • 第2章 相关工作
  • 2.1 问答社区中问题的生命周期
  • 2.2 问答社区研究
  • 2.2.1 相似问题检索
  • 2.2.2 答案质量评估
  • 2.2.3 其它方面
  • 2.3 话题模型 PLSA 和文本分析
  • 2.3.1 话题模型 PLSA 概述
  • 2.3.2 话题模型 PLSA 在文本挖掘中的应用
  • 2.3.3 话题模型 PLSA 和文本聚类
  • 第3章 社区问题聚类模型
  • 3.1 话题模型 PLSA 介绍
  • 3.1.1 文本数据建模
  • 3.1.2 模型参数估计
  • 3.2 研究问题定义
  • 3.2.1 社区问题表示形式
  • 3.2.2 社区问题聚类
  • 3.3 聚类模型 Basic-PLSA
  • 3.3.1 模型建模和参数估计
  • 3.3.2 参数初始化和收敛判断
  • 3.4 聚类模型 User-PLSA
  • 3.5 聚类模型 Reg-PLSA
  • 3.5.1 问题图的构建
  • 3.5.2 模型参数估计
  • 3.6 聚类划分
  • 3.7 时间复杂度分析
  • 第4章 实验结果和分析
  • 4.1 实验数据集和评价方法
  • 4.2 实验结果
  • 4.3 运行效率
  • 4.4 社区问题文本表示的研究
  • 第5章 问答社区中新类别的识别
  • 5.1 本章引言
  • 5.2 聚类模型 Basic-PLSA 的应用
  • 5.3 半监督的类别识别模型
  • 第6章 结论
  • 6.1 本文结论
  • 6.2 未来工作
  • 参考文献
  • 致谢
  • 个人简历、在学期间发表的学术论文与研究成果
  • 相关论文文献

    • [1].基于供应链思维的存货削减模型研究及应用[J]. 铁路采购与物流 2020(01)
    • [2].基于多模型融合的工业工件剩余寿命预测[J]. 自动化与信息工程 2020(01)
    • [3].考虑行人相对速度的改进社会力模型的验证与评估[J]. 计算机科学 2020(02)
    • [4].基于遥感和站点观测数据的生态系统呼吸模型比较[J]. 遥感技术与应用 2020(02)
    • [5].稻田施用农药的地表水暴露评估模型研究进展[J]. 生态与农村环境学报 2020(05)
    • [6].“模型认知”是重要思维方式[J]. 化学教学 2020(05)
    • [7].管理创新过程管控模型的构建与应用[J]. 科技经济导刊 2020(17)
    • [8].理解“模型认知”素养的不同视角[J]. 课程.教材.教法 2020(04)
    • [9].金融智能化不可忽视的模型风险[J]. 武汉金融 2020(06)
    • [10].人口死亡统计的间接模型研究[J]. 人口与经济 2020(04)
    • [11].弗里嘉的模型虚构论研究[J]. 科学文化评论 2020(03)
    • [12].一类带切换的随机SIRS模型的稳定性研究[J]. 萍乡学院学报 2020(03)
    • [13].基于离散时间风险模型下的亏损破产概率的研究[J]. 甘肃科学学报 2017(02)
    • [14].高维稀疏对角GARCH模型的估计及应用[J]. 数学的实践与认识 2017(11)
    • [15].信息系统成功模型在卫生领域的应用及扩展[J]. 信息系统工程 2016(05)
    • [16].例谈化学模型的特征、作用与类型[J]. 中学教学参考 2020(11)
    • [17].构建人才甄选道德模型[J]. 经济管理文摘 2019(17)
    • [18].“一线三等角”模型在中考中的应用[J]. 初中生学习指导 2020(18)
    • [19].巧用隐圆模型 突破思维壁垒[J]. 数理化解题研究 2020(17)
    • [20].借“模型”之力促教学相长[J]. 新课程 2020(25)
    • [21].两类典型牵引模型规律的对比探究[J]. 湖南中学物理 2020(04)
    • [22].建构模型认知 促进深度学习——高三二轮复习“实验方案的设计与评价”[J]. 化学教与学 2020(05)
    • [23].重要模型“一线三等角”[J]. 中学生数理化(八年级数学)(配合人教社教材) 2020(10)
    • [24].什么是“做模型”[J]. 模型世界 2018(11)
    • [25].广州文华模型[J]. 模型世界 2019(01)
    • [26].《模型世界》火热预订[J]. 模型世界 2019(01)
    • [27].基于模型构建 引领思维发展[J]. 高中数学教与学 2018(13)
    • [28].模型世界征募志愿者啦![J]. 模型世界 2015(08)
    • [29].《模型·北京212》[J]. 山西文学 2015(08)
    • [30].模型世界[J]. 模型世界 2014(04)

    标签:;  ;  ;  ;  

    基于话题模型的社区问题聚类算法研究
    下载Doc文档

    猜你喜欢