检索结果聚类中的类别标签抽取技术研究

检索结果聚类中的类别标签抽取技术研究

论文摘要

随着网络信息的日益膨胀,信息泛滥的状况日趋严重,而作为人们获取信息的主要手段的搜索引擎却面临着诸多新问题,如何快速地帮助用户获取特定的知识、如何引导用户并推送给用户相关信息,已然成为各个搜索引擎面临的日趋紧迫的任务。检索结果聚类能够最大限度地解决搜索引擎这一问题,提供用户引导、数据分布,其应用不仅在展现形式上,对于搜索引擎相关性排序、相关搜索等问题上均有较大帮助,对于文本数据检索、数字化图书馆管理、实体关系挖掘等领域也有非常广阔的应用前景。对于检索结果进行挖掘,生成恰当的引导性标签,辅助用户快速浏览网页内容,是检索结果聚类的主要目标。传统的聚类方法,一方面时间复杂度较高不能快速响应用户需求,另一方面不能生成高质量可读标签。本文通过对比分析传统方法的不足,结合搜索引擎快速响应的需求及用户引导高表意等方面的特定情景,提出了基于标签的排序模型,采用层次聚类的方法进行聚类,并最终抽取出代表性标签的基本方法。本文主要研究内容包括以下几方面:1、候选标签的抽取策略。在各语义信息的指导下,尽可能抽取全面而且质量好的候选标签,为后续工作提供良好的基础。2、采用排序模型对抽取标签进行排序,综合考虑资源特征、本体特征、用户行为特征、语义特征,生成聚类候选。同时对这类特征提出有针对性的资源挖掘方法。3、采用改进的层次聚类算法及多种语义资源进行类别合并,将不同维度上的各类相似标签进行合并。4、综合利用资源信息、用户行为信息指导标签的抽取,提出了一种有意义标签的抽取方法。本文最终通过多次实验验证了方法的有效性。

论文目录

  • 摘要
  • Abstract
  • 第1章 绪论
  • 1.1 项目背景
  • 1.2 课题的研究目的和意义
  • 1.3 术语定义
  • 1.4 国内外研究现状
  • 1.4.1 检索结果聚类研究现状
  • 1.4.2 采用标签抽取方法原因
  • 1.5 本课题定位及目标
  • 第2章 候选标签的抽取及特征选取
  • 2.1 标签抽取
  • 2.2 特征选取
  • 2.2.1 数据资源特征
  • 2.2.2 用户行为特征
  • 2.2.3 本体特征
  • 2.2.4 语义特征
  • 2.3 本章小结
  • 第3章 标签排序、聚合与代表标签的选取
  • 3.1 标签排序
  • 3.1.1 基于SVM LIGHT的标签排序
  • 3.1.2 实验数据组织
  • 3.2 标签聚合
  • 3.2.1 根据索引结果聚合的策略
  • 3.2.2 自底向上的层次聚类策略
  • 3.2.3 标签相似度
  • 3.3 代表性标签的选取
  • 3.3.1 邻接标签的粘接
  • 3.3.2 互斥标签的取舍
  • 3.4 本章小结
  • 第4章 实验与评价
  • 4.1 共性标签稳定性实验
  • 4.2 与相关搜索的比较实验
  • 4.2.1 高频随机短检索词比较实验
  • 4.2.2 低频随机短检索词比较实验
  • 4.3 短检索词查询扩展实验
  • 4.4 本章小结
  • 结论
  • 参考文献
  • 致谢
  • 相关论文文献

    • [1].压敏标签供送装置中剥离机构的设计[J]. 河南科技 2019(34)
    • [2].浅议通过标签查找“问题”农药[J]. 种子科技 2019(17)
    • [3].图像多标签学习的研究概述[J]. 南京信息工程大学学报(自然科学版) 2019(06)
    • [4].医院中药房成药定位标签的设计与评价[J]. 中医药管理杂志 2020(01)
    • [5].基于大数据的患者画像标签体系构建方法及应用研究[J]. 中国卫生信息管理杂志 2019(06)
    • [6].基于标签语义挖掘的城市画像感知研究[J]. 数据分析与知识发现 2019(12)
    • [7].RFID标签及其加工应用浅谈[J]. 印刷杂志 2020(02)
    • [8].基于深度学习的多标签生成研究进展[J]. 计算机科学 2020(03)
    • [9].饲料标签常见问题及分析讨论[J]. 饲料博览 2020(02)
    • [10].芬欧蓝泰标签的新型纸质标签材料包含可回收成分[J]. 网印工业 2020(05)
    • [11].警情热点标签的设计和应用[J]. 大众标准化 2020(07)
    • [12].探讨无线发射台站标签规范化[J]. 视听 2020(03)
    • [13].一种基于标签融合的微博主题生成方法[J]. 辽东学院学报(自然科学版) 2020(02)
    • [14].钢材成品二维码标签系统设计[J]. 包钢科技 2020(03)
    • [15].通过标签嵌入从社交标签中挖掘上下位关系[J]. 指挥信息系统与技术 2020(04)
    • [16].多类别相关性结合的类属属性多标签学习[J]. 模式识别与人工智能 2020(08)
    • [17].基于标签相关性的类属属性多标签分类算法[J]. 计算机应用研究 2020(09)
    • [18].用行动擦亮爱国奉献的人生标签[J]. 新长征 2019(01)
    • [19].标签的“前世今生”[J]. 今日印刷 2019(03)
    • [20].国内外纺织品和服装护理标签概述[J]. 中国纤检 2017(01)
    • [21].富士通开发“几乎看不见”的RFID标签[J]. 广东印刷 2016(06)
    • [22].基于补全矩阵的多标签相关性情感分类[J]. 计算机系统应用 2017(01)
    • [23].基于本体和标签的个性化推荐[J]. 情报理论与实践 2016(12)
    • [24].红酒标签秒变“故事书”,你见过吗?[J]. 印刷技术 2017(01)
    • [25].基于相对频次的标签相关性判断优化研究[J]. 图书情报工作 2016(17)
    • [26].物联网之于数字标签的挑战与机遇[J]. 今日印刷 2017(04)
    • [27].基于标签的矩阵分解推荐算法[J]. 计算机应用研究 2017(04)
    • [28].一种融合个性化与多样性的人物标签推荐方法[J]. 中文信息学报 2017(02)
    • [29].一种基于标签推荐的服务聚类方法[J]. 计算机与数字工程 2017(06)
    • [30].服装护理标签的确定及验证[J]. 纺织导报 2017(08)

    标签:;  ;  ;  ;  

    检索结果聚类中的类别标签抽取技术研究
    下载Doc文档

    猜你喜欢