基于主题相关博客的属性挖掘模型设计

基于主题相关博客的属性挖掘模型设计

论文摘要

主题相关博客就是在博客圈中围绕某个专一主题发表文章的博客。随着博客的盛行,博客圈里的内容是五花八门,人们已经不仅仅局限于检索到与主题相关的博客,而是希望在此基础上检索出符合某些特定属性的博客,比如具有情感倾向性的博客、具有高可信度作者的博客、具有某一种写作风格或某种体裁的博客等等。归结起来就是人们希望检索到高质量的并且基本上围绕某一感兴趣主题的博客。基于这种需求,本文重点研究了主题相关博客精选算法和博客属性挖掘算法,其主要的创新工作和成果如下:1)设计并实现了一组基于博文相似度均值的精选实验,并结合博文的召回率-精确率分布曲线,在不浪费系统资源的前提下计算获得最高精确率的最小召回文档数,极大地提高了计算的效率与准确度。同时,该实验方案在2009年TREC全球Blog评测任务中获得了单项指标第一的成绩。2)本文设计并实现了三个挖掘博客属性的模型,其中采用基于分类器的最大熵模型来区分博客的事实与情感属性,利用斯坦福命名实体工具识别出博客中的命名实体,然后利用实体出现的位置来预测博客的官方与私人的属性,利用博文的长度、平均长度、表征相关性的特征如词频,查询频率共同构建了一个系数L-Qtf来预测博客的深浅属性。这些模型在博客评测中有取得了优异的成绩。3)在判别博客官方与私人的属性时,我们把它当做一个二分类问题来做对比实验,并采用稳定性与鲁棒性高的SVM分类器进行分类,证明了由于博客特征分布的不均衡性,不能把此当做简单的分类问题来看待。另外,设计了四个对比实验验证了在判别博客深浅属性的时候,博文的长度与相关性因素同等重要。

论文目录

  • 摘要
  • ABSTRACT
  • 第一章 绪论
  • 1.1 研究背景
  • 1.1.1 互联网的发展与Blog的兴起
  • 1.1.2 基于Blog的搜索研究
  • 1.1.3 TREC博客评测任务
  • 1.2 本文的工作内容
  • 1.3 本文的组织
  • 第二章 主题相关博客属性挖掘技术的研究现状
  • 2.1 前言
  • 2.2 Blog精选任务中的主题选取
  • 2.3 检索系统的评估体系
  • 2.4 精选博文属性挖掘的解决方案
  • 2.4.1 博客检索技术概况
  • 2.4.2 TREC2009中的三个最佳主题相关博客属性挖掘方案
  • 第三章 博客数据的前期预处理
  • 3.1 查询话题
  • 3.2 博客圈的结构
  • 3.3 数据集的构建
  • 3.3.1 博客选择
  • 3.3.2 博客抓取
  • 3.3.3 组织数据
  • 3.4 检索结果的精确性评价标准
  • 3.5 实验辅助工具包
  • 3.5.1 斯坦福命名实体工具
  • 3.5.2 Indri
  • 3.6 预处理
  • 3.7 查询扩展
  • 3.7.1 局部查询扩展技术
  • 3.7.2 全局查询扩展技术
  • 3.7.3 本文模型所采用的查询扩展方法
  • 第四章 主题相关博客的精选设计
  • 4.1 前言
  • 4.2 博客精选实验设计
  • 4.2.1 精选实验A
  • 4.2.2 精选实验B
  • 4.2.3 精选实验C
  • 4.3 主题相关博客精选设计
  • 第五章 基于主题相关博客的属性挖掘模型设计
  • 5.1 前言
  • 5.2 博客属性挖掘模型
  • 5.2.1 情感与事实属性判断模型
  • 5.2.2 官方与私人属性判断模型
  • 5.2.3 博客深浅属性判断模型
  • 第六章 总结与展望
  • 6.1 本文工作总结
  • 6.2 作展望
  • 参考文献
  • 致谢
  • 攻读学位期间发表的学术论文目录
  • 相关论文文献

    • [1].基于多源数据融合的数字图书馆用户偏好挖掘模型研究[J]. 河南图书馆学刊 2020(02)
    • [2].一种基于知识图谱的多元空间涉案人财物线索挖掘模型简析[J]. 信息系统工程 2019(11)
    • [3].火眼金睛审题 挖掘隐模破题[J]. 数学通讯 2020(03)
    • [4].主题挖掘模型在情感分类中的应用[J]. 今日财富(中国知识产权) 2017(11)
    • [5].心中有模型 解法自然来[J]. 数理化学习(初中版) 2020(09)
    • [6].基于领域本体的企业竞争情报挖掘模型研究[J]. 情报科学 2014(06)
    • [7].多粒度区间关联规则挖掘模型构建[J]. 计算机产品与流通 2020(06)
    • [8].社交网络中网络空间安全用户挖掘模型研究[J]. 现代计算机 2020(12)
    • [9].粗糙控制可调精度规则挖掘模型与应用[J]. 辽宁工程技术大学学报(自然科学版) 2016(12)
    • [10].主动服务导向下的服务挖掘模型研究[J]. 武汉理工大学学报(信息与管理工程版) 2010(02)
    • [11].质量评估的粗挖掘模型的研究[J]. 河北北方学院学报(自然科学版) 2010(06)
    • [12].基于遗传编程的分等级规则挖掘模型[J]. 盐城工学院学报(自然科学版) 2008(02)
    • [13].基于数据仓库的土壤环境监测综合挖掘模型构架[J]. 农业工程学报 2008(08)
    • [14].建立与运用基于口腔医学领域本体的知识挖掘模型的方法——以国家自然科学基金资助情况为例[J]. 价值工程 2012(07)
    • [15].以客户需求为导向的定制终端潜在客户挖掘模型研究[J]. 信息安全与技术 2014(03)
    • [16].学前教育师资信息素养的挖掘模型设计[J]. 咸宁学院学报 2011(06)
    • [17].多路线复杂约束下客机最佳航线的挖掘模型[J]. 计算机仿真 2015(04)
    • [18].基于主题—情感挖掘模型的微博评论情感分类研究[J]. 情报理论与实践 2019(05)
    • [19].面向主题的高质量评论挖掘模型研究[J]. 现代图书情报技术 2015(Z1)
    • [20].项目加权关联规则挖掘模型研究[J]. 闽江学院学报 2009(05)
    • [21].基于语义集成的客户知识挖掘模型研究[J]. 现代情报 2014(11)
    • [22].基于图书馆借书信息的学生成绩挖掘模型研究[J]. 现代计算机(专业版) 2008(10)
    • [23].基于概念格的应急知识挖掘模型研究[J]. 现代情报 2017(11)
    • [24].半开放式挖掘模型组挖掘绝经综合征的中医证治规则[J]. 科学技术与工程 2008(15)
    • [25].本体指导下的网络文献信息内容挖掘模型[J]. 图书情报工作 2010(24)
    • [26].基于输入触发的漏洞挖掘模型[J]. 计算机工程与设计 2009(18)
    • [27].“层次分析法构建挖掘模型”的基本内涵及应用效能研究[J]. 陕西教育(高教版) 2014(03)
    • [28].海量网页模式下的特定数据快速挖掘模型的改进[J]. 宁德师范学院学报(自然科学版) 2016(04)
    • [29].基于信息增益的征信数据关联规则挖掘模型设计[J]. 甘肃联合大学学报(自然科学版) 2010(02)
    • [30].关联规则挖掘模型在大学生评价中的应用[J]. 楚雄师范学院学报 2013(03)

    标签:;  ;  ;  ;  ;  

    基于主题相关博客的属性挖掘模型设计
    下载Doc文档

    猜你喜欢