基于支持向量机的博客作者信息挖掘软件

基于支持向量机的博客作者信息挖掘软件

论文摘要

博客挖掘作为数据挖掘的一个具体应用领域,近年来受到了广泛的关注。现有的研究主要集中在意见挖掘、社区挖掘、博客搜索等方面,关于兴趣、性格挖掘的研究相对比较少。如今是一个强调个性化服务的时代,获取用户的个人信息,如兴趣、性格等,势必能够为个性化服务提供决策支持。因此,博客作者个人信息的挖掘显得越来越重要。本文的研究目的就是为了挖掘博客作者的个人信息,主要识别博客作者的兴趣和性格,从而为服务商了解用户感兴趣的事物以及应该采用何种方式与用户交流沟通,实现用户与服务商之间的双赢。本文的研究主要基于自然语言处理技术、文本分类技术以及机器学习技术,从博客文章主题分类、博客作者兴趣分类和博客作者性格分类三方面展开研究,通过分析博客作者的全部文章去识别作者的兴趣集合以及性格类型,本文最后实现了上述博客作者兴趣分类和性格分类系统原型。主要的创新点包括:(1)提出了基于博客标签(Folksonomy)统计的未登录词和惯用语识别方法和博客文章分类样本数据去噪的方法,并结合博客内容由标题、标签、类别、首段、末段以及正文等文章要素组成的结构特点,根据综合评价模型G1法改进特征权值计算方法,改善了博客文章主题分类的效果。(2)与已有的研究相比,本文的博客作者兴趣挖掘从数据采集到效果预测基本上不需要人工干预,大大降低了样本标注的人力开销,同时引入了一种新的评价标准交集非空,通过稍微地扩展预测兴趣集合的大小,可以显著地提高兴趣预测的交集非空率,兴趣集合大小为2时达到77.0%。(3)本文在大五类性格标准基础上对网易博客作者外向和内向两种性格进行分类研究,从性格分类特征和特征选择方法两方面改进博客作者性格分类的效果,准确率达到77.7%,分别比基线准确率和信息增益方法的准确率提高了25.8%和16.4%,该方法为中文博客作者的其他性格分类提供借鉴。

论文目录

  • 摘要
  • Abstract
  • 第一章 绪论
  • 1.1 研究背景与意义
  • 1.2 国内外研究状况
  • 1.3 文本分类
  • 1.3.1 文本表示
  • 1.3.2 文本分类算法
  • 1.4 本文的主要研究工作
  • 1.5 本文的组织方式
  • 第二章 博客文章主题分类
  • 2.1 博客数据获取
  • 2.2 博客文本去噪
  • 2.3 未登录词和惯用语识别
  • 2.4 文本特征提取
  • 2.5 博客文本表示
  • 2.6 实验设计与结果分析
  • 2.6.1 识别未登录词对博客分类的影响
  • 2.6.2 文章要素对博客分类的影响
  • 2.7 本章小结
  • 第三章 博客作者兴趣分类
  • 3.1 数据准备
  • 3.2 兴趣分类的具体流程
  • 3.3 兴趣分类效果评估
  • 3.4 兴趣分类的实验结果
  • 3.5 本章小结
  • 第四章 博客作者性格分类
  • 4.1 数据准备
  • 4.2 分类特征
  • 4.2.1 主题特征
  • 4.2.2 博客风格特征
  • 4.2.3 博客行为特征
  • 4.3 特征选择
  • 4.4 特征权值计算
  • 4.5 性格分类
  • 4.6 本章小结
  • 第五章 博客作者信息挖掘系统的实现
  • 5.1 系统结构分析
  • 5.1.1 系统功能分析
  • 5.1.2 系统流程分析
  • 5.2 系统设计
  • 5.2.1 开发环境
  • 5.2.2 数据库设计
  • 5.3 系统运行效果
  • 5.3.1 系统前台
  • 5.3.2 系统后台
  • 5.4 本章小结
  • 总结与展望
  • 6.1 研究总结
  • 6.2 下一步工作
  • 参考文献
  • 攻读硕士学位期间取得的研究成果
  • 致谢
  • 相关论文文献

    • [1].母爱的最高褒奖——怀念谭丽云[J]. 东北之窗 2017(Z2)
    • [2].结构特征和内容分析融合的博客文章分类[J]. 计算机工程与应用 2013(05)
    • [3].多特征融合的博客文章分类方法[J]. 小型微型计算机系统 2010(06)
    • [4].博客文章自动转发到微博[J]. 电脑爱好者 2014(22)
    • [5].博客谜案:谁在骂我[J]. 检察风云 2009(06)
    • [6].博客谜案:谁在骂我[J]. 政府法制 2009(17)
    • [7].基于文章要素影响分析的博客文章分类方法[J]. 计算机工程与应用 2011(29)
    • [8].教你如何将博客文章推荐给QQ好友[J]. 电脑知识与技术(经验技巧) 2010(04)
    • [9].博文迷案:谁在骂我[J]. 民主与法制 2009(07)
    • [10].我们的孩子在这样学习[J]. 教师博览 2011(10)
    • [11].苦口者不一定皆为良药[J]. 青年与社会 2012(04)
    • [12].博客文章不染尘[J]. 当代学生 2009(18)
    • [13].什么人适合做教师[J]. 方圆 2016(18)
    • [14].易安民声[J]. 劳动保护 2014(12)
    • [15].由排序支持向量机抽取博客文章的摘要[J]. 电子科技大学学报 2010(04)
    • [16].80后成熟标准[J]. 山西青年 2009(05)
    • [17].全球首家博客报纸夭折[J]. 新闻记者 2009(08)
    • [18].鲜果自动为订阅的文章排序[J]. 电脑迷 2008(01)
    • [19].一种基于多特征融合的博客文章排序算法[J]. 计算机工程 2009(02)
    • [20].等待“花期”[J]. 湖南教育(上) 2010(06)
    • [21].博客不死[J]. 21世纪商业评论 2011(01)
    • [22].国内[J]. IT时代周刊 2014(15)
    • [23].10期最受读者欢迎及推荐博客文章评选揭晓[J]. 家庭医药(快乐养生) 2010(12)
    • [24].Win10激活量突破3亿 7月底免费升级到底[J]. 电子技术与软件工程 2016(10)
    • [25].上网串门[J]. 老同志之友 2011(14)
    • [26].考上大学的女儿,咋就变成了“吸血鬼”?[J]. 剑南文学(经典阅读) 2008(01)
    • [27].国内比较有新意的学术网站[J]. 出版参考 2010(18)
    • [28].博客营销在商业健身俱乐部中的应用方法研究[J]. 消费导刊 2009(23)
    • [29].舒芜晚年的博客文章[J]. 书屋 2014(05)
    • [30].易安民声[J]. 劳动保护 2014(11)

    标签:;  ;  ;  ;  ;  ;  

    基于支持向量机的博客作者信息挖掘软件
    下载Doc文档

    猜你喜欢