基于主题词同现图的网页相关度研究

基于主题词同现图的网页相关度研究

论文摘要

文本的主题词信息抽取是指对从文本中抽取的表达文章主题的词进行量化,以结构化的形式描述文本信息。这些主题词作为文本的中间表示,在信息挖掘和智能检索中用以评估未知文本之间的相似性。网络文本的信息的多元化和复杂化使得要获得一个标准形式的文本特征描述是比较困难的。词的同现频率计算就是计算一个词与另一个词在同一句子中同时出现的次数,从而通过文档中各关键词的相关性,揭示了同一文档中各段之间或者不同文档之间的相关性。现今的研究中,各种方法多用向量的形式来表示一篇文章中的各主题词及其特征值,称为特征向量,并在此基础上,对相关性进行计算。本文提出了用同现图的方式表示文章的新研究方法,通过图的形式体现出主题词之间的关联,从而反映文本之间的联系。在此方法过程中主要有两个步骤:首先是将文本以无向图的形式表示,然后是生成的图形的相似性的分析。本文实现了一个能满足运用同现图方法将文本进行聚类处理的系统。系统自动抽取文本内容,并用中文分词的方法提取文章中的主题词,再生成主题词之间同现关系形成的图。系统同时实现了一个主题词同现图在文本聚类方面的应用,最后使用查全率和准确率以及F值来评估算法的好坏,通过实验证明了该聚类算法的有效性和优越性。

论文目录

  • 摘要
  • Abstract
  • 第一章 绪论
  • 1.1 研究背景与意义
  • 1.2 网页相关度研究的主要任务
  • 1.3 网页相关度研究的历史与现状
  • 1.4 当前存在问题
  • 1.5 本文工作以及组织结构
  • 第二章 文本表示和特征选择
  • 2.1 中文分词
  • 2.1.1 基于字符串匹配的分词方法
  • 2.1.2 基于理解的分词算法
  • 2.1.3 基于统计的分词算法
  • 2.2 文本特征词选择
  • 2.3 本章小结
  • 第三章 主题词同现图
  • 3.1 图论和无向图
  • 3.1.1 图论背景
  • 3.1.2 图论的应用领域
  • 3.2 主题词的同现关系
  • 3.3 主题词同现图的定义和生成
  • 3.4 本章小结
  • 第四章 图的相关度计算概述
  • 4.1 图相似和图匹配
  • 4.2 图和子图同构
  • 4.3 图编辑距离
  • 4.4 最大共同子图和最小共同超图
  • 4.5 状态空间查找方法
  • 4.6 概率方法
  • 4.7 距离保存方法
  • 4.8 离散松弛算法
  • 4.9 图集合的均值和中值
  • 4.10 本章小结
  • 第五章 基于主题词同现图的K-MEANS聚类算法
  • 5.1 数据挖掘及其应用
  • 5.2 网页聚类
  • 5.3 K-MEANS聚类算法
  • 5.3.1 算法概述
  • 5.3.2 算法改进
  • 5.4 图编辑距离在主题词同现图上的应用
  • 5.5 本章小结
  • 第六章 实验结果与分析
  • 6.1 主题词同现图应用系统
  • 6.1.1 系统模块
  • 6.1.2 爬虫与正文提取模块在系统中的作用
  • 6.2 实验结果
  • 6.2.1 实验数据介绍
  • 6.2.2 数据特点描述
  • 6.2.3 实验评估方法
  • 6.2.4 数据统计及结果分析
  • 6.3 算法分析
  • 6.4 本章小结
  • 总结与展望
  • 参考文献
  • 致谢
  • 相关论文文献

    • [1].打造网页设计创新创业示范课程[J]. 河南教育(职成教) 2019(12)
    • [2].网页设计中计算机图像处理技术的应用[J]. 无线互联科技 2019(21)
    • [3].高职院校网页设计与制作课程教学改革研究[J]. 教育现代化 2019(95)
    • [4].浅谈网页设计与制作课程[J]. 电脑知识与技术 2020(01)
    • [5].浅析水墨元素融入网页设计的架构技巧[J]. 辽宁经济职业技术学院.辽宁经济管理干部学院学报 2019(06)
    • [6].分析计算机图像处理技术在网页设计中的应用价值[J]. 计算机产品与流通 2020(01)
    • [7].网页设计中计算机图像处理技术的应用[J]. 电子技术与软件工程 2019(24)
    • [8].“环球佳”医疗设备企业网页设计[J]. 出版发行研究 2019(12)
    • [9].网页设计在视觉传达设计中表现的形式[J]. 西部皮革 2020(03)
    • [10].论网页设计中计算机图像处理技术的应用[J]. 计算机产品与流通 2020(02)
    • [11].色彩节奏在网页设计中的应用研究[J]. 计算机产品与流通 2020(02)
    • [12].计算机图像处理技术在网页设计中的应用分析[J]. 电子世界 2020(04)
    • [13].网页设计中计算机图像处理技术的应用[J]. 科技风 2020(11)
    • [14].网页设计作品[J]. 上海纺织科技 2020(01)
    • [15].浅析网页设计中的色彩搭配[J]. 农家参谋 2020(01)
    • [16].党政网页电子文件采集与管理研究[J]. 办公室业务 2020(04)
    • [17].基于翻转课堂的《商务网页设计与制作》课程设计研究[J]. 中国多媒体与网络教学学报(中旬刊) 2020(03)
    • [18].水墨动画在网页设计中的应用思考[J]. 中外企业家 2020(12)
    • [19].网页设计中的色彩搭配探讨[J]. 信息与电脑(理论版) 2020(02)
    • [20].浏览器的神奇玩法[J]. 计算机与网络 2020(04)
    • [21].网页欣赏精品分析教学平台的设计[J]. 黑龙江科学 2020(07)
    • [22].关于网页设计与制作方法与应用的探讨[J]. 河北农机 2020(03)
    • [23].基于修辞资源与受众的高校网页简介英译失误分析——以东南地区部分985高校为例[J]. 黑龙江教师发展学院学报 2020(04)
    • [24].关于“网页设计与制作”教学的中高职衔接问题初探[J]. 电脑知识与技术 2020(09)
    • [25].网页设计中计算机图像处理技术的应用[J]. 中外企业家 2020(16)
    • [26].网页档案信息长期保存策略研究[J]. 档案时空 2019(12)
    • [27].中职《网页设计与制作》课程教学综述[J]. 信息记录材料 2020(03)
    • [28].基于眼动跟踪的教育网页“优势区域”论证研究[J]. 现代计算机 2020(13)
    • [29].基于校企合作的《网页设计》课程教学改革研究[J]. 科技创新导报 2019(31)
    • [30].计算机网页设计中的布局与排版[J]. 信息与电脑(理论版) 2020(09)

    标签:;  ;  ;  ;  

    基于主题词同现图的网页相关度研究
    下载Doc文档

    猜你喜欢