互联网页文字信息分析技术研究与应用

互联网页文字信息分析技术研究与应用

论文摘要

在这个信息增长非常迅速的时代,人们对信息的需求越来越多,越来越专业,对信息的筛选要求也越来越高。一方面人类在学习过程中所获取的知识的来源途径已经走向了互联网,而另一方面信息爆炸的问题越来越严重。为了解决这个问题,全世界大量的研究人员尝试提供一种更有效的机制来寻找和表现海量的信息。 本文的研究正是探求这方面的一些理论,实践与应用框架。 第一章概述互联网知识获取技术的背景。 第二章展示从向量空间模型出发的知识点分类和多文档摘要结合研究的成果,其中主要分析了KNN,SVM以及本文提出的模糊KNN三种方法对知识点划分的效果;提出了结合分类与链接分析的多文档摘要方法,以及利用涉及度进行数据挖掘的原理。 第三章介绍本文的实践应用:Antares网页搜索系统。此章详细说明一个结合信息过滤和选择的搜索引擎的方方面面。为如何实现同类型系统提供了一个良好的范例和借鉴。 第四章引入语义概念的概率模型,对隐含语义检索(LSI)和WordNet做了简单介绍,并提出了一个新的框架,作为对未来发展的方向的一个探索。 最后一章为总结与展望。

论文目录

  • 第一章 概述
  • 第二章 知识点分类与多文档摘要
  • 2.1 绪论
  • 2.2 基于向量空间的文本分类
  • 2.2.1 文本分类的任务
  • 2.2.2 向量空间模型
  • 2.2.2.1 向量模型定义
  • 2.2.2.2 特征的权值表示
  • 2.2.3 识别方法
  • 2.2.3.1 KNN(K最近邻域法)方法
  • 2.2.3.2 SVM(支持向量机)方法
  • 2.2.3.3 模糊分类(Fuzzy Classification Method)
  • 2.3 基于文本分类与链接分析的多文档摘要
  • 2.3.1 文档摘要任务
  • 2.3.2 多文档的数据结构
  • 2.3.3 文档摘要的算法
  • 2.3.3.1 快速文档摘要的基本思想
  • 2.3.3.2 文档标题的影响
  • 2.3.3.3 评估方法
  • 2.3.4 结合链接分析的多文档摘要
  • 2.3.4.1 根据互联网络结构的链接分析确定排序权重
  • 2.3.4.2 一般海量数据资料的排序权重
  • 2.3.4.3 排序权重的影响
  • 2.3.5 结合知识点分类的多文档摘要
  • 2.3.5.1 多文档摘要与知识点分类结合
  • 2.3.5.2 知识点分类的选择
  • 2.3.5.3 知识点分类权重的影响
  • 2.3.6 自动且完全的分类的多文档摘要: 一种新的数据挖掘角度
  • 2.3.6.1 自动且完全的分类
  • 2.3.6.2 涉及度(Degree of Relevance)
  • 2.3.6.3 多文档自动与完全分类的摘要流程
  • 2.4 实验结果与讨论
  • 2.4.1 实验模型说明
  • 2.4.2 各种知识点分类方法的测试与比较
  • 2.4.2.1 KNN和SVM比较测试与结果讨论
  • 2.4.2.2 模糊分类测试结果与讨论
  • 2.4.3 多文档摘要测试与综合测试
  • 2.4.3.1 单文档摘要与标题的影响
  • 2.4.3.2 多文档摘要
  • 2.4.3.3 多文档自动与完全分类摘要的测试与结果
  • 第三章 自定义网页搜索系统的实践
  • 3.1 绪论
  • 3.2 系统框架
  • 3.3 功能模块
  • 3.3.1 辅助功能模块
  • 3.3.1.1 文本切词器
  • 3.3.1.2 查询串分析器
  • 3.3.2 后台功能模块
  • 3.3.2.1 Windows窗体应用程序界面
  • 3.3.2.2 爬虫器
  • 3.3.2.3 排序器
  • 3.3.2.4 分类器
  • 3.3.2.5 监视器
  • 3.3.3 前台功能模块
  • 3.3.3.1 Servlet服务界面
  • 3.3.3.2 检索器
  • 3.3.3.3 报表器
  • 3.3.3.4 摘要器
  • 3.3.4 其他模块
  • 3.4 应用流程举例
  • 3.4.1 示例一
  • 3.4.2 示例二
  • 3.4.3 示例三
  • 第四章 网页搜索中对自然语义分析的探索
  • 4.1 概述
  • 4.2 隐含语义检索(LSI)
  • 4.2.1 LSI的定义
  • 4.2.1.1 Term-Document矩阵的主成分分析
  • 4.2.1.2 文档(Document)匹配
  • 4.2.1.3 索引项(Term)匹配
  • 4.2.1.4 概念空间
  • 4.2.2 LSI在互连网页搜索的实际应用
  • 4.3 词汇-隐含概念-文档学习机制
  • 4.3.1 WordNet概述
  • 4.3.2 Word-Concept-Document概率模型与EM算法
  • 4.3.3 缩小参数空间与优化初始条件
  • 4.4 互联网知识体系的应用框架
  • 第五章 总结与展望
  • 参考文献
  • 攻读硕士学位期间公开发表(录用)的论文和参与的项目
  • 致谢
  • 相关论文文献

    • [1].打造网页设计创新创业示范课程[J]. 河南教育(职成教) 2019(12)
    • [2].网页设计中计算机图像处理技术的应用[J]. 无线互联科技 2019(21)
    • [3].高职院校网页设计与制作课程教学改革研究[J]. 教育现代化 2019(95)
    • [4].浅谈网页设计与制作课程[J]. 电脑知识与技术 2020(01)
    • [5].浅析水墨元素融入网页设计的架构技巧[J]. 辽宁经济职业技术学院.辽宁经济管理干部学院学报 2019(06)
    • [6].分析计算机图像处理技术在网页设计中的应用价值[J]. 计算机产品与流通 2020(01)
    • [7].网页设计中计算机图像处理技术的应用[J]. 电子技术与软件工程 2019(24)
    • [8].“环球佳”医疗设备企业网页设计[J]. 出版发行研究 2019(12)
    • [9].网页设计在视觉传达设计中表现的形式[J]. 西部皮革 2020(03)
    • [10].论网页设计中计算机图像处理技术的应用[J]. 计算机产品与流通 2020(02)
    • [11].色彩节奏在网页设计中的应用研究[J]. 计算机产品与流通 2020(02)
    • [12].计算机图像处理技术在网页设计中的应用分析[J]. 电子世界 2020(04)
    • [13].网页设计中计算机图像处理技术的应用[J]. 科技风 2020(11)
    • [14].网页设计作品[J]. 上海纺织科技 2020(01)
    • [15].浅析网页设计中的色彩搭配[J]. 农家参谋 2020(01)
    • [16].党政网页电子文件采集与管理研究[J]. 办公室业务 2020(04)
    • [17].基于翻转课堂的《商务网页设计与制作》课程设计研究[J]. 中国多媒体与网络教学学报(中旬刊) 2020(03)
    • [18].水墨动画在网页设计中的应用思考[J]. 中外企业家 2020(12)
    • [19].网页设计中的色彩搭配探讨[J]. 信息与电脑(理论版) 2020(02)
    • [20].浏览器的神奇玩法[J]. 计算机与网络 2020(04)
    • [21].网页欣赏精品分析教学平台的设计[J]. 黑龙江科学 2020(07)
    • [22].关于网页设计与制作方法与应用的探讨[J]. 河北农机 2020(03)
    • [23].基于修辞资源与受众的高校网页简介英译失误分析——以东南地区部分985高校为例[J]. 黑龙江教师发展学院学报 2020(04)
    • [24].关于“网页设计与制作”教学的中高职衔接问题初探[J]. 电脑知识与技术 2020(09)
    • [25].网页设计中计算机图像处理技术的应用[J]. 中外企业家 2020(16)
    • [26].网页档案信息长期保存策略研究[J]. 档案时空 2019(12)
    • [27].中职《网页设计与制作》课程教学综述[J]. 信息记录材料 2020(03)
    • [28].基于眼动跟踪的教育网页“优势区域”论证研究[J]. 现代计算机 2020(13)
    • [29].基于校企合作的《网页设计》课程教学改革研究[J]. 科技创新导报 2019(31)
    • [30].计算机网页设计中的布局与排版[J]. 信息与电脑(理论版) 2020(09)

    标签:;  ;  ;  ;  ;  ;  ;  ;  

    互联网页文字信息分析技术研究与应用
    下载Doc文档

    猜你喜欢