论文题目: 关键词抽取和结构化列表包装的方法研究
论文类型: 硕士论文
论文专业: 计算机科学与技术
作者: 许晖
导师: 李涓子
关键词: 关键词抽取,半结构化文档,结构化列表,信息抽取,机器学习
文献来源: 清华大学
发表年度: 2005
论文摘要: 如何智能、快速、有效地从互联网上获取信息已经成为当前计算机领域中一个迫切需要解决的问题。关键词抽取和结构化列表的包装是实现对互联网上信息快速和精确获取的重要手段。关键词抽取的精确度会直接影响文本知识的表达和文本信息的抽取。结构化列表的抽取可以将半结构的数据通过抽取算法包装为一个结构化的数据对象。关键词抽取和结构化列表的抽取已经成为信息检索领域中非常重要的研究课题。本文挖掘和利用文档的结构和内容信息,分析和研究了关键词抽取问题和结构化列表的包装问题,提出了有效的关键词抽取算法和结构化列表的包装算法。在关键词抽取的研究中,本文采用分类思想设计并实现了关键词抽取算法,并采用支持向量机模型建立分类模型。本文提出了全局上下文属性和局部上下文属性两类属性作为分类模型的特征属性。实验表明本文提出的算法的抽取结构在查准率和查全率上都比已有的算法有显著的提高。本文还将抽取出的关键词用于文本分类实验中,实验表明,本文提出的算法抽取出来的关键词能够提高文本分类的精度,从而证明了所抽取的关键词的有效性。在结构化列表包装的研究中,本文提出并实现了基于统计分析的分隔符选取算法,并充分利用列表的物理布局信息和内容信息,采用聚类思想设计并实现了列表包装算法。实验表明,本文提出的基于聚类的结构化列表的包装算法能够比较有效地解决结构化列表的包装问题。本文结合现有信息系统的设计,分析了表格建模的需求,包括表格的应用需求和现有表格模型的分析,提出了针对信息自动处理目标的面向数据绑定的表格模型,并给出了形式化定义。
论文目录:
摘要
Abstract
第1章 引言
1.1 课题背景、目的和意义
1.2 国内外研究现状
1.3 论文的组织
第2章 问题分析和框架设计
2.1 问题的分析
2.2 框架设计
2.3 本章小结
第3章 关键词抽取
3.1 关键词抽取算法
3.2 实验结果及分析
3.3 本章小结
第4章 结构化列表的包装
4.1 结构化列表包装算法
4.2 实验结果与分析
4.3 本章小结
第5章 面向数据绑定的表格模型
5.1 表格建模的需求分析
5.2 面向数据绑定的表格模型
5.3 本章小结
第6章 结束语
6.1 总结
6.2 未来工作
致谢
个人简历、 在学期间发表的学术论文与研究成果
发布时间: 2007-03-14
参考文献
- [1].关键词抽取的研究与实现[D]. 罗准辰.国防科学技术大学2008
- [2].搜索竞价广告关键词优化问题研究[D]. 吕晨.山东科技大学2010
- [3].搜索竞价广告关键词优化算法与实验[D]. 刘亚妮.电子科技大学2011
- [4].面向问答的问句关键词提取技术研究[D]. 王煦祥.哈尔滨工业大学2016
- [5].基于统计与协同过滤的关键词提取研究[D]. 李华灿.西安电子科技大学2015
- [6].安全云存储中高效的关键词查找方案[D]. 李倩.中南大学2012
- [7].基于词共现的关键词抽取算法研究[D]. 郭建波.合肥工业大学2015
- [8].基于复杂网络的文本关键词提取分析平台[D]. 许梦馨.南京邮电大学2017
- [9].多策略关键词抽取及快速文本主题分类研究[D]. 王惠勇.东北大学2012
- [10].基于机器学习的关键词竞价系统的研究[D]. 张博.辽宁科技大学2013
相关论文
- [1].汉语关键词识别与主题信息提取的研究及应用[D]. 王海龙.北京交通大学2007
- [2].Web信息自动抽取技术研究[D]. 贺智平.西安电子科技大学2006
- [3].基于隐马尔可夫模型的Web信息抽取研究[D]. 俞琰.南京工业大学2005
- [4].基于语义的半结构化文档检索[D]. 闫学东.清华大学2005
- [5].基于语义的网络服务匹配机制的研究与实现[D]. 张钋.清华大学2005
- [6].基于网站语义结构的信息抽取系统的研究与实现[D]. 王春龙.北京交通大学2007
- [7].层次化关键词抽取与文本自动分类在BBS中的应用[D]. 吴晓元.上海交通大学2007
- [8].计算机自动诊断中的数据挖掘问题[D]. 劳逆.清华大学2006
- [9].半结构化文档中语义信息抽取方法的研究[D]. 李毅.清华大学2004
- [10].分布式系统中的文本信息检索技术研究[D]. 刘红星.清华大学2004