论文摘要
随着数字电视的普及,数字电视节目越来越多,因此如何有效地在大量电视节目中快速找到用户喜欢看的节目成为一个紧迫的研究任务,一种有效的办法是对文本进行索引。通常的结构化数据库和全文索引都不适合对数字电视节目描述文本作索引。传统的数据库不适合管理非结构化文本,而通常的全文索引也不适合面向嵌入式的媒体信息管理的需要。因为全文索引中常用的倒排索引模型需要对文本进行分词,而日文分词工具(Chasen)空间开销较大(23M),而且无法抽取表征文本含义的词,这样势必造成对很多无意义的词作索引,开销很大。另外,由于数字电视节目更新很快,对其管理需要具有较好的动态性能,而通常国内外对索引的动态更新研究还较少。本文对文本检索中的检索模型、分词工具和索引的动态更新策略进行了研究并且提出了一种具有一定特征提取功能并适合嵌入式的日文分词工具和一种具有良好动态性能的复合更新策略。本文的主要研究内容和成果包括如下:1.比较研究了文本索引中常用标引技术和检索模型。
论文目录
摘要ABSTRACT第一章 绪论1.1 研究背景1.2 研究内容1.3 本文的研究工作1.4 论文结构第二章 常用的文本数据库模型及比较2.1 索引的标引技术2.1.1 基于分词的词标引技术2.1.2 单字标引技术2.2 常用的索引模型2.2.1 倒排索引模型2.2.2 Pat 数组模型2.2.3 署名文件模型和位图模型2.3 索引动态性能2.4 本章小结第三章 具有特征提取功能的小型日文分词系统3.1 常见分词工具的方法3.1.1 基于词典的分词3.1.2 基于统计的分词3.1.3 基于规则和基于统计相结合3.2 OURNLP 的结构与特点3.2.1 OurNLP 的分词方法3.2.2 OurNLP 的结构特点3.3 一种改进的分词词典机制3.3.1 分词简介3.3.2 原有词典结构3.3.3 改进的词典的结构3.3.4 词典构造与分词算法3.3.5 实验结果与分析3.4 OURNLP 处理流程图3.5 OURNLP 实验分析3.6 本章小结第四章 文本索引与索引的在线更新4.1 引言4.2 倒排索引的结构和更新4.2.1 倒排索引的结构4.2.2 在线更新的特点4.2.3 常见在线更新策略分析4.2.4 常见策略存在的问题4.3 一种高性能的复合更新策略4.3.1 改进复合更新策略的存储结构4.3.2 改进复合更新策略的更新算法4.4 改进复合更新策略算法的理论分析4.4.1 改进复合更新的磁盘复杂度分析4.4.2 几种算法的理论分析比较4.5 索引的实现与实验分析4.6 本章小结第五章 系统结构与实验5.1 系统结构5.2 实验测试5.3 本章小结第六章 总结和展望6.1 主要结论6.2 研究展望致谢攻读硕士学位期间已发表或录用的论文参考文献附录(一)OURNLP 与CHASEN 切分结果对比
相关论文文献
标签:文本索引论文; 分词词典论文; 倒排索引论文; 复合更新策略论文;