数字电视中非结构化信息管理研究

论文摘要

随着数字电视的普及,数字电视节目越来越多,因此如何有效地在大量电视节目中快速找到用户喜欢看的节目成为一个紧迫的研究任务,一种有效的办法是对文本进行索引。通常的结构化数据库和全文索引都不适合对数字电视节目描述文本作索引。传统的数据库不适合管理非结构化文本,而通常的全文索引也不适合面向嵌入式的媒体信息管理的需要。因为全文索引中常用的倒排索引模型需要对文本进行分词,而日文分词工具(Chasen)空间开销较大(23M),而且无法抽取表征文本含义的词,这样势必造成对很多无意义的词作索引,开销很大。另外,由于数字电视节目更新很快,对其管理需要具有较好的动态性能,而通常国内外对索引的动态更新研究还较少。本文对文本检索中的检索模型、分词工具和索引的动态更新策略进行了研究并且提出了一种具有一定特征提取功能并适合嵌入式的日文分词工具和一种具有良好动态性能的复合更新策略。本文的主要研究内容和成果包括如下:1.比较研究了文本索引中常用标引技术和检索模型。

论文目录

摘要

ABSTRACT

第一章绪论

1.1 研究背景

1.2 研究内容

1.3 本文的研究工作

1.4 论文结构

第二章常用的文本数据库模型及比较

2.1 索引的标引技术

2.1.1 基于分词的词标引技术

2.1.2 单字标引技术

2.2 常用的索引模型

2.2.1 倒排索引模型

2.2.2 Pat 数组模型

2.2.3 署名文件模型和位图模型

2.3 索引动态性能

2.4 本章小结

第三章具有特征提取功能的小型日文分词系统

3.1 常见分词工具的方法

3.1.1 基于词典的分词

3.1.2 基于统计的分词

3.1.3 基于规则和基于统计相结合

3.2 OURNLP 的结构与特点

3.2.1 OurNLP 的分词方法

3.2.2 OurNLP 的结构特点

3.3 一种改进的分词词典机制

3.3.1 分词简介

3.3.2 原有词典结构

3.3.3 改进的词典的结构

3.3.4 词典构造与分词算法

3.3.5 实验结果与分析

3.4 OURNLP 处理流程图

3.5 OURNLP 实验分析

3.6 本章小结

第四章文本索引与索引的在线更新

4.1 引言

4.2 倒排索引的结构和更新

4.2.1 倒排索引的结构

4.2.2 在线更新的特点

4.2.3 常见在线更新策略分析

4.2.4 常见策略存在的问题

4.3 一种高性能的复合更新策略

4.3.1 改进复合更新策略的存储结构

4.3.2 改进复合更新策略的更新算法

4.4 改进复合更新策略算法的理论分析

4.4.1 改进复合更新的磁盘复杂度分析

4.4.2 几种算法的理论分析比较

4.5 索引的实现与实验分析

4.6 本章小结

第五章系统结构与实验

5.1 系统结构

5.2 实验测试

5.3 本章小结

第六章总结和展望

6.1 主要结论

6.2 研究展望

致谢

攻读硕士学位期间已发表或录用的论文

参考文献

附录（一）OURNLP 与CHASEN 切分结果对比

数字电视中非结构化信息管理研究

论文摘要

论文目录

相关论文文献

猜你喜欢