论文摘要
现有的数据组织系统中的索引机制大多是基于传统数据组织的通用索引,存在索引数据规模过大、索引时间过长、索引数据类别单一等诸多问题。这些问题导致海量数据检索在查全率、查准率和查询时间上无法满足用户需求。为了解决这些问题,提高信息利用率,针对海量非结构化数据设计一种能够提高性能和数据检索质量的新型索引机制成为重要的研究问题。首先构造了一种海量数据组织原型系统。该系统满足了海量数据组织管理的自动化、统一接口、模式提取、认知提取和语义集成等需求。该系统采用了信息预处理技术、信息可扩展存储技术、信息再组织技术和信息检索技术。在这个海量数据组织系统的平台下,可以进行相关大规模数据处理工作,如信息索引等。其次给出了混合索引机制及其相应的算法流程。混合索引机制采用信息矩阵模型作为索引信息的数据模型。该模型采取多个元数据来表征信息实体。这种信息数据模型在降低数据规模的同时,增强了信息内部特征的表示。这种混合索引机制的索引数据是信息的元数据。基于元数据的索引能提供比基于内容的索引更为精确和语义更强的索引。混合索引机制采取的索引存储模型主要有树、哈希和倒排文件三种方式。树索引存储模式主要是建立内存索引,作为检索的最主要的入口。哈希索引存储模式主要是判断索引数据是否存在,建立索引数据的位图索引。倒排文件存储模式主要是建立磁盘索引,同时提供基于内容的全文索引来提供扩展接口。各种存储模型在索引过程中共同作用。最后对于混合索引机制从功能和性能两个方面进行了测试和分析。实验结果表明,采用了该索引机制的海量数据组织系统的内存索引数据容量只有原始数据的4%,磁盘索引数据只有原始数据的1/3,索引时间比同种应用平均降低了10%。数据结果验证了该索引机制在海量数据组织中具备较强的实用性。