论文摘要
在许多网上社群管理系统中(CWMS),为了管理其中的稀疏数据,大规模稀疏数据表(LST)相关的存储结构正在被越来越多的采用。一个LST通常含有数千以上的属性,并且一条记录仅在少数属性上有定义。在LST中,定义在几个数字和文本混合属性上的低维结构化相似性查询是最常见的操作。但是许多和LST相关的Web 2.0服务的特性使得已有的大多数多维索引都不能适用。近期关于LST的研究多集中于如何存储数据表和建立一种简单的倒排索引来提高LST上的数据管理效率。到目前为止,还没有针对LST的其他新索引结构被提出。已有的倒排索引可以被很快的访问,但是它不包含任何与数据内容有关的信息,故而不能有效的减少查询过程中对数据表文件的随机访问次数。本文提出了基于过滤-检查策略,维护近似数据内容,且保证访问效率的iVA-file索引结构,设计了nG-Signature作为近似表示字符串数据的近似向量,并改进了已有的针对数字数据的近似向量编码方法。同时,本文还提出了新的基于扫描索引方式的查询执行方法。基于真实数据集的全面的测试证明了iVA-file在查询效率方面明显优于已有的技术,且保持了理想的更新速度。
论文目录
相关论文文献
标签:索引论文; 大规模稀疏数据表论文; 结构化查询论文;