大规模稀疏关系数据索引技术研究
论文摘要
在许多网上社群管理系统中(CWMS),为了管理其中的稀疏数据,大规模稀疏数据表(LST)相关的存储结构正在被越来越多的采用。一个LST通常含有数千以上的属性,并且一条记录仅在少数属性上有定义。在LST中,定义在几个数字和文本混合属性上的低维结构化相似性查询是最常见的操作。但是许多和LST相关的Web 2.0服务的特性使得已有的大多数多维索引都不能适用。近期关于LST的研究多集中于如何存储数据表和建立一种简单的倒排索引来提高LST上的数据管理效率。到目前为止,还没有针对LST的其他新索引结构被提出。已有的倒排索引可以被很快的访问,但是它不包含任何与数据内容有关的信息,故而不能有效的减少查询过程中对数据表文件的随机访问次数。本文提出了基于过滤-检查策略,维护近似数据内容,且保证访问效率的iVA-file索引结构,设计了nG-Signature作为近似表示字符串数据的近似向量,并改进了已有的针对数字数据的近似向量编码方法。同时,本文还提出了新的基于扫描索引方式的查询执行方法。基于真实数据集的全面的测试证明了iVA-file在查询效率方面明显优于已有的技术,且保持了理想的更新速度。
论文目录
摘要Abstract第1章 绪论1.1 课题背景1.2 国内外研究现状1.3 本文主要研究内容及章节安排第2章 预备知识和相关技术2.1 预备知识2.1.1 问题定义2.1.2 编辑距离2.2 相关技术2.2.1 Interpreted Schema 数据表文件结构2.2.2 VA-file2.2.3 属性上的倒排索引2.2.4 编辑距离的计算2.2.5 编辑距离的估计2.2.6 Singnature File2.2.7 n-gram 上的倒排索引2.3 本章小结第3章 iVA-file 索引设计3.1 设计目标和基本思想3.2 iVA-file 结构3.3 文本属性编码3.3.1 nG-signature3.3.2 使用nG-signature 估计编辑距离3.3.3 nG-signature 的参数影响3.4 数字属性编码3.5 iVA-file 的建立与更新3.6 本章小结第4章 利用iVA-file 进行查询处理的方法4.1 过滤-验证与同步扫描4.2 kNN 查询过程4.3 Select 查询过程4.4 本章小结第5章 实验结果及分析5.1 实验设定5.2 查询效率测试5.3 更新效率测试5.4 本章小结结论参考文献攻读学位期间发表的学术论文致谢
相关论文文献
本文来源: https://www.lw50.cn/article/7a5e2dacedc8c7ad61a72ef4.html