论文摘要
作为一门融信号处理,无线通信,嵌入式计算,数据管理为一体的新兴技术,RFID技术正广泛应用于越来越多的领域,如供应链管理,物体跟踪,快捷支付等等。但由于RFID技术采用无线射频信号进行数据通讯,其极易受环境影响,导致在RFID应用中进行数据采集时漏读和错读现象频频发生,而且会产生大量冗余数据以及数据的时间乱序现象,这严重影响了事件检测中查询结果的准确性,阻碍了RFID技术的更广泛应用。因此,对RFID数据进行预处理是保证高质量查询结果的前提条件。针对上面提出的问题,本文对RFID应用中产生的“脏”数据进行数据预处理策略的研究。首先,在对RFID数据进行三元组模型的基础上,本文提出一个数据抽象算法,将RFID数据从数据层抽象到逻辑区域层。它主要是对数据进行抽象压缩,去除大量冗余数据的同时,对数据漏读问题有一定的容忍度。抽象后,数据可被看成简单事件。实验结果表明,RFID数据经过抽象后,数据量极度减少,大大节省系统开销,为下一步数据清洗提供了条件。其次,本文针对RFID应用中“脏”数据的主要类型——漏读数据,在数据抽象的基础上,提出三种填补算法,即贪婪算法,最小k-相似算法和全相似算法。它们对已经发生的事件进行统计学习,并结合逻辑区域本身的漏读情况建立起动态概率事件模型,在此基础上,根据不同的搜索策略查找可能发生漏读事件的最相似事件,据此对漏读数据进行填补,这三种算法大大提高数据的准确率,消除漏读数据对查询质量的影响。理论分析和大量实验证明该数据填补算法的有效性和高效性。最后,本文增加对时间因素的考虑,对上面提出的填补算法进行改进。它主要对概率事件模型进行扩展,引入时间模型,由此提出两种清洗算法的改进策略,即β*改进算法和β+改进算法。β*改进算法是通过直方图分布对时间进行估计,而β+改进算法是通过欧氏距离对时间进行估计,在不同的条件下,两种算法有各自的优势。实验证明改进策略在填补数据准确率方面有一定的优越性。
论文目录
摘要Abstract第1章 引言1.1 研究背景1.2 RFID数据管理系统1.2.1 RFID数据的特点1.2.2 RFID数据管理系统1.3 问题提出1.4 本文贡献1.5 组织结构第2章 相关工作2.1 "脏"数据类型2.2 一般性数据清洗策略2.2.1 基于时空关联的数据清洗策略2.2.2 基于阅读器调度的数据清洗策略2.2.3 基于机器学习的数据清洗策略2.3 与应用相关的数据清洗策略2.3.1 概率性数据清洗策略2.3.2 基于查询语义的数据清洗策略2.4 本章小结第3章 数据抽象3.1 数据抽象机制3.2 数据抽象算法3.3 算法复杂度分析3.4 实验评估3.4.1 实验设置3.4.2 结果分析3.5 小结第4章 基于动态概率事件模型的数据填补算法4.1 问题描述4.1.1 概率事件模型4.1.2 相似事件模型4.1.3 评价模型4.2 理论依据4.2.1 引理与假设4.2.2 最相似事件定理4.2.3 少漏读事件定理4.3 基于动态概率事件模型的数据填补算法4.3.1 数据填补机制4.3.2 贪婪算法4.3.3 相似度算法4.4 算法分析4.4.1 算法准确率分析4.4.2 算法实时性分析4.4.3 算法复杂度分析4.5 实验评估4.5.1 实验设置4.5.2 结果分析4.6 本章小结第5章 基于扩展概率事件模型的数据填补算法5.1 问题描述5.1.1 扩展概率事件模型5.1.2 扩展相似事件模型5.2 理论依据5.2.1 假设条件5.2.2 扩展最相似事件定理5.3 基于扩展概率事件模型的填补算法5.3.1 扩展数据填补机制*改进算法'>5.3.2 β*改进算法5.3.3 β+改进算法5.4 算法分析5.4.1 算法精确率分析5.4.2 算法复杂度分析5.5 实验评估5.5.1 实验设置5.5.2 结果分析5.6 本章小结第6章 结论6.1 总结6.2 未来工作参考文献致谢攻读硕士学位期间的论文项目情况
相关论文文献
标签:应用论文; 数据预处理技术论文; 数据填补策略论文; 概率事件模型论文; 数据漏读论文;