一种检测多语言文本中相似重复记录的综合方法

一、一种检测多语言文本相似重复记录的综合方法（论文文献综述）

吴湘平^[1]（2021）在《图像文本识别的关键技术研究》文中研究表明图像文本识别主要利用机器学习算法对图像上出现的印刷体或者手写体进行识别,然后转录为计算机能读取识别的文字。图像文本识别在机器自动化、人机交互、自动驾驶等领域具有广泛的应用,一直是计算机视觉领域的研究热点。近年来,随着深度学习的发展,深度神经网络在场景文本识别和手写识别等方面取得了巨大的成功。然而,图像文本识别仍是一个棘手的问题,主要面临以下挑战:1)对于复杂场景的字符识别,现有方法容易丢失字符结构信息和引入背景噪声;2)对于词识别,现有模型大多依赖词典驱动,难以应用到资源匮乏的语言上;3)对于文本行识别,存在序列过长导致识别性能下降的问题;4)对于具有大字符集的语言,模型复杂、参数庞大,难以应用到存储和计算受限的设备中。本文针对以上问题,主要从图像文本识别的关键技术:识别技术和压缩技术开展研究,其中识别技术包括图像中不同粒度的文本即字、词、句子的识别,最后使用压缩技术对识别模型进行优化,主要研究内容包括以下几个方面:第一,针对复杂场景字符识别中,容易丢失字符结构信息和引入背景噪声等问题,提出了基于语义分割的复杂场景字符识别方法。为了减少字符类标数量,该方法首先设计了一种基于五笔汉字编码的新类标编码方法,将汉字的字形和结构信息编码为140位类标,从而大大减轻了对大字符集类别进行识别的计算和存储需求。其次,采用有效的语义分割模型进行逐像素预测,并利用条件随机场模块来学习类五笔编码的约束规则。最后,在三个公开评测数据集上的实验结果表明,该方法在复杂场景字符识别任务达到了最新水平,并且对于遮挡、超低分辨率、超低对比度等复杂的场景具有鲁棒性。第二,针对词识别模型依赖词典驱动和外部语言资源的问题,提出了基于位置向量的无约束手写单词识别方法。该方法首先生成位置向量,并将位置向量作为单词相对应的字符序列的索引;接着,将提取到图像特征与每个位置向量相结合,送入序列识别网络用于识别相应的字符。最后,在两个国际公共语料库上均取得了最佳结果。实验结果表明,在没有任何语言资源的情况下,该方法的性能与集成丰富语言资源的模型相近,证明了该方法对其他资源匮乏语言识别的有效性和潜在能力。第三,针对文本行识别模型存在序列过长导致识别性能下降的问题,提出了基于自适应超图神经网络的手写文本行识别方法。该方法通过一种基于标签向量的自动超图学习机制来自动建模字符间的关系。首先,将字符标签当做超图的节点,一条超边连接两个或多个节点,表示字符之间的某种关系,使用标签向量来构造自适应超图。其次,使用语义解耦模块和超图神经网络来探索特征与语义之间的相互作用,以提高文本行识别性能。最后,为了验证模型的泛化性,将自适应超图神经网络扩展到多标签图像分类任务上。结果证明,提出的自适应超图神经网络具有建模语义依赖关系的能力。第四,针对大字符集的识别模型参数庞大,难以应用到资源有限设备上的问题,提出了图像文本识别模型的全连接层压缩方法。该方法引入压缩因子来压缩全连接层的神经元,这不仅可以消除特征冗余,而且可以共享分类神经元。它打破了输出神经元数量必须与分类网络中类别数量相一致的局限性,在一定程度上缓解了大类别分类的问题。与其他需要预训练模型和微调的方法相比,该方法可以直接在基线模型上构造和压缩网络以实现端到端的训练。最后,在手写汉字识别,复杂场景字符识别和图像分类等多个任务的实验结果表明,所提出的方法可以大大减少模型参数,同时保持最新的识别性能,特别是对于大类别分类任务。综上所述,本文围绕图像文本识别的关键技术进行深入研究和讨论。针对图像中不同粒度的文本即字、词、句子存在的问题,分别提出基于语义分割的复杂场景字符识别方法,基于位置向量的无约束手写单词识别方法和基于自适应超图神经网络的文本行识别方法。最后针对共同存在的大字符集识别问题,提出基于全连接层的参数共享方法对图像文本识别模型进行参数压缩。本文将所提出的方法在多个国际公开数据集上进行实验,最终均取得优异的性能。

李静,胡潜^[2]（2021）在《多语言UGC环境下MOOC课程笔记自动生成》文中研究说明[目的/意义]多语言环境下,用户基于MOOC平台生成了大量UGC笔记,为了更好地利用MOOC资源,文章提出多语言UGC课程笔记自动生成模型,有助于促进全球优质教育资源的共享及提升教育公平。[方法/过程]首先抓取多语言环境下的UGC笔记和讲稿并进行预处理,其次将多语言UGC笔记归并为双语笔记,接下来对热门和冷门课程的多语言UGC实现自动化子主题簇融合,在此基础上依据加权规则提取最佳单条笔记并确定时间戳,将其按照时间顺序进行排列,进而形成系统、完整的双语课程笔记。[结果/结论]通过实例验证了模型的有效性,其中对于热门课程,准确率和召回率均达到100%,对于冷门课程,准确率为79%,召回率为83%。

王华敏^[3]（2021）在《基于音形义的中文字符串相似度检测算法研究》文中研究表明去重是数据清洗的一项重要工作,在去重前,我们需要先识别重复的数据,因此,数据的相似度检测研究得到越来越多的重视。目前存在许多字符串相似度检测的算法,主要用于拉丁字符串相似度检测。拉丁字符由26个字母组成,在处理时相对简单,而汉字是象形文字,在面对中文字符的相似度检测问题时,此类算法效果往往差强人意。因此研究出专门解决中文字符相似度检测问题的算法意义重大。中文字符具有音形义三大特征,许多研究者根据汉字的音形特征将汉字统一编码,然后用处理拉丁字符的算法进行处理。由于对汉字编码存在复杂性,以及未结合词义进行考虑,存在准确度不高、检测不全、无法同时结合音形义三大特征检测中文字符串相似度的问题。本文研究改进了基于音形码的中文字符串相似度检测算法,并将其与检测词义相似度的HowNet相结合,解决了无法同时从音形义检测中文字符串相似度的问题,最后将其运用于实际项目。具体研究问题如下:（1）汉字相似度检测的准确率与音形编码强相关,现有的音形编码存在不能细致描述汉字的问题,因而,算法结果不能很好的体现出汉字的差异性。针对此问题,本文在现有的中文字符相似度检测方法的基础上,根据汉字的发音与字形特点,改进音码与形码的编码方式,使得音码对汉字发音的描述更完整,形码对汉字字形的描述更细致。其次,基于改进音形码,本文提出汉字相似度检测算法。最后,通过实验验证了其有效性。（2）在计算中文字符串相似度时,如果像处理拉丁字符一样单纯考虑其编辑距离,则结果容易偏离实际。针对此问题,在汉字相似度检测算法的基础上,考虑到有些中文字符串字序改变,而意思可能不变的情况,结合加权编辑距离,提出了一种中文字符串相似度检测算法。（3）针对现有算法无法同时结合音形义特征检测中文字符串相似度的问题,在改进基于音形码的中文字符串相似度检测算法基础上,结合HowNet词义检测,提出了一种基于音形义的中文字符串相似度检测算法。（4）对设计的算法进行实现,并通过不同的方案进行仿真实验,最后应用于实际项目。实验与实践表明,所设计算法能够有效结合音形义三大特征进行中文字符串相似度检测。

仁青东主^[4]（2021）在《基于深度学习的藏文古籍木刻本文字识别研究》文中提出文字识别（Character Recognition,CR）是利用计算机将人们可理解的文字或者图像信息自动转化为计算机可以阅读、查询与编辑的以计算机内码表示的方法。藏文是藏族文化的重要载体,在我国历史上藏文撰写的各类典籍数量仅次于汉文,是中华文化宝库中的瑰宝,具有重要的人文科学研究及应用价值。藏文文字识别是藏语计算语言学科的一项重要研究内容,涉及信息科学、数学、语言科学、认知科学以及其它方面的领域。因此,使用藏文文字识别来保护和使用藏文古籍文献已成为文献资源数字化的一个重要研究热点。然而,受制于藏文古籍文献数字化无损采集、版面分析、文字识别等技术的不成熟,很多珍贵文献、易破损的纸质文献无法采集和数字化。已数字化的藏文古籍文献资源数据也以图像信息为主,文献内容挖掘和知识库构建、检索技术研发都缺乏数据支撑。在藏文古籍文献中以木刻本形式文献占据数量最多,从而藏文古籍木刻本文字识别的研究尤为重要,国内外一些高校和企业开发了光学字符识别系统（Optical Character Recognition,OCR）,以识别印刷体藏文,据可查文献,针对藏文古籍木刻本文字识别的研究甚少。从目前已有的文献看,国内外藏文文字识别技术还停留在传统的方法上,没有融入藏文语言结构及文字构成规律,识别精度低,泛化能力弱,无法达到藏文文献数字保护和使用需求,亟待研发高识别率、高精度、高性能的数字化技术。深度学习技术近几年发展很快,在文字识别领域,该技术比传统的识别方法要优越很多,识别效果也明显。随着深度学习研究的深入,如何利用深度学习来进行端到端的学习,并摒弃基于人工规则的中间步骤,以提升序列学习的效果已经成为当前研究的热点。本文的研究基于深度学习的藏文古籍木刻本文字识别,提出基于深度神经网络的藏文古籍木刻本图像文字识别新方法,其主要贡献概括如下:（1）针对藏文古籍木刻本复杂版面特征,研究一种基于CTPN的文本检测算法,实现藏文古籍木刻本复杂版式文字的纵横向检测。（2）针对藏文古籍木刻本超长行特征,研究一种基于滑动窗的超长文本行动态拆分与识别技术,进行基于字符识别位置信息的相邻子块重叠字符处理,解决超长文本行古籍文字识别难题。（3）构建基于残差网络和双向长短时记忆循环神经网络、结合样本增强技术的具有高泛化性和鲁棒性的藏文古籍串识别模型,解决图像质量差、相邻文字粘连严重、上下行重叠度大的古籍文字识别难题。（4）采用拼写检查的方法进行错误音节的检测,并且用隐马尔科夫模型与语言模型相结合的方法,解决形态相似字符的识别校正难题。

李路军^[5]（2021）在《中朝跨语言文本相似度计算方法的应用研究》文中研究表明跨语言文本相似性度量在多语种自然语言处理领域中具有重要的意义。随着信息技术和人工智能的发展,信息资源规模的扩大伴随着资源语言的多样化演变。中华民族包括56个民族,其中少数民族语言文字造就了中华文字的多样性,大量少数民族语言文字信息融入互联网的大环境,丰富了互联网资源的多样性。为了对少数民族语言文字资源进行有效的管理、挖掘和利用,打破跨语言的壁垒,跨语言文本相似性度量问题在多语种文本信息处理领域应用技术中成为基础性地位的课题。本文针对中朝平行语料,研究跨语言文本相似性度量方法。在跨语言词嵌入文本表示的基础上,利用不同语种词项间的共现相关性获得不同语种之间的联系,并将其应用于跨语言文本相似性度量的计算中。首先,收集了近3万篇中朝科技文献摘要文本,处理得到16万组句子级别对齐的中朝文本平行语料,并从句子对中抽取出词对齐信息构建了形式上句子对齐、内容上词对齐的用于训练双语词嵌入模型的平行语料。其次,利用上一步整理得到的平行语料进行双语词嵌入模型建模,得到了映射到同一个词嵌入空间中的两种语言的单词表示,并利用TF-IDF权重加权获得文本的向量表示,通过余弦相似度实现了基于向量的跨语言文本相似度计算。另一方面,利用平行语料中中朝词项共现性,提出度量双语特征词项在共现意义上的关联强度的方法,以此为基础设计了共现相关度计算模型,并结合基于向量表示的文本相似度构建了改进的跨语言文本相似度计算方法。最后,基于Django框架设计并实现了跨语言文本检索原型系统。系统总体分为文本检索模块,后台管理模块和数据库模块三个部分。经测试,系统各模块的功能均达到预期效果。跨语言检索测试表明,本文提出的基于文本向量表示和词项共现相关性的跨语言文本相似度计算方法将基于文本向量表示方法的效果提升了9%,在跨语言文本特征表示和文本相似度度量方面取得了良好效果。本学位论文开发的跨语言文本检索原型系统,其所有功能均通过测试,能够实现中朝跨语言文本检索任务。

蒋巧娜^[6]（2021）在《社区电话口译员角色分析 ——针对上海市外办在线涉外英语口译员的实证研究》文中认为2020年,新型冠状病毒席卷全球,大量社区现场口译不得不转为远程口译,往日被视为小众服务的社区电话口译走入寻常人家。在美国,全球最大的口译公司之一语言服务热线（Language Line Solutions）推出“新冠疫情服务”（“Covid-19 Support”）,协助全社会攻克疫情难关。在中国,上海市人民政府外事办公室联合上海外国语大学组建了市外办在线涉外口译项目组,为上海各区工作人员提供24小时电话口译服务。在后疫情时代,社交距离仍旧存在,社区电话口译有望成为未来主要的口译形式之一。在社区电话口译迅猛发展的同时,公众对社区电话口译员的定位却与口译员的行为之间存在严重脱节,这或将阻碍社区电话口译甚至是整个口译行业的长久发展。另一方面,学界也严重缺乏关于社区电话口译员角色的系统探讨,这显然与社区电话口译的发展现状不符。为解决现实问题,本文以戈夫曼的社会学及社会语言学理论为基础,构建了社区电话口译员角色分析框架,并以2020年上海市外办在线涉外英语口译员为研究案例,通过真实语料收集与分析、模拟口译观察、半结构性访谈的实证方法,深入探究社区电话口译员的具体角色与角色脱节的成因。本研究结果显示:社区电话口译员的角色具有极强的复杂性。具体角色方面,口译员的实际角色具有多样性和主动性。在社会大众看来,社区电话口译员往往扮演者发声者、作者、非指定听者的被动角色,行为较为单一。然而,在实际工作中,社区电话口译员往往扮演者发声者、作者、责任者、指定听者的主动角色,行为表现十分丰富,是积极的话语建构者。角色脱节成因方面,社区电话口译员的角色脱节受人的影响较大。就客观因素而言,环境嘈杂度的影响远不及讲话者的语气急促度和话语模糊度,讲话者的语气越急促,表达越模糊,口译员的角色脱节就会越严重。就主观因素而言,个体认知对角色脱节的影响最为突出,个体认知越偏离规范要求,角色脱节就越明显。综合研究发现,笔者认为提升口译员和口译用户的认知是缓解矛盾的关键,因此提出两方面的措施:针对口译员,需要在岗前培训阶段加入认知教育,帮助新手口译员了解社区电话口译员角色的复杂性。针对口译用户,需要加强客户教育,提供口译服务指南,开设口译信息咨询热线,在解答问题的同时增进客户对于口译活动复杂性的认识。

苏芳^[7]（2021）在《我国外语专业本科新生学术素养社会化研究》文中研究说明学术素养是大学生学术生涯发展的重要标志,也是高等教育水平提升的重要体现。深入了解大学生学术素养社会化过程,对于促进大学生学术生涯发展,提高人才培养质量有着重要意义。然而,目前鲜有研究关注母语环境下外语专业大学新生的学术素养社会化,并且存在学术素养内涵相对较窄、情境解读不足、影响因素综合考察欠缺等问题。鉴于此,本研究以语言社会化理论与大学生社会化模型为理论基础,对我国外语专业本科新生的学术素养社会化过程进行探究,以期进一步丰富拓展学术素养内涵,解读学术素养社会化的具体情境,并综合分析学术素养社会化的影响因素。本研究历时18个月（2018年9月-2020年4月）,采用民族志式个案研究方法,对国内某大学五位外语专业大学生的学术素养社会化过程及其影响因素展开研究,并提出以下两个研究问题:（1）我国外语专业本科新生学术素养社会化的过程是什么?（2）我国外语专业本科新生学术素养社会化的影响因素是什么?为进一步回答研究问题,本研究收集了多种来源数据,包括问卷调查、访谈、课堂观察、叙事、实物资料以及研究日志和课堂观察笔记等研究者资料。数据分析运用了情境分析与对比归纳分析相结合的方法。本研究数据分析得出以下两个主要发现。首先,外语专业本科新生的学术素养社会化具有过程性,经历了准备、实践及结果三个阶段。其中,准备阶段是入学前的学术素养基础,是当前学术素养实践的出发点。实践阶段是当前学术素养社会化的核心阶段,主要包括茫然摸索、探寻之旅以及丰硕收获三个子阶段。结果阶段是大学生在当前阶段结束时达到的结果,即实现学术素养社会化。该阶段又将成为下一阶段学术素养社会化的起点。因此,学术素养社会化是一个循环向前的发展过程。该过程性体现了具体情境的时空要素变化对学术素养社会化的影响,即时间延续与时间延展所带来的具体情境变化是影响学术素养社会化的重要因素。其次,外语专业本科新生学术素养社会化是宏观、中观和微观多种中介资源（因素）共同作用的结果。宏观的社会文化环境资源包括国家的教育政策和所在大学提供的资源,中观的课程和社团资源包括课程资源、师生输入、互动方式及社团活动等,而微观的个体资源主要考查了个人实践网络与能动性。这些中介资源是一个相互影响的复杂系统,是将个体与社会辩证统一起来的重要桥梁。其中,能动性是实现学术素养社会化的动力源,是特定时空情境下驱动个体与环境互动的主要力量。本研究丰富拓展了学术素养的内涵,指出学术素养的核心要素包括知识-技能-品性及社会关系。此外,本研究构建了外语专业本科新生学术素养社会化模型,为深入理解外语专业大学生学术素养社会化提供了理论分析框架。在实践方面,本研究为高等外语教育领域的外语专业师生深入理解学术素养社会化过程,开展实践研究提供了具体参考。本研究建议高校为学生提供具有丰富学术实践活动、较强专业理论知识和独特评价方式的中介资源,从而为学习者的学术素养社会化创造良好环境。未来研究还可以针对不同研究场域或研究对象展开相关研究,并进一步验证本研究提出的学术素养社会化模型。

张云^[8]（2021）在《基于知识发现的中药方剂核心药物识别研究》文中指出中药方剂是中医药治疗疾病的主要手段,自记载以来,众多方剂记录于中医医书和文献。方剂由中药根据配伍原则组合而成,方中君药和臣药作为方剂核心药物,扮演治疗疾病关键角色,用于病人主要证候,缓解主要症状。因此,明确治疗疾病的核心药物有利于揭示方剂配伍规律,发现疾病治疗关键药物,辅助医生合理方剂配伍。本文通过设计知识发现模型,基于社区检测分析结构化方剂数据,基于中文词向量分析非结构化文献数据,开展中药方剂核心药物识别研究。主要研究工作如下:1)社区检测能挖掘网络中相似属性的节点集合并发现重要节点。中药方剂核心药物可视为具有相同或相似功效的药物集合的重要药物。通过将中药关系构建为药物网络,检测药物社区和重要药物,实现中药方剂核心药物识别。针对社区检测问题,提出社区检测算法:基于鲸群优化的社区检测算法（Whale Optimization based Community Detection Algorithm,WOCDA）和基于多节点能力的标签传播社区检测算法（Node Ability based Label Propagation Algorithm,NALPA）,为结构化方剂数据分析奠定方法基础。WOCDA算法中,通过模仿座头鲸捕猎行为,设计新初始化策略和收缩包围、螺旋更新、随机搜索三种操作,优化模块密度,实现社区检测;NALPA算法中,受人类社会启发设计节点传播能力、吸引能力、发射能力和接收能力衡量节点重要性和影响范围,受雷达传输启发设计标签重要性衡量标签传播到其它节点时的权重变化,设计新标签传播流程处理现有标签传播算法不稳定的问题。实验结果表明,所提社区检测算法在合成网络和真实网络上检测的社区质量高于对比算法。2)针对结构化方剂数据的核心药物识别,提出面向结构化方剂数据的中药方剂核心药物识别模型:基于标签权重社区检测的方剂核心药物识别模型（Core Drug Identification model based on community detection with Label Weight,CDILW）和基于图布局社区检测的方剂核心药物识别模型（Core Drug Identification model based on community detection with Graph Layout,CDIGL）。通过分析中药关系,将药物建模为节点,如果药物治疗相同的证候症状,则在两个药物间建立边关系,构建药物网络。面向结构化方剂数据的中药方剂核心药物识别模型,包括两个阶段:药物社区检测和核心药物识别。药物社区检测阶段,在药物网络上检测不同证候的药物社区。在CDILW模型药物社区检测阶段,基于力导引图布局设计节点吸引力代表中药相似性,结合节点吸引力和节点重要性定义标签重要性代表中药不同功效的重要性,标签传播过程中考虑标签权重更新,提高药物社区稳定性。在CDIGL模型药物社区检测阶段,基于（a,r）能量模型首先将网络布局为紧凑布局,提出位置节点标签初始化策略,然后将网络布局为均衡布局,基于均衡布局的吸引力,设计动态节点重要性和标签重要性代表药物重要性和不同功效的重要性,融合图布局和社区检测,提高药物社区检测稳定性。核心药物识别阶段,将药物社区中度数较大的药物节点视为核心药物,实现中药方剂核心药物识别。实验结果表明,所提模型可检测不同证候的核心药物,表明识别结构化方剂数据核心药物的有效性。3)中药方剂和药物描述主要记录于文献,中文词向量模型基于上下文语境分析词语语义,可理解中药药性、功效和主治等含义,生成药物语义嵌入向量计算药物相似度,构建药物语义网络,识别药物社区和核心药物。针对药物语义分析问题,提出基于汉字笔画、结构和拼音特征子串的中文词向量模型（stroke,structure and pinyin feature substrings based Chinese word embedding model,ssp2vec）和融合句法、共现和相似关系的中文词向量模型（Syntax,Word cO-occuRrence and Inner-character Similarity based Chinese word embedding model,SWORIS）。ssp2vec 模型中,设计特征子串融合词语笔画、结构和拼音特征,预测词语上下文以实现中文词语语义表征;SWORIS模型中,设计对称卷积自动编码机提取汉字笔画和结构潜在特征,度量词语相似关系,构建图网络保存句法、共现和相似上下文关系,基于概率随机游走采样策略生成图上下文,基于目标词语预测图上下文词语实现中文词语语义表征。实验结果表明,所提词向量模型优于对比模型。4)针对非结构化文献数据的核心药物识别,提出面向非结构化文献数据的中药方剂核心药物识别模型:基于集成特征中文词向量的方剂核心药物识别模型（Core Drug Identification model based on Chinese word embedding with Ensemble Feature,CDIEF）和基于特征概率中文词向量的方剂核心药物识别模型（Core Drug Identification model based on Chinese word embedding with Feature Probability,CDIFP）。检索中医治疗目标疾病相关文献,预处理建立疾病语料库。面向非结构化文献数据的中药方剂核心药物识别模型,包含四个阶段:药物嵌入向量学习、药物语义网络构建、语义网络社区检测和核心药物识别。药物嵌入向量学习阶段,利用疾病语料库潜在中医领域知识学习中药语义嵌入向量。在CDIEF模型的药物嵌入向量学习阶段,集成中药词语笔画n-gram、结构和拼音特征,基于词语集成特征预测上下文词语,分析药物语义将其表征为嵌入向量;在CDIFP模型的药物嵌入向量学习阶段,针对中文多义词问题,将中文词语表征为多个高斯分布,结合特征子串提出中文词语特征概率表示,捕捉中文词语多维含义,分析药物治疗不同证候的含义,优化基于相似度的目标函数实现中文词语语义表征。药物语义网络构建阶段,将中药视为节点,在高相似度的中药间构建边以建立药物语义网络;语义网络社区检测阶段,基于社区检测发现不同证候的药物社区;核心药物识别阶段,将药物社区中度数较大的药物节点视为核心药物,实现中药方剂核心药物识别。实验结果表明,所提模型可检测不同证候的核心药物,表明识别非结构化文献数据核心药物的有效性。

丁斯甘^[9]（2021）在《《通报》与20世纪上半期法国汉学》文中提出《通报》（T’oung Pao）创刊于1890年,是一份颇具影响力的专业汉学刊物,其中刊载了大量关于中国研究的论文与书评,具有很高的汉学研究价值。期刊如实反映出20世纪上半期法国专业汉学的发展历程,体现了沙畹、伯希和等法国着名汉学家的治学策略,是法国汉学史的缩影和真实写照。通过梳理期刊1890-1944年的论文、书评、纪事信息,对20世纪上半期法国汉学作整体认识的尝试。文章首先重建《通报》的总体办刊背景,包括期刊19世纪法国在华活动、19世纪法国专业汉学的建立、出版技术的更新、交通运输条件等多方面因素。文章逐一分析《通报》与其前身《远东杂志》的承接关系、《通报》的期刊定位栏目设置、期刊主编对《通报》办刊的影响、《通报》的发行情况、撰稿人群体等基本情况。从研究领域角度考察,以《通报》的《补充索引》中“主题索引”为依据,整理《通报》自1890-1944年的各类文章,证明《通报》对汉学各领域都有涉猎,每个领域的研究程度各不相同,专业汉学不断深入又相互隔绝的特点。从研究地区角度考察,以《通报》的《补充索引》中“地区索引”为依据,可以发现《通报》尤为关注西域地区和西藏地区的考察与研究,刊载的文章多以文献释读为主,通过文献进而深入其他研究领域,与法国汉学发展趋势一致。《通报》积极引入了西方历史语言学、语音学、考古学、碑铭学、社会学等学科的先进研究方法,充实汉学的研究领域,产生了一系列重要的学术成果。20世纪上半期的法国专业汉学正如《通报》所显示的一样,研究涉及汉学领域各个方面,研究方法有了全新发展,法国专业汉学进入鼎盛时期并对20世纪后期的国际汉学产生了重要的影响。20世纪上半期法国专业汉学积极使用考古发现的新材料,将碑铭学、历史比较语言学等新的研究方法引入汉学领域,积极与中国学界交往,学术自觉性不断加强,充分体现出沙畹、伯希和鲜明的个人学术特色,重点梳理沙畹与伯希和的文章、书评为法国汉学研究理清学术思路、推动法国汉学研究具有较大的参考意义。

刘阳^[10]（2020）在《面向安防行业的数据清洗框架设计与实现》文中认为当前各行业对安防报警设备的需求量越来越大,安防行业的结构化数据呈爆发式增长,同时也存在许多脏数据,尤其是相似重复记录,为数据的应用带来了极大的麻烦。现有的数据清洗算法主要是针对各行业定制的,无法直接在安防行业的结构化数据中使用。本文首先针对安防行业的数据特点对相似重复记录清洗算法进行了改进,然后开发了一个面向安防行业的数据清洗框架,最后将改进的算法嵌入到了本文设计的安防行业的数据清洗框架中。本文的主要工作和创新如下:（1）对近几年的数据清洗算法尤其是相似重复记录清洗算法进行了文献综述,分别对比了当前缺失值清洗算法和错误值清洗算法的优缺点,并且对相似重复记录检测算法和合并算法的改进方法进行了分析。然后还对现有的数据清洗框架进行了总结,并分析了其不适用安防行业的原因。（2）针对相似重复记录检测方法,引入了卷积神经网络,通过对LeNet-5模型的改进,提出了两种改进模型,一种是以词向量矩阵为输入的模型,另一种是以相似度矩阵为输入的模型。经过实验的验证,以词向量矩阵为输入的模型的精确率、召回率和F1值均在0.96以上,以相似度矩阵为输入的模型的精确率、召回率和F1值在0.98左右,最终对两个模型进行K折交叉验证,得出两个模型都具有较强的泛化能力。（3）针对相似重复记录合并算法,从四个方面改进了多趟近邻排序算法。分别是以分词为单位进行关键词提取加排序,使重复记录的位置更加接近;在同一类相似重复记录聚集的地方扩大窗口,使连通图更加完善;对被检测为相似重复记录的记录对进行再次检测,使效率和召回率都得到提升;将连通图中所有的最大团合并成的新连通图中的记录视为相似重复记录进行合并,排除成为相似重复记录概率较低的记录。（4）设计并实现了面向安防行业的数据清洗框架,并将本文提出的模型和算法嵌入到了框架中。为安防行业数据清洗工具开发提供了支持和参考。

二、一种检测多语言文本相似重复记录的综合方法（论文开题报告）

（1）论文研究背景及目的

此处内容要求：

首先简单简介论文所研究问题的基本概念和背景，再而简单明了地指出论文所要研究解决的具体问题，并提出你的论文准备的观点或解决方法。

写法范例：

本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。

（2）本文研究方法

调查法：该方法是有目的、有系统的搜集有关研究对象的具体信息。

观察法：用自己的感官和辅助工具直接观察研究对象从而得到有关信息。

实验法：通过主支变革、控制研究对象来发现与确认事物间的因果关系。

文献研究法：通过调查文献来获得资料，从而全面的、正确的了解掌握研究方法。

实证研究法：依据现有的科学理论和实践的需要提出设计。

定性分析法：对研究对象进行“质”的方面的研究，这个方法需要计算的数据较少。

定量分析法：通过具体的数字，使人们对研究对象的认识进一步精确化。

跨学科研究法：运用多学科的理论、方法和成果从整体上对某一课题进行研究。

功能分析法：这是社会科学用来分析社会现象的一种方法，从某一功能出发研究多个方面的影响。

模拟法：通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。

三、一种检测多语言文本相似重复记录的综合方法（论文提纲范文）

（1）图像文本识别的关键技术研究（论文提纲范文）

摘要

Abstract

第1章绪论

1.1 课题的研究背景及意义

1.2 图像文本识别方法研究现状

1.2.1 字符识别研究现状

1.2.2 单词识别研究现状

1.2.3 文本行识别研究现状

1.2.4 模型压缩研究现状

1.3 论文的研究内容及创新点

1.3.1 研究内容概述

1.3.2 主要创新点

1.4 论文的组织结构

第2章基于语义分割的复杂场景字符识别方法

2.1 引言

2.2 相关技术简介

2.2.1 语义分割方法

2.2.2 类标编码方法

2.3 基于语义分割的字符识别模型

2.3.1 FCN-ResNet50模块

2.3.2 类五笔类标编码模块

2.3.3 CRF模块

2.3.4 损失函数

2.4 实验与分析

2.4.1 数据集

2.4.2 实验设置

2.4.3 对比的方法

2.4.4 CTW数据集的实验结果和分析

2.4.5 ICDAR2019-ReCTS数据集的实验结果和分析

2.4.6 HIT-OR3C数据集的实验结果和分析

2.5 本章小结

第3章基于位置向量的无约束手写单词识别方法

3.1 引言

3.2 相关技术简介

3.2.1 长短期记忆网络

3.2.2 位置向量

3.3 基于位置向量的无约束单词识别模型

3.3.1 特征提取模块

3.3.2 位置向量

3.4 实验与分析

3.4.1 手写单词数据集

3.4.2 模型训练

3.4.3 实验结果

3.4.4 消融实验

3.4.5 识别样例分析

3.5 本章小结

第4章基于自适应超图神经网络的手写文本行识别方法

4.1 引言

4.2 相关技术简介

4.2.1 图神经网络简介

4.2.2 超图神经网络简介

4.3 基于自适应超图神经网络的文本行识别模型

4.3.1 自适应超图的构建

4.3.2 通过HGNN进行特征-语义交互

4.3.3 序列识别

4.4 手写文本行识别的实验

4.4.1 手写文本行数据集与评价指标

4.4.2 实验设置

4.4.3 对比方法

4.4.4 实验结果

4.4.5 识别样例分析

4.5 多标签图像分类的扩展实验

4.5.1 优化

4.5.2 评价指标

4.5.3 多标签数据集

4.5.4 实验设置

4.5.5 对比方法

4.5.6 实验结果

4.5.7 消融实验

4.5.8 可视化与分析

4.6 本章小结

第5章图像文本识别模型的全连接层压缩方法

5.1 引言

5.2 相关技术简介

5.3 基于参数共享的全连接层压缩方法

5.3.1 顺序分支结构

5.3.2 混洗分支结构

5.3.3 紧凑型网络参数压缩分析

5.4 实验与分析

5.4.1 模型压缩实验数据集

5.4.2 实验设置

5.4.3 实验对比方法

5.4.4 实验结果及分析

5.4.5 不同压缩模型结果对比

5.5 消融实验与分析

5.5.1 分支效果

5.5.2 压缩因子效果对比

5.5.3 训练和测试阶段的速度表现

5.5.4 PSFC和传统FC层的训练收敛性比较

5.5.5 可视化分析

5.6 本章小结

结论

参考文献

攻读博士学位期间发表的论文及其他成果

致谢

个人简历

（2）多语言UGC环境下MOOC课程笔记自动生成（论文提纲范文）

1 MOOC平台UGC笔记特征分析

2 多语言UGC课程笔记自动生成模型

2.1 数据采集与预处理

2.2 多语言用户笔记归并

2.3 子主题簇划分与选取

2.3.1 UGC笔记聚类

2.3.2 有效子主题簇确定

1)预期覆盖率。

2)预期准确率。

3)预期F1值。

2.4 最佳单条笔记提取与序化

1)筛选单条笔记。

2)笔记时间戳判定。

3 实验

3.1 样本选择与数据采集

3.2 课程笔记生成

3.3 课程笔记结果

4 结束语

（3）基于音形义的中文字符串相似度检测算法研究（论文提纲范文）

摘要

abstract

1 绪论

1.1 研究现状

1.2 研究背景及意义

1.3 工作内容

1.4 论文组织结构

1.5 本章小结

2 相似度检测方法

2.1 编辑距离

2.2 汉明距离

2.3 汉字相似度

2.3.1 基于拼音

2.3.2 基于字形

2.3.3 基于音形码的汉字相似度检测算法

2.4 基于词义的中文字符串相似度检测

2.5 本章小节

3 基于改进音形码的汉字相似度检测算法

3.1 音形码的改进

3.1.1 汉字音码的改进

3.1.2 汉字形码的改进

3.2 汉字相似度检测算法

3.2.1 基于改进音码的汉字相似度检测算法

3.2.2 基于改进形码的汉字相似度检测算法

3.2.3 实验与结果分析

3.3 本章小节

4 基于音形义的中文字符串相似度检测算法

4.1 基于改进音形码的中文字符串相似度检测算法

4.2 基于HowNet的中文字符串相似度检测算法

4.3 本章小节

5 算法设计及仿真对比实验

5.1 实验开发环境

5.2 算法设计与实现

5.2.1 总体设计

5.2.2 音码相似度计算模块

5.2.3 形码相似度计算模块

5.3 算法仿真

5.3.1 实验方案

5.3.2 评判标准

5.3.3 结果分析

5.4 算法应用

5.4.1 算法应用场景介绍

5.4.2 算法贡献值的设置

5.5 本章小节

6 工作总结以及展望

6.1 结论

6.2 未来研究展望

参考文献

硕士期间的相关成果

致谢

（4）基于深度学习的藏文古籍木刻本文字识别研究（论文提纲范文）

摘要

ABSTRACT

第1章绪论

1.1 研究背景及意义

1.2 研究现状

1.2.1 国外研究现状

1.2.2 国内研究现状

1.3 传统藏文OCR技术

1.3.1 藏文字符字符归一化

1.3.2 藏文字符预分类

1.3.3 藏文文本切分

1.4 基于深度学习OCR技术

1.4.1 文字检测

1.4.2 文字识别

1.5 主要研究内容

1.6 创新点

1.7 本文组织结构

第2章藏文古籍木刻本数据集构建与生成

2.1 藏文文字与版式特点

2.1.1 藏文古籍文字特点

2.1.2 梵音藏文转写体特点

2.1.3 藏文古籍文献版式特点

2.2 字符集创建

2.3 藏文古籍木刻本图像标注方法

2.3.1 标注规范

2.3.2 文本位置编号

2.3.3 文本内容标注

2.4 稀缺训练集扩充方法

2.5 小结

第3章藏文古籍木刻本图像预处理

3.1 低质量古籍图像二值化方法

3.2 藏文古籍木刻本复杂背景去噪方法

3.2.1 空间滤波去噪

3.2.2 非局部去噪

3.3 藏文古籍木刻本倾斜校正方法

3.3.1 倾斜角检测

3.3.2 Radon变换

3.4 小结

第4章藏文古籍木刻本复杂版式文本检测

4.1 文本检测方法

4.2 基于CTPN的藏文古籍文本检测

4.2.1 文本区域构建

4.2.2 竖向文本行检测

4.3 实验

4.3.1 实验数据

4.3.2 实验系统配置

4.3.3 实验结果

4.4 小结

第5章基于深度学习的藏文古籍木刻本文字识别

5.1 藏文古籍木刻本超长行识别

5.1.1 水平投影

5.1.2 垂直投影

5.1.3 超长行切分

5.2 藏文古籍木刻本串识别模型

5.2.1 古籍图像特征提取方法

5.2.2 古籍序列图像前后关系学习方法

5.2.3 序列合并

5.2.4 模型训练

5.3 实验

5.3.1 实验数据

5.3.2 评测指标

5.3.3 实验结果与分析

第6章藏文古籍木刻本文字识别后处理

6.1 藏文相似字符分类

6.2 字符相似度计算方法

6.3 识别错误检测方法

6.4 错误纠正方法

6.4.1 基于隐马尔科夫模型的识别错误纠正

6.4.2 语言模型的藏文识别错误纠正

6.5 原型系统架构

6.6 小结

第7章总结与展望

7.1 总结

7.2 展望

参考文献

攻读博士学位期间发表的论文及科研成果

1、发表/投稿论文

2、发明专利

3、软件着作权

4、主持和参与科研项目

5、获奖

致谢

（5）中朝跨语言文本相似度计算方法的应用研究（论文提纲范文）

摘要

Abstract

第1章绪论

1.1 研究目的和意义

1.2 文本相似性度量研究现状

1.2.1 单语文本相似性研究

1.2.2 跨语言文本相似性研究

1.3 研究内容与主要工作

1.4 本文结构

第2章文本相似性度量基础

2.1 引言

2.2 词嵌入技术

2.2.1 单语词嵌入

2.2.2 双语词嵌入

2.3 文本表示

2.3.1 向量空间模型

2.3.2 跨语言文本表示

2.4 跨语言文本相似性度量方法

2.4.1 基于机器翻译的方法

2.4.2 基于双语LDA主题模型的方法

2.5 本章小结

第3章基于词嵌入和词共现的中朝跨语言文本相似性度量

3.1 引言

3.2 基于平行句对与词对齐信息的双语词嵌入模型

3.2.1 面向双语词嵌入模型的平行语料

3.2.2 平行句对与词对齐信息

3.2.3 基于平行句对与词对齐信息的双语Skip-Gram模型

3.3 跨语言文本相似性度量

3.3.1 特征词选取

3.3.2 文本的表示

3.3.3 跨语言文本相似度计算

3.4 实验结果及分析

3.4.1 中朝双语平行语料预处理

3.4.2 中朝双语词嵌入结果

3.4.3 相似性度量测试及结果分析

3.4.4 跨语言文本检索及结果分析

3.5 本章小结

第4章中朝跨语言文本检索原型系统

4.1 引言

4.2 开发环境

4.3 原型系统设计

4.4 系统功能测试

4.5 本章小结

结论

参考文献

攻读硕士期间发表的论文和其它成果

致谢

（6）社区电话口译员角色分析 ——针对上海市外办在线涉外英语口译员的实证研究（论文提纲范文）

致谢

摘要

ABSTRACT

引言

一、研究缘起:社区电话口译中译员定位与实际行为的脱节

二、研究概述:社区电话口译员角色分析

(一)研究问题:具体角色与脱节成因

(二)研究方法:理论分析与实证研究

三、研究价值:方法创新与现实意义

四、研究思路:从理论框架构建到实证结果检验

第一章文献综述

一、社区电话口译研究文献综述

(一)社区电话口译概述

(二)社区电话口译研究综述

二、口译员角色研究文献综述

(一)口译员角色概述

(二)口译员角色研究综述

第二章理论分析

一、戈夫曼社会学及社会语言学理论

(一)戈夫曼社会学理论:角色理论

(二)戈夫曼社会语言学理论:谈话分析图式

二、戈夫曼理论视角下的社区电话口译员角色分析

(一)生产模式中的社区电话口译员角色分析

(二)参与框架中的社区电话口译员角色分析

(三)社区电话口译员角色距离成因分析

第三章实证研究设计

一、研究对象

(一)在线涉外英语口译项目组介绍

(二)在线涉外英语口译小组成员介绍

二、研究问题

(一)研究问题一:在线涉外英语口译员的具体角色

(二)研究问题二:在线涉外英语口译员的角色距离成因

三、研究步骤

(一)真实语料收集与分析:了解角色表现

(二)模拟口译观察:完善角色表现、探究客观因素

(三)半结构性访谈:核实客观因素、探究主观因素

第四章实证研究结果

一、研究问题一

(一)真实语料分析结果:发声者、作者、责任者与指定听者

(二)模拟口译观察结果:发声者、作者、责任者与指定听者

二、研究问题二

(一)模拟口译观察结果:语气急促度、话语模糊度

(二)半结构性访谈结果:语气急促度、话语模糊度、个体认知

结语

一、研究总结:角色的复杂性

(一)结论一:角色行为具有多样性与主动性

(二)结论二:角色脱节的生成受人的影响较大

二、研究启示:提升认知的必要性

(一)面向口译员:加强认知教育

(二)面向口译用户:加强客户教育

三、研究局限

四、研究展望

参考文献

附录一:模拟口译观察情景设置

附录二:半结构性访谈问题设置

（7）我国外语专业本科新生学术素养社会化研究（论文提纲范文）

摘要

Abstract

致谢

缩略语表

数据转写与记录说明

第一章绪论

1.1 研究背景

1.2 研究目的

1.3 论文结构

第二章文献综述

2.1 基本概念

2.1.1 学术素养

2.1.2 学术素养社会化

2.2 语言社会化理论及相关实证研究

2.2.1 语言社会化理论

2.2.2 语言社会化相关研究综述

2.2.3 学术素养社会化相关研究述评

2.3 大学生社会化

2.4 研究问题

2.5 本章小结

第三章研究方法

3.1 民族志式个案研究

3.2 研究场域

3.2.1 F大学及新生研讨课

3.2.2 S课程

3.3 研究参与者

3.3.1 核心参与者

3.3.2 非核心参与者

3.4 研究者角色

3.5 数据收集

3.5.1 问卷调查

3.5.2 课堂观察

3.5.3 访谈

3.5.4 叙事

3.5.5 研究日志

3.5.6 实物资料

3.6 数据分析

3.6.1 数据的整理与归档

3.6.2 数据深入分析

3.7 研究的伦理道德及可信度

3.7.1 伦理道德问题

3.7.2 研究的可信度

3.8 本章小结

第四章外语专业本科新生学术素养社会化过程

4.1 S课内学术实践阶段一:茫然中摸索前行

4.1.1 学术阅读:“挫败感”

4.1.2 口头汇报:“新手”与“老将”

4.1.3 学术写作:“没有概念”

4.1.4 小组合作:“担忧与怀疑”

4.2 S课内学术实践阶段二:探索发现

4.2.1 学术阅读:“有规律可寻”

4.2.2 口头汇报:“大有名堂”

4.2.3 学术写作:原来如此

4.2.4 小组合作:“顺利、高效、融洽”

4.3 S课内学术实践阶段三:丰硕收获

4.3.1 学术知识的深化

4.3.2 学术技能的提升

4.3.3 情感态度的向好发展

4.4 S课外学术实践

4.4.1 专业学习

4.4.2 社团活动

4.5 本章小结

第五章外语专业本科新生学术素养社会化的影响因素

5.1 宏观机构因素

5.2 中观课程因素

5.2.1 课程资源

5.2.2 教师输入与同伴示范

5.2.3 课堂互动方式

5.3 微观个体因素

5.3.1 个人实践网络

5.3.2 能动性

5.4 本章小结

第六章讨论

6.1 学术素养社会化之互动过程性

6.1.1 时间延续:过去-现在-未来

6.1.2 空间延展:家庭-初等教育机构-F大学

6.1.3 时空交织:学术素养社会化的互动情境性

6.2 学术素养社会化影响因素间的关系

6.2.1 影响因素间的交互关系

6.2.2 能动性

6.3 学术素养社会化再思考

6.4 本章小结

第七章研究结论与启示

7.1 研究结论

7.2 研究创新

7.3 研究启示及未来展望

后记

参考文献

附录一大学生社会化模型演化

附录二参与者F大学第一年阅读书单

附录三问卷调查

附录四课堂观察笔记(三例)

附录五访谈题纲(四例)

附录六知情同意书

附录七访谈数据报告(节录)

附录八叙事示例一则

附录九研究日志二则

附录十学生专业课第一学年写作节选（二例）

附录十一学生写作材料节选(五例)

附录十二第一小组学期论文

附录十三论文写作反思

（8）基于知识发现的中药方剂核心药物识别研究（论文提纲范文）

摘要

Abstract

第一章绪论

1.1 研究背景及意义

1.2 国内外相关研究进展

1.2.1 中药方剂配伍规律挖掘

1.2.2 中药方剂核心药物识别

1.3 本文的主要贡献与创新

1.4 本文的结构安排

第二章相关基础知识

2.1 中药方剂

2.1.1 方证相应

2.1.2 组方原则

2.1.3 核心药物

2.2 知识发现

2.2.1 社区检测算法

2.2.2 词向量模型

2.3 本章小结

第三章基于鲸群优化和标签传播的社区检测算法

3.1 基于鲸群优化的社区检测算法

3.1.1 个体表示和初始化

3.1.2 鲸群优化操作

3.1.3 适应度函数

3.1.4 实验设置

3.1.5 实验结果与分析

3.2 基于多节点能力的标签传播社区检测算法

3.2.1 多节点能力

3.2.2 标签重要性

3.2.3 NALPA算法设计

3.2.4 实验设置

3.2.5 实验结果与分析

3.3 本章小结

第四章基于社区检测的中药方剂核心药物识别

4.1 药物网络构建

4.2 基于标签权重社区检测的方剂核心药物识别

4.2.1 药物社区检测CDILW_(cd)

4.2.2 核心药物识别CDILW_(di)

4.3 基于图布局社区检测的方剂核心药物识别

4.3.1 药物社区检测CDIGL_(cd)

4.3.2 核心药物识别CDIGL_(di)

4.4 本章小结

第五章基于特征子串和关系融合的中文词向量模型

5.1 基于汉字笔画、结构和拼音特征子串的中文词向量模型

5.1.1 汉字内部特征

5.1.2 特征子串

5.1.3 ssp2vec模型设计

5.1.4 实验设置

5.1.5 实验结果与分析

5.2 融合句法、共现和相似关系的中文词向量模型

5.2.1 句法关系

5.2.2 共现关系

5.2.3 相似关系

5.2.4 SWORIS融合框架

5.2.5 实验设置

5.2.6 实验结果与分析

5.3 本章小结

第六章基于中文词向量的中药方剂核心药物识别

6.1 疾病语料库生成

6.2 基于集成特征中文词向量的方剂核心药物识别

6.2.1 药物嵌入向量学习CDIEF_(cwe)

6.2.2 药物语义网络构建CDIEF_(snc)

6.2.3 语义网络社区检测CDIEF_(cd)

6.2.4 核心药物识别CDIEF_(di)

6.3 基于特征概率中文词向量的方剂核心药物识别

6.3.1 药物嵌入向量学习CDIFP_(cwe)

6.3.2 药物语义网络构建CDIFP_(snc)

6.3.3 语义网络社区检测CDIFP_(cd)

6.3.4 核心药物识别CDIFP_(di)

6.4 本章小结

第七章全文总结与展望

7.1 全文总结

7.2 后续工作展望

致谢

参考文献

攻读博士学位期间取得的成果

（9）《通报》与20世纪上半期法国汉学（论文提纲范文）

中文摘要

Abstract

绪论

一、研究对象及意义

二、概念界定与研究范围

三、学术史回顾

四、研究内容、方法与框架

第一章《通报》创立的时代背景

第一节 19 世纪中后期法国在中国的文化格局

一、19 世纪中后期法国在中国的活动

二、19 世纪后期的实践性汉学家

第二节 19 世纪法国本土的汉学格局与《通报》的创立

一、19 世纪法国专业汉学机构和汉语教学

二、《通报》的创立条件

本章小结

第二章《通报》概况

第一节《通报》的前身——《远东杂志》

一、考狄的《远东杂志》概况

二、《远东杂志》的文章梳理

三、《远东杂志》与《通报》

第二节《通报》概况

一、《通报》的关注范围

二、《通报》的栏目设置

三、《通报》的历任主编

四、《通报》的发行情况

第三节《通报》的作者群体

本章小结

第三章《通报》的内容(上)——《补充索引》中的主题研究

第一节《通报》目录索引中的研究主题分布

一、《通报》目录索引

二、《通报》的主题内容与研究领域分布

三、《通报》汉学主题分类

第二节《通报》的文献学研究

一、语言比较研究

二、碑铭及各种考古材料的使用

本章小结

第四章《通报》的内容(下)——《补充索引》的地区研究

第一节《通报》西域地区研究

一、西域地区文章分类

二、《通报》西域史地探险纪事

第二节《通报》的“Tibet”研究

一、“Tibet”文章分类

二、《通报》西藏探险纪事

本章小结

第五章《通报》的发展与20 世纪上半期的法国汉学

第一节《通报》汉学地位的确立

一、《通报》的撰稿人特征

二、《通报》的汉学定位

三、开放的汉学交流平台

四、《通报》的影响力

第二节 20 世纪上半期法国专业汉学的发展

一、专业汉学范围的专精

二、研究领域的拓展和深入

三、不断完善的研究方法和持续加强的学术自觉

四、法国学界与中国学界的交往

本章小结

结语

参考文献

在学期间的研究成果

致谢

（10）面向安防行业的数据清洗框架设计与实现（论文提纲范文）

摘要

Abstract

第1章绪论

1.1 研究背景及意义

1.2 数据清洗算法研究现状

1.3 相似重复记录清洗算法研究现状

1.3.1 相似重复记录检测

1.3.2 相似重复记录合并

1.4 数据清洗框架研究现状

1.5 研究内容和结构安排

1.5.1 研究内容

1.5.2 结构安排

1.6 本章小结

第2章基于CNN的相似重复记录检测模型

2.1 LeNet-5简介

2.2 数据预处理

2.2.1 分词方法

2.2.2 训练词向量及生成矩阵

2.3 基于CNN的相似重复记录检测模型设计

2.3.1 WE-CNN模型

2.3.2 SIM-CNN模型

2.4 实验结果和分析

2.4.1 实验数据说明

2.4.2 实验环境

2.4.3 实验评价方式

2.4.4 学习速率选择实验

2.4.5 Dropout对模型的影响

2.4.6 K折交叉验证

2.4.7 运行时间

2.4.8 模型对比

2.4.9 实验结论

2.5 本章小结

第3章基于改进MPN算法的相似重复记录合并方法

3.1 基于分词的关键词生成和排序方案

3.2 聚集相似重复记录可变窗口移动方案

3.3 再检测的相似重复记录的确定方案

3.4 基于最大团的相似重复记录合并方案

3.5 改进的MPN相似重复记录清除方法

3.6 实验结果和分析

3.6.1 实验介绍

3.6.2 对比实验

3.7 本章小结

第4章面向安防行业的数据清洗框架

4.1 框架设计

4.1.1 需求分析

4.1.2 框架设计

4.2 框架实现和展示

4.2.1 开发环境介绍

4.2.2 数据导入

4.2.3 格式修改

4.2.4 数据清洗模块

4.2.5 数据评价模块

4.2.6 数据回传模块

4.3 本章小结

结论

参考文献

攻读硕士学位期间发表论文和参加科研情况说明

致谢

作者简介

四、一种检测多语言文本相似重复记录的综合方法（论文参考文献）

[1]图像文本识别的关键技术研究[D]. 吴湘平. 哈尔滨工业大学, 2021(02)
[2]多语言UGC环境下MOOC课程笔记自动生成[J]. 李静,胡潜. 情报理论与实践, 2021(11)
[3]基于音形义的中文字符串相似度检测算法研究[D]. 王华敏. 海南大学, 2021(09)
[4]基于深度学习的藏文古籍木刻本文字识别研究[D]. 仁青东主. 西藏大学, 2021(11)
[5]中朝跨语言文本相似度计算方法的应用研究[D]. 李路军. 延边大学, 2021(02)
[6]社区电话口译员角色分析 ——针对上海市外办在线涉外英语口译员的实证研究[D]. 蒋巧娜. 上海外国语大学, 2021(12)
[7]我国外语专业本科新生学术素养社会化研究[D]. 苏芳. 北京外国语大学, 2021(09)
[8]基于知识发现的中药方剂核心药物识别研究[D]. 张云. 电子科技大学, 2021
[9]《通报》与20世纪上半期法国汉学[D]. 丁斯甘. 兰州大学, 2021(09)
[10]面向安防行业的数据清洗框架设计与实现[D]. 刘阳. 河北工程大学, 2020(04)

标签：汉字演变论文; 文本分类论文; 社区功能论文; 核心素养论文; 社会化平台论文;

一种检测多语言文本中相似重复记录的综合方法

一、一种检测多语言文本相似重复记录的综合方法（论文文献综述）

二、一种检测多语言文本相似重复记录的综合方法（论文开题报告）

（1）论文研究背景及目的

此处内容要求：

写法范例：

（2）本文研究方法

三、一种检测多语言文本相似重复记录的综合方法（论文提纲范文）

（1）图像文本识别的关键技术研究（论文提纲范文）

（2）多语言UGC环境下MOOC课程笔记自动生成（论文提纲范文）

（3）基于音形义的中文字符串相似度检测算法研究（论文提纲范文）

（4）基于深度学习的藏文古籍木刻本文字识别研究（论文提纲范文）

（5）中朝跨语言文本相似度计算方法的应用研究（论文提纲范文）

（6）社区电话口译员角色分析 ——针对上海市外办在线涉外英语口译员的实证研究（论文提纲范文）

（7）我国外语专业本科新生学术素养社会化研究（论文提纲范文）

（8）基于知识发现的中药方剂核心药物识别研究（论文提纲范文）

（9）《通报》与20世纪上半期法国汉学（论文提纲范文）

（10）面向安防行业的数据清洗框架设计与实现（论文提纲范文）

四、一种检测多语言文本相似重复记录的综合方法（论文参考文献）

猜你喜欢