基于语义的多文种信息处理平台SMIPP的研究

论文摘要

随着世界全球化的的发展趋势以及国际交流和合作的日益频繁，以多文种信息处理平台为支撑环境的多文种信息处理技术已经成为信息处理技术研究的热点。同时，随着计算机技术的不断发展和信息量的飞速增长，文字信息处理技术的重点也已经从简单的文字输入、输出和存储转移到了各种面向内容和语义的信息处理技术上。所以，研究面向内容和语义的多文种信息处理平台和多文种代码体系不仅具有现实的意义，也具有巨大的实用价值。本文提出了一个基于语义、面向信息处理的多文种信息处理平台的模型SMIPP。该模型不仅提供了一个多文种信息处理的环境，还提供了相应的信息处理技术，包括代码体系SemaCode、面向Ontology语义表达方式、面向信息处理应用的语料库、面向用户的输入和输出模型等。为了满足SMIPP对信息表示的迫切需要，本文首先设计了一个面向信息处理的多文种代码体系SemaCode。SemaCode的七层结构(包括物理存储层、交换传输层、字符码位层、词码位层、属性层、语义层和应用接口层)不仅提供了高度的灵活性，而且还具有良好的扩展性和兼容性。SemaCode在码位层提出了按文种和字符编码的理念，使得它更加适合信息处理的要求。在属性层引入的标签技术也使得SemaCode具有良好的可描述性和可计算性。SemaCode还首次在词码位层和语义层中提出了词编码的思想，并实现了一种以语义为轴心、以词为语义单位、能在语义层提供丰富的语义表达能力的代码体系。另外，为了兼容Unicode，SemaCode还提供了和Unicode以及现有的各种编码方案之间的转换方法。其次，本文定义并设计了一种以词义为轴心，支持多文种的语言Ontology，它是SMIPP语义信息的主要来源。该Ontology收录了具有语义的四类词：名词、动词、副词和形容词，并以词义和文种为类结点、

论文目录

中文摘要

Abstract

第一章引言

1.1 问题的提出

1.1.1 世界全球化的发展趋势

1.1.2 Internet加速了信息处理的国际化

1.1.3 多民族、多文种的中国需要多文种信息处理

1.1.4 多文种信息处理研究的意义和价值

1.1.5 多文种信息处理平台

1.2 国内外现状

1.2.1 国内研究现状

1.2.2 国外研究现状

1.2.3 存在的问题和不足

1.3 本文的主要工作及解决的问题

1.4 本文的组织结构

第二章多文种信息处理技术概述

2.1 概述

2.2 国际化和本地化

2.2.1 国际化和本地化

2.2.2 国际化的内容

2.2.2.1 文字翻译

2.2.2.2 文化和语言特性

2.2.2.3 用户界面

2.2.2.4 文字输入和输出

2.2.2.5 字符和字形

2.2.2.6 字符编码方案和代码体系

2.2.3 国际化、本地化和多文种化

2.3 常用字符编码方案

2.3.1 基本概念

2.3.2 欧美拼音文字编码方案

2.3.2.1 ASCII

2.3.2.2 ISO 646

2.3.2.3 ISO 8859

2.3.2.4 其它拼音字符的编码方案

2.3.3 亚洲像形文字编码方案

2.3.3.1 ISO 2022

2.3.3.2 日文编码方案

2.3.3.3 韩文编码方案

2.3.3.4 越南文字代码体系

2.3.3.5 中国文字代码体系

2.3.4 多文种编码方案

2.3.4.1 单文种编码方案的缺点

2.3.4.2 多文种编码方案及其目标

2.3.5 多文种编码方案：Unicode和ISO 10646

2.3.5.1 Unicode和ISO 10646的历史

2.3.5.2 Unicode和ISO 10646的关系

2.3.5.3 Unicode的宗旨

2.3.5.4 Unicode和ISO 10646的编码规范

2.3.5.5 BMP和USC-2

2.3.5.6 Unicode的转换格式

2.3.6 其它支持多文种的其它平台

2.4 多文种信息处理平台

2.4.1 多文种信息处理平台概念和内容

2.4.2 目前多文种信息处理平台存在的问题

2.4.3 基于语义的多文种信息处理平台

2.5 本章小结

第三章基于语义的多文种代码体系SemaCode

3.1 现有的多文种代码体系

3.1.1 文本处理的语义需求和MetaData

3.1.2 Unicode代码体系

3.1.3 Unicode的缺陷

3.1.4 MetaCode结构

3.1.5 MetaCode的缺陷

3.2 以语义为轴心的多文种代码体系SemaCode

3.2.1 文字语义表示的挑战

3.2.2 SemaCode的基本思想

3.2.3 SemaCode模型

3.3 SemaCode各层的内容

3.3.1 物理存储层（Physical Storage Layer）

3.3.2 字符码位层（Character Code Point Layer）

3.3.2.1 Unicode的兼容字符、变形字符、多码位字符和复杂字符

3.3.2.2 SemaCode码位层的基本思想

3.3.2.3 字符码位定义

3.3.3 词码位层（Phrase Code Point Layer）

3.3.4 属性层（Property Layer）

3.3.4.1 XML和Unicode语言标签存在的问题

3.3.4.2 SemaCode标签定义

3.3.4.3 字符属性

3.3.5 语义层（Semantic Layer）

3.3.5.1 语义描述的方式

3.3.5.2 其它语义标签（Semantic Tags）

3.3.5.3 属性标签和语义标签的混用

3.3.5.4 语义的扩展（Extension）

3.3.5.5 字符的等价关系（Equivalencce）

3.3.6 交换／传输层（Exchange／Transmission Layer）

3.3.7 应用接口层（Application Interface Layer）

3.4 SemaCode和Unicode等的比较和分析

3.4.1 字符码位层

3.4.2 属性的表示

3.4.3 等价关系

3.4.4 语义表示

3.4.5 SemaCode的缺点

3.5 SemaCode和Unicode的转换和兼容性分析

3.5.1 SemaCode和Unicode转换

3.5.2 SemaCode和其它代码的转换

3.5.3 用SemaCode直接表示其它编码方案

3.6 本章小结

第四章基于语义的多文种信息处理平台SMIPP模型

4.1 现有的多文种信息处理平台

4.1.1 Windows多文种环境（Windows Multilingual Environment）

4.1.2 Linux国际化框架（Linux Internationalisation Architecture）

4.1.3 NJStar Communicator

4.1.4 中国少数民族多文种处理平台

4.1.4.1 “炎黄”中文平台

4.1.4.2 维、哈、柯、汉、英多文种处理平台

4.2 基于语义的多文种信息处理平台模型SMIPP

4.2.1 多文种信息处理平台的设计目标

4.2.2 SMIPP模型

4.2.3 SMIPP模型的组成

4.2.3.1 应用程序／用户接口层

4.2.3.2 文字输入层和文字输出层

4.2.3.3 信息处理服务层

4.2.3.4 语料库层

4.2.3.5 SemaCode

4.2.3.6 Ontology

4.3 面向SMIPP的Ontology

4.3.1 什么是Ontology

4.3.2 Ontology在SMIPP中的意义和设计目标

4.3.3 Ontology需要解决的问题和总体设计思想

4.3.4 面向SMIPP的Ontology的形式化定义

4.3.5 面向SMIPP的Ontology的结构和表示方法

4.3.5.1 Ontology的结构

4.3.5.2 Ontology的构建和表示方法

4.3.5.3 一个例子

4.3.6 面向SMIPP的Ontology的语义相似度计算

4.4 面向SMIPP的语料库

4.4.1 语料库研究的现状

4.4.2 面向SMIPP语料库的设计思想

4.4.3 Wiki的信息收集方法

4.4.4 信息网格技术

4.4.5 语料的收集方法

4.4.6 基于信息网格的语料库建设和发布模型

4.4.7 面向SMIPP语料库的收集和整理

4.4.8 语料的可信度计算和分析

4.4.8.1 可信度定义

4.4.8.2 基于算法的语料可信度

4.4.8.3 基于用户的语料可信度

4.5 SMIPP和现有平台的对比

4.5.1 SMIPP的优势

4.5.2 SMIPP的不足

4.5.3 SMIPP和现有平台对比表

4.6 本章小结

第五章 SMIPP的输入和输出模型及其分析

5.1 文字输入／输出技术概述

5.2.1 文字输入／输出概述

5.2.2 文字输入技术目前存在的问题

5.2.3 文字输出技术目前存在的问题

5.2 SMIPP输入和输出模型

5.2.1 基本思想

5.2.2 SMIPP的输入模型

5.2.3 语言模型的个性化

5.2.4 语言模型的普适性

5.2.5 新词的收集

5.2.6 SMIPP的输出模型

5.3 文字内码自动识别技术

5.3.1 文字内码自动识别概述

5.3.2 现有的文字内码识别方法

5.3.3 文字内码自动识别算法

5.3.4 字符串内码编码方案和文种自动识别算法

5.3.4.1 算法设计思想

5.3.4.2 算法的准备

5.3.4.3 单个字符串的编码方案和文种自动识别算法

5.3.5 实验和算法分析

5.4 双向文字处理技术

5.4.1 双向文字概述

5.4.1.1 阿拉伯和希伯来文字

5.4.1.2 蒙古文字

5.4.1.3 双向文字

5.4.1.4 双向文字存在的问题

5.4.2 现有的双向文字解决方法

5.4.1.5 常用双向文字解决方法

5.4.1.6 显／隐式的双向文字识别算法

5.4.3 SMIPP的双向文字处理算法SBidi（SMIPP Bidirectional Algorithm）

5.4.4 测试和例子

5.5 语义信息的获取

5.6 本章总结

第六章总结和展望

6.1 本文总结

6.2 本文的贡献和创新

6.3 下一步的工作

攻读博士学位期间相关的科研情况

攻读博士学位期间发表的相关论文

致谢

中文详细摘要

基于语义的多文种信息处理平台SMIPP的研究

论文摘要

论文目录

相关论文文献

猜你喜欢