中文信息处理,是用计算机对中文(包括口语和书面语)进行转换、传输、存贮、分析等加工的科学。
随着大规模存储技术和互联网技术的发展,电子文本大量涌现,人们对信息的需求也不断提高。这就对文本处理技术提出了更高的要求。在当今社会,英文是流行最广的语言,中文则是使用人数最多的语言。我们的研究立足于对这两种语言的文本处理,并且以中文文本处理为主。文本处理一般包括:文本检索(过滤、分类)和自动摘要(主题抽取)。
文本检索系统把文献组织成一种机器内部表示的知识,在一定的层次上对这些知识进行加工,并存储于知识库中。系统按用户需求,对各个知识单元,如关键字、人、地点、事件、以及文献中的词语和句子进行操作,对文献的内容从各个角度进行检索、选取、组合、和排序。文本检索的任务是针对不同的用户需求,从大量的文献中检索出相关的文献,并按照满足需求的程度进行相关排序。
自动摘要则是从文本中自动提取主题信息,并以通顺的语言表达出来。它既可以单独应用,又可以为检索系统提供良好的交互界面。
中文信息处理技术,作为自然语言信息处理的一个分支,需要以大量的语言知识、背景知识为依据,对中文信息的人脑处理过程进行模拟。当前的中文信息处理系统,还处于初级阶段,许多处理过程,尤其是机器翻译、人机对话等,还需对汉语本身加以研究,附加某必要的选择条件和限制。例如,词汇限制,语句形式限制,语义和语用知识的限制,等等。