语言信息处理 - 知识百科

语言信息处理

更新时间：2024-07-02 09:51

语言信息处理是语言学与计算机科学交叉形成的一门以计算语言学理论为基础，具有广泛应用价值的语言工程学科，是应用语言学的重要组成部分。语言信息处理工程是一项多学科融汇的综合集成工程，其实质是有机地结合以语言学家和信息工程师为主体的专家干预、语料库构建(统计数据及信息资料)和语言信息计算机处理技术，为各种形式信息产品的制造提供有助于计算机软、硬件开发的程序保障和支撑环境。语言学界和计算机界通力合作，共同建立语言信息处理基础研究平台、应用关键技术平台和应用系统开发平台是语言信息处理工程实施的首要任务，而集体攻关的大协作方式则是语言信息产品开发的必要保证。

定义

语言信息处理（LIP，Language Information Processing）有时也称作自然语言处理（NLP， Natural Language Processing）或自然语言理解（NLU， Natural Language Understanding），自然语言处理是上位概念，包括理解和生成，而语言信息处理可以分别理解为语言信息|处理”和“语言|信息处理”。前者指的是对各种语言信息进行处理，后者指对语言本身进行信息化的处理。这几个概念的具体阐述请看下文“几个常见术语的辨析”。

语言信息处理源自20 世纪 50 年代和 60 年代的机器翻译，其基本原理是结合其他边缘学科的知识，解决机器在语言理解和生成中语法和语义消岐问题。自然语言处理系统首先把指令“Delete file x”在音位学平面转化成音位系列“/ dilit fail eks/”，然后在形态学平面把这个音位系列转化为语素系列“delete” “file”“x”，接着在词汇学平面把这个语素系列转化为单词系列并标注相应的词性：(“delete”VERB)(“file”NOUN)(“x”ID)，在句法学平面进行句法分析，得到这个单词系列的句法结构，用树形图表示，在语义学平面得到这个句法结构的语义解释：delete-file (“x”)，在语用学平面得到这个指令的语用解释“rm-i x”，最后让计算机执行这个指令。

语言信息处理技术发展到今天，其内涵和外延已经发生了巨大的变化，美国计算机科学家 Bill Manaris 在 1999 年将自然语言处理可以定义为研究在人与人交际中以及在人与计算机交际中的语言问题的一门学科。自然语言处理要研制表示语言能力（linguistic competence）和语言应用（linguistic performance）的模型，建立计算框架来实现这样的语言模型，提出相应的方法来不断地完善这样的语言模型，根据这样的语言模型设计各种实用系统，并探讨这些实用系统的评测技术。

发展

冯志伟先生将语言信息处理的发展分为三个阶段：1）萌芽期（20世纪40年代末至20世纪60年代中期）。其理论来源是形式语言学派，语言处理的概率算法被用于机器翻译，这一时期的基础性研究为自然语言处理的理论和技术奠定了坚实的基础。2）发展期（20世纪60年代中期到80年代末期）。其标志是机器翻译金字塔”（MT Pramid），语义分析在机器翻译中越来越受到重视。3）繁荣期（20世纪90年代至今）。其重要标志是在基于规则的技术中引入了语料库方法，其中包括统计方法、基于实例的方法、通过语料加工手段使语料库转化为语言知识库的方法，同时网络技术的发展对于自然语言处理产生了的巨大推动力。但是，语言信息处理也遇到了非常大的挑战。首先，对自然语言的处理还一直无法突破单句的界限，从而阻碍了复句和语篇的理解和生成技术的研究。其次，基于句法—语义规则的理性主义方法受到质疑，动态语义分析模型是亟待解决的关键性难题。再次，语料库的建设和基于语料库语言学的自然语言处理技术还无法满足大规模真实文本的处理的战略目标。最后，现有的语言信息处理无法有效承担挖掘大数据商业价值的任务，企业越来越依赖于数据分析师，语言处理技术越来越让位于信息处理技术，语义网还没有成型的时候，语用网的时代就已经到来了。

免责声明

隐私政策

用户协议

目录 22

0{{catalogNumber[index]}}. {{item.title}}