更新时间:2023-12-28 21:48
跨语言检索(Cross Language Information Retrieval, CLIR)即可用一种提问语言检索出用另一种语言书写的信息,也就是一种跨越语言界限进行检索的问题。
跨语言信息检索研究涉及了语言学、情报学、计算机科学等多门学科知识,是一个综合性强、富有挑战性的研究领域。跨语言检索技术的实现应用了信息检索、文字处理、和机器翻译等技术,如文字切分技术、词汇翻译、词频技术、索引技术等。
跨语言信息检索研究最早可追溯到1973年G. Salton先生Experiments in multilingual information retrieval一文的发表。 当时的研究主要针对国际联机检索进行的,由于检索系统不普及,因而人们对网络信息的需求并不强烈。跨语言信息检索研究真正成为热点,是在Internet迅猛发展的90年代后期,在很大程度上,Internet的全球化信息结构引发了对跨语言信息检索的迫切需要。这就促使越来越多的研究团体深入研究跨语言信息检索问题,并研制开发跨语言信息检索的不同方法。这一时期国际上先后有许多相关论文发表,一些实验性跨语言信息检索技术相继问世。
国内对于跨语言信息检索的研究很少,所查找到的一些资料基本都在2001年以后。国际上,从跨语言信息检索研究领域定期召开的一些会议,也反映了当今跨语言信息检索的研究热点和趋势。这些重要会议分别是文本检索会议(TREC)、跨语言评价论坛(CLEF)、日本国家科学信息系统中心信息检索系统测试集会议(NTCIR)、美国计算机协会信息检索特殊兴趣小组会议(ACM SIGIR)。
其中TREC是由美国国家技术标准局组织召开的国际会议,其旨在促进大规模文本检索领域的研究,加速研究成果向商业应用的转化,促进学术研究机构、商业团体和政府部门之间的交流与合作。TREC-6,7,8,9,10五次会议对于跨语言信息检索问题给予了极大的关注,每次的侧重点不同。TREC-6,7,8这三次会议主要对欧洲语言(英语、法语、德语以及意大利语)的跨语言检索问题进行了研究;在TREC-9会议上,对中英文的跨语言检索问题进行了研究;在TREC-10会议上,对于阿拉伯语和英语、法语之间的跨语言检索问题进行了研究。
跨语言信息检索需要解决如下几个主要的问题:
(1)查询词与检索到的文献分属不同语言。这是跨语言信息检索的最主要特征,由于提问与文献分属不同的语言,因此在两者之间需要通过词典、语料库(平行语料、可比语料)或者机器翻译系统等方式建立不同语言的语义关联,进行跨语言的翻译,将查询词语和检索文献统一映射为一种语言。
(2)词的歧义和多义性。由于原始提问中有些词义的不确定性,系统中需要借助歧义性、多义性分析机制,将原始提问排歧后转换成最终提问。
(3)查询词的切分。一些语言(如中文、日文、韩文等)由于词与词之间没有明显的分隔符号,因此词的切分问题成为此类语言的跨语言检索研究要点之一。
(4)文献的多语言性。在跨语言检索系统中,由于原始文献是用不同的语言书写的,因此语种识别是检索的基本工作,此类情况常出现在自动标引的系统中。
(5)输出结果的排序方式。检索结果中,不同语种的文献如何排序,如何对不同语种的文献进行相关度的计算,也是跨语言资讯检索系统必须研究的问题。
(6)对多语言资源的依赖。由于跨语言检索需要借助多语言资源如双语词典、语料库等进行跨语言的翻译转换,所以跨语言信息检索的性能受到多语言资源的质量和数量的约束,因此构建高质量的多语言资源是跨语言信息检索中亟待解决的难题。