千言数据集 - 知识百科

千言数据集

更新时间：2023-11-21 10:49

千言数据集，全面的面向自然语言理解和生成任务的中文开源数据集合，由来自国内多家高校和企业的数据资源研发者共同建设，旨在为研究人员带来一站式的数据集浏览、整理、下载和评测的科研体验，共同推动中文信息处理技术的进步。

背景介绍

百度联合中国计算机学会、中国中文信息学会共同发起了“千言”数据共建计划，携手高校和企业的数据资源研发者共同建设中文开源数据集。

“千言”的目标是覆盖丰富的任务类型，从语义理解、知识融合、多模态融合等角度推动技术进步，同时提供能进行多维度综合评价的数据集，从而评价模型的全面性、泛化性和鲁棒性等。

千言项目针对每个自然语言处理问题，均收集和整理多个开源数据集，进行统一的处理并提供统一的测评方式，帮助加速模型的研发。

NLP领域数据集的变化趋势和新挑战

过去和现状

目前的许多自然语言处理技术的研发大多数只关注模型在单一数据集上的效果，然而自然语言处理技术在大规模产业化的应用中，面临着许多新的挑战。包括模型需要具有全面的、处理多个子任务的能力；在跨领域数据上具有较好的泛化能力；在应用中有足够的鲁棒性以保证安全等等。此外，这些大规模应用对语义理解提出了更高的要求，要求模型具备一定的常识、背景知识甚至推理能力；同时随着内容承载形式的多元化，也需要模型具有多模态融合的内容理解能力等。为了应对以上问题和挑战，发起了“千言”数据共建计划。

数据集一直是推动自然语言处理技术进步的基石。传统的自然语言处理技术主要研究词法、句法等相关任务，属于计算机和语言学的交叉领域。词法、句法等相关任务的数据集标注，需要在语言学家的帮助下才能够高质量的完成，典型的例子有，北京大学计算语言学研究所标注的『人民日报1998年中文标注语料库』和宾夕法尼亚大学加工的英文『宾州树库（PennTreeBank）』等。此外，传统的自然语言处理技术技术研发大多也仅关注模型在单一数据集上的效果。

过去的几年，可以说是深度学习和自然语言处理“深度”结合的几年，自然语言处理的研究方法、模型框架均发生巨大变化，研究和应用上都取得了一系列突破。而这些技术的进步很大程度上源于自然语言处理领域数据集的变化：面向应用的（对话、问答等）数据集开始增多、增大，这些研究对于数据的标注不再要求必须由语言学家完成，而是可以通过众包平台以较低的成本获取大量标注数据，典型的例子有面向机器阅读理解任务的英文数据集SQuAD和DuReader。

发展趋势

自然语言处理技术已经在翻译、搜索、信息流、智能助手等大规模应用中发挥着重要的作用，可以观察到在这些技术大规模的产业化应用过程中，面临着多场景、多领域等诸多挑战，这也对数据集的建设提出了更高的要求。例如，针对某个具体的应用任务。

免责声明

隐私政策

用户协议

目录 22

0{{catalogNumber[index]}}. {{item.title}}