更新时间:2023-11-21 10:49
千言数据集,全面的面向自然语言理解和生成任务的中文开源数据集合,由来自国内多家高校和企业的数据资源研发者共同建设,旨在为研究人员带来一站式的数据集浏览、整理、下载和评测的科研体验,共同推动中文信息处理技术的进步。
百度联合中国计算机学会、中国中文信息学会共同发起了“千言”数据共建计划,携手高校和企业的数据资源研发者共同建设中文开源数据集。
“千言”的目标是覆盖丰富的任务类型,从语义理解、知识融合、多模态融合等角度推动技术进步,同时提供能进行多维度综合评价的数据集,从而评价模型的全面性、泛化性和鲁棒性等。
千言项目针对每个自然语言处理问题,均收集和整理多个开源数据集,进行统一的处理并提供统一的测评方式,帮助加速模型的研发。
目前的许多自然语言处理技术的研发大多数只关注模型在单一数据集上的效果,然而自然语言处理技术在大规模产业化的应用中,面临着许多新的挑战。包括模型需要具有全面的、处理多个子任务的能力;在跨领域数据上具有较好的泛化能力;在应用中有足够的鲁棒性以保证安全等等。此外,这些大规模应用对语义理解提出了更高的要求,要求模型具备一定的常识、背景知识甚至推理能力;同时随着内容承载形式的多元化,也需要模型具有多模态融合的内容理解能力等。为了应对以上问题和挑战,发起了“千言”数据共建计划。
数据集一直是推动自然语言处理技术进步的基石。传统的自然语言处理技术主要研究词法、句法等相关任务,属于计算机和语言学的交叉领域。词法、句法等相关任务的数据集标注,需要在语言学家的帮助下才能够高质量的完成,典型的例子有,北京大学计算语言学研究所标注的『人民日报1998年中文标注语料库』和宾夕法尼亚大学加工的英文『宾州树库(PennTreeBank)』等。此外,传统的自然语言处理技术技术研发大多也仅关注模型在单一数据集上的效果。
过去的几年,可以说是深度学习和自然语言处理“深度”结合的几年,自然语言处理的研究方法、模型框架均发生巨大变化,研究和应用上都取得了一系列突破。而这些技术的进步很大程度上源于自然语言处理领域数据集的变化:面向应用的(对话、问答等)数据集开始增多、增大,这些研究对于数据的标注不再要求必须由语言学家完成,而是可以通过众包平台以较低的成本获取大量标注数据,典型的例子有面向机器阅读理解任务的英文数据集SQuAD和DuReader。
自然语言处理技术已经在翻译、搜索、信息流、智能助手等大规模应用中发挥着重要的作用,可以观察到在这些技术大规模的产业化应用过程中,面临着多场景、多领域等诸多挑战,这也对数据集的建设提出了更高的要求。例如,针对某个具体的应用任务。
这样的趋势和挑战,难以由某一个数据集作者独立完成。因此,我们需要一个更加开放的社区,需要开源社区中的许多数据集作者们共同建设和不断的更新,才能够提供更好的数据集,从而推动自然语言处理技术的进步。
目前引领自然语言处理技术进步的、最有影响力的数据集,大多仍然是英文数据集。经不完全调研,目前开源的中文自然语言处理数据集已经有上百个,但相对分散和缺乏影响力。而中文是目前世界上使用人数最多的语言,这与中文自然语言处理数据集的现状是不相符的。
开放域对话技术旨在建立一个开放域的多轮对话系统,使得机器可以流畅自然地与人进行语言交互,既可以进行日常问候类的闲聊,又可以完成特定功能,以使得开放域对话技术具有实际应用价值。具体的说,开放域对话又可以分为支持不同功能的对话形式,例如对话式推荐、情感对话技术、知识对话技术等。千言项目收集了一系列公开的开放域对话数据集,期望从跨类型、跨领域的角度对模型效果进行综合评价。千言开放域对话数据集涵盖了多个场景:包括日常对话、情感对话、知识对话,有目标的开放域对话等,旨在衡量开放域对话模型在各个不同技能上的效果和稳定性。具体的,千言收集了当前已有的7个中文数据集,分别是来自百度的DuConv 、百度的DuRecDial、北航和微软的豆瓣多轮对话、华为的微博数据、清华的情感对话数据、清华的KdCon、腾讯的检索辅助生成对话数据集。
机器阅读理解(Machine Reading Comprehension) 是指让机器阅读文本,然后回答和阅读内容相关的问题。机器阅读理解是自然语言处理和人工智能领域的重要前沿课题,对于提升机器的智能水平、使机器具有持续知识获取的能力等具有重要价值,近年来受到学术界和工业界的广泛关注。千言项目针对抽取式阅读理解和观点式阅读理解两个子任务,收集和整理了DuReader_robust、DuReader_yesno两个数据集。这些数据集的特点是源自搜索场景中的真实数据,且问题类型丰富,包含实体、数字、观点类问题。特别的,还重点关注评测阅读理解模型在真实应用场景中的鲁棒性、挑战模型的过敏感性、过稳定性以及泛化能力等。
同声传译能够实时地翻译讲话的内容,因而广泛应用于国际会议、谈判、新闻发布、法律诉讼和医学等不同场景。机器同传结合了机器翻译(Machine Translation),语音识别(Automatic SpeechRecognition)和语音合成(Text-To-Speech)等多种人工智能技术,已经成为重要的前沿研究领域,是一个典型的多模态任务。在机器同传任务中,千言提供了百度的BSTC数据集,并重点关注机器翻译、语音识别和语音合成等跨模态融合的挑战,包括了中英、英西两个方向共4项任务。此外,千言项目也提供了机器同传任务的开源基线(https://aistudio.baidu.com/aistudio/projectDetail/315680)。
情感分析旨在自动识别和提取文本中的倾向、立场、评价、观点等主观信息。它包含各式各样的任务,比如句子级情感分类、评价对象级情感分类、观点抽取、情绪分类等。情感分析在消费决策、舆情分析、个性化推荐等领域均有重要的应用,具有很高的应用价值。千言项目的情感分析数据集涵盖了包括句子级情感分类(Sentence-level Sentiment Classification)、评价对象级情感分类(Aspect-level Sentiment Classification)、观点抽取(OpinionTarget Extraction)三个经典任务,旨在综合评价情感分析模型在各任务上的效果。千言项目针对上述三类任务,一共收集和整理了7个数据集,分别是中国科学院的ChnSentiCorp,苏州大学的NLPCC14-SC,哈尔滨工业大学的SE-ABSA16_PHNS和SE-ABSA16_CAME,中国科学院的COTE-BD、COTE-MFW和COTE-DP。
语义解析(特指Text-to-SQL)旨在将用户输入的自然语言问题转成可与数据库操作的SQL查询语句,可以实现通过自然语言完成与数据库的交互并获取数据库中的信息。该技术可以帮助非技术用户通过自然语言与数据库进行交互,降低数据库使用门槛及提升数据库使用效率,同时具有很高的实用价值,在工业界受到了广泛关注。目前,学术界及工业界公开了多个中文语义解析数据集。这些数据集在数据库形式、SQL查询语句复杂度、问题覆盖范围、应用场景等方面各有侧重。为了验证同一模型在不同难度、不同应用场景、不同类型问题上的处理能力,千言收集了当前已有的3个中文数据集,分别是来自追一科技的NL2SQL、西湖大学的CSpider 和百度的DuSQL,期望从多角度对评测模型进行综合评价。
信息抽取旨在从非结构化自然语言文本中提取结构化知识,如实体、关系、事件等。信息抽取是人工智能领域的重要研究方向,同时也是文本挖掘、文本理解、信息检索、智能问答、智能对话等人工智能应用的重要基础,一直以来受到学术界和工业界的广泛关注。千言收集和整理了百度的两个大规模中文信息抽取数据集DuIE 2.0和DuEE 1.0,这两个数据集分别面向关系抽取和事件抽取两个信息抽取的子任务,我们期望从不同维度对结构化知识抽取效果进行综合评价。
DuIE2.0是业界规模最大的基于schema的中文关系抽取数据集,包含超过43万三元组数据、21万中文句子及48个预定义的关系类型。数据集中的句子来自百度百科、百度贴吧和百度信息流文本。数据集划分为17万训练集,2万验证集和2万测试集。
DuEE1.0是百度最新发布的中文事件抽取数据集,包含65个事件类型的1.7万个具有事件信息的句子(2万个事件)。事件类型根据百度风云榜的热点榜单选取确定,具有较强的代表性。65个事件类型中不仅包含「结婚」、「辞职」、「地震」等传统事件抽取评测中常见的事件类型,还包含了「点赞」等极具时代特征的事件类型。数据集中的句子来自百度信息流资讯文本,相比传统的新闻资讯,文本表达自由度更高,事件抽取的难度也更大。
文本相似度旨在识别两段文本在语义上是否相似。文本相似度在自然语言处理领域是一个重要研究方向,同时在信息检索、新闻推荐、智能客服等领域都发挥重要作用,具有很高的商业价值。千言的文本相似度数据集覆盖了公开的三个文本相似度数据集,分别为哈尔滨工业大学(深圳)的 LCQMC和 BQ Coupus,以及谷歌的 PAWS-X(中文),这些数据集重点考察模型在不同领域的效果,并评测模型的鲁棒性。其中,LCQMC数据集中的问题收集自百度知道,BQ Corpus包括了来自银行金融领域的问题,PAWS-X重点评测模型的鲁棒性。
下列为千言数据集一期的作者名录:
千言希望有更多的数据集作者能够参与共建千言项目,共同推动中文信息处理技术的进步,建设世界范围的中文信息处理影响力。未来3年,千言希望面向20个任务,收集100个中文自然语言处理数据集。