five

Baidu Chinese Treebank (DuCTB)

收藏
arXiv2020-09-03 更新2024-06-21 收录
下载链接:
https://github.com/baidu/DDParser
下载链接
链接失效反馈
官方服务:
资源简介:
Baidu Chinese Treebank (DuCTB)是由百度创建的大规模中文依存句法分析数据集,包含约一百万个标注句子,来源于搜索日志、新闻电讯、论坛讨论及对话程序等多种数据源。数据集的创建旨在覆盖尽可能多的表达方式,包括常规和非常规句子,以满足工业应用的需求。DuCTB专注于分析句子中的语法结构而非语义,其标注指南旨在让普通用户易于理解。该数据集的应用领域广泛,特别是在自然语言处理任务中,如依存句法分析,旨在提高分析的准确性和效率。

Baidu Chinese Treebank (DuCTB) is a large-scale Chinese dependency parsing dataset created by Baidu. It contains approximately one million annotated sentences, sourced from multiple data sources including search logs, news articles, forum discussions, and dialogue systems. The dataset was developed to cover as many linguistic expressions as possible, including both conventional and unconventional sentences, to meet the demands of industrial applications. DuCTB focuses on analyzing the grammatical structure of sentences rather than their semantic meaning, and its annotation guidelines are designed to be easily understandable for ordinary users. This dataset has a wide range of application scenarios, especially in natural language processing tasks such as dependency parsing, aiming to improve the accuracy and efficiency of parsing analysis.
提供机构:
百度
创建时间:
2020-09-02
搜集汇总
数据集介绍
main_image_url
构建方式
在中文句法分析领域,构建大规模标注数据集是提升模型性能的关键。百度中文依存树库(DuCTB)的构建过程体现了对语言多样性的深刻考量。该数据集从搜索引擎日志、新闻文本、论坛讨论及对话节目等多种来源中,精心筛选了约一百万句子进行人工标注。为确保覆盖不同表达方式,构建团队特别纳入了符合规范语法的新闻语句,以及包含倒装、省略等不规则结构的搜索与论坛文本。标注过程遵循一套面向工业应用的简明指南,重点关注实词间的依存关系,并采用CONLL-X格式进行数据表示,从而为模型训练提供了丰富且高质量的句法结构信息。
特点
DuCTB的显著特征在于其规模宏大与来源广泛,这为中文依存分析研究提供了前所未有的数据基础。该数据集包含约95万句子,词汇量达到995万,其规模远超多数现有中文树库。数据来源的多样性确保了模型能够学习到新闻、对话、查询等多种文体中的句法模式,从而增强其泛化能力。在标注体系上,DuCTB定义了包括SBV、VOB、ATT等在内的14种依存关系标签,聚焦于实词间的句法关联,对虚词则统一标记为“MT”关系。这种设计兼顾了分析深度与应用实用性,使得基于该数据集训练的模型在标准测试集上取得了92.9%的标记依存准确率(LAS)。
使用方法
DuCTB主要服务于基于神经网络的依存句法分析模型的训练与评估。研究人员可利用该数据集训练如双仿射注意力(biaffine)等先进模型,以学习中文句子的依存结构。具体使用时,数据集通常按标准流程划分为训练集、开发集和测试集,用于模型训练、超参数调优和性能评测。评估指标主要采用标记依存准确率(LAS)和无标记依存准确率(UAS)。此外,DuCTB还附带一个从训练数据未覆盖来源采样的随机测试集,专门用于检验模型对新领域文本的泛化能力。基于该数据集训练的百度依存分析器(DDParser)已开源,用户可通过简单命令安装并使用其进行句法分析,便捷地获取输入句子的依存树信息。
背景与挑战
背景概述
在自然语言处理领域,依存句法分析作为一项基础性任务,对于深入理解语言结构、提升下游应用性能具有关键意义。百度中文依存树库(DuCTB)由百度公司研究团队于近年构建,旨在应对神经网络方法对大规模标注数据的迫切需求。该数据集汇集了约一百万句来自搜索日志、新闻文本、论坛讨论及对话节目等多源语料,并采用依存结构进行人工标注,其规模远超同期其他中文树库。DuCTB的创建不仅为工业级中文依存句法分析器提供了训练基础,还通过覆盖多样化的语言表达形式,显著推动了中文信息处理技术的实用化进程。
当前挑战
DuCTB致力于解决中文依存句法分析中的核心挑战,即如何准确解析复杂多变的汉语句法结构,尤其是在面对新闻、论坛、口语等不同领域文本时,模型需具备强大的泛化能力。数据构建过程中,研究团队面临诸多困难:首先,语料来源的多样性导致句子表达方式差异显著,如搜索日志和论坛文本常包含倒装、省略等不规则句式,这要求标注体系具备高度的适应性和一致性;其次,大规模数据的人工标注成本高昂,且需确保标注质量,避免因标注者主观差异引入噪声;此外,设计一套既符合语言学理论又易于理解的标注规范,以平衡学术严谨性与工业应用需求,亦是构建过程中的关键难题。
常用场景
经典使用场景
在中文自然语言处理领域,句法分析作为理解语言结构的基础任务,其性能高度依赖于大规模标注数据。Baidu Chinese Treebank (DuCTB)凭借其近百万句的规模与多源文本覆盖,成为训练高性能依存句法分析器的经典资源。该数据集常被用于构建和评估基于神经网络的依存分析模型,特别是基于双仿射注意力机制的图解析器,在标准测试集上取得了92.9%的标记附着分数,展现了其在提升句法分析准确率方面的核心价值。
实际应用
基于DuCTB训练的Baidu Dependency Parser (DDParser)已广泛应用于工业界的中文信息处理流程。在搜索引擎中,句法分析帮助精准理解用户查询意图,提升检索相关性;在智能对话系统中,它辅助识别对话结构与语义角色,改善应答生成质量;此外,在机器翻译、信息抽取与文本摘要等下游任务中,依存树为模型提供了可解释的结构化特征。这些应用显著提升了中文自然语言处理系统的性能与用户体验。
衍生相关工作
DuCTB的发布促进了中文句法分析及相关领域的一系列创新研究。以DDParser为基础,后续工作探索了自注意力机制替代双向LSTM的编码器架构,进一步优化了分析效率与精度。同时,该数据集支持了跨领域句法分析迁移学习的研究,验证了模型在未见领域文本上的适应性。此外,基于DuCTB的依存特征也被融入预训练语言模型,增强了模型对中文语法结构的隐式建模能力,推动了句法与语义联合表征的发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作