CoBaLD Eng corpus

github2024-05-21 更新2024-05-31 收录

下载链接：

https://github.com/CobaldAnnotation/CobaldEng

下载链接

链接失效反馈

官方服务：

资源简介：

CoBaLD Eng语料库是一个包含150,000个英语新闻标记的语料库，使用CONLL-U Plus标准，并包含三个标记级别：形态、句法和语义。形态句法根据[增强UD形式主义](https://universaldependencies.org/u/overview/enhanced-syntax.html)进行标注，语义模式基于Compreno模型的简化版本。语义标记包括单词含义标注和单词之间语义关系的标注。

The CoBaLD English corpus is a collection of 150,000 English news tokens, utilizing the CONLL-U Plus standard and encompassing three levels of annotation: morphological, syntactic, and semantic. Morphosyntactic annotations are based on the Enhanced Universal Dependencies formalism (https://universaldependencies.org/u/overview/enhanced-syntax.html), while the semantic schema is derived from a simplified version of the Compreno model. Semantic annotations include word sense labeling and the annotation of semantic relationships between words.

创建时间：

2023-10-16

原始信息汇总

数据集概述

数据集名称

名称: CoBaLD Eng corpus
类型: 英语新闻文本
规模: 150,000 tokens

数据集内容

来源: 来自BBC新闻的数据集，包含5个主题：business, entertainment, politics, sport, and tech。
组成: 约占整个BBC新闻数据集的15%。

数据集标记

标记级别: 包含三个级别的标记：
- Morphological: 形态学标记
- Syntactic: 句法标记
- Semantic: 语义标记
标记标准: 使用CONLL-U Plus标准，基于Enhanced UD形态句法和Compreno语义模型。

数据集特点

语义标记: 基于简化的Compreno模型，包括词义标注和词间语义关系标注。
形态句法标记: 遵循Enhanced UD原则，处理省略节点，提出非树形链接如引用，并更逻辑地处理某些句法关系，尤其是并列关系。

数据集转换

从Compreno到UD的转换: 描述了将Compreno标记转换为UD格式的过程，包括词法分割、词性及语法特征转换、句法头转换和从属成分转换。
转换细节:
- Tokenization: 处理非形态学词汇和复合词的处理。
- Syntactic Heads Conversion: 从Compreno的括号格式转换到UD格式，处理标点符号的句法头分配。
- Dependent Constituents Conversion: 将Compreno的依赖关系类别转换为UD格式，尽管存在类别数量和组织方式的差异。

数据集许可证

许可证: CC-BY-NC-4.0

引用信息

引用格式:

@inproceedings{petrova2024cobald, title={CoBaLD Annotation: The Enrichment of the Enhanced Universal Dependencies with the Semantical Pattern}, author={Petrova, Maria Andreevna and Ivoylova, Alexandra M and Tishchenkova, Anastasia}, booktitle={Proceedings of the 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024)}, pages={3422--3432}, year={2024} }

搜集汇总

数据集介绍

构建方式

CoBaLD Eng corpus的构建基于BBC News数据集，涵盖了商业、娱乐、政治、体育和技术五个主题，总词数约为150,000。该数据集采用了CONLL-U Plus标准，并包含三个层次的标注：形态学、句法和语义。形态句法标注遵循Enhanced UD形式，而语义模式则基于简化的Compreno模型。构建过程中，首先通过ABBYY Compreno解析器自动生成语义标注，随后手动校验。接着，将Compreno的形态句法转换为Enhanced UD格式，并简化了原始Compreno标注，减少了语义类和深层槽的数量。

特点

CoBaLD Eng corpus的主要特点在于其多层次的标注结构，包括形态学、句法和语义标注，这为语言学研究提供了丰富的信息。此外，该数据集采用了Enhanced UD形式，相较于基本UD，Enhanced UD能更好地处理省略节点、非树形链接以及某些句法关系，特别是在连词处理上更为逻辑化。数据集还简化了Compreno的语义标注，减少了语义类和深层槽的数量，使其更易于使用和分析。

使用方法

使用CoBaLD Eng corpus时，研究者可以利用其多层次的标注信息进行语言学分析，特别是形态学、句法和语义层面的研究。数据集的标注遵循CONLL-U Plus标准，便于与其他UD格式数据集进行对比和整合。研究者可以通过访问GitHub页面获取数据集，并参考提供的论文和代码进行Compreno到UD格式的转换。此外，数据集的许可证为CC-BY-NC-4.0，允许非商业用途的使用和分享。

背景与挑战

背景概述

CoBaLD Eng corpus，一个包含150,000个标记的英语新闻语料库，由Maria Andreevna Petrova、Alexandra M Ivoylova和Anastasia Tishchenkova等研究人员创建。该数据集采用了CONLL-U Plus标准，并包含三个标记层次：形态学、句法和语义。其核心研究问题在于将Enhanced UD形态句法与Compreno语义相结合，以丰富Universal Dependencies的语义模式。CoBaLD Eng corpus不仅填补了现有数据集在语义标记方面的空白，还为自然语言处理领域提供了更丰富的语料资源，推动了语义分析和句法分析的进一步发展。

当前挑战

CoBaLD Eng corpus在构建过程中面临多个挑战。首先，将Compreno语义标记转换为Enhanced UD格式，涉及复杂的形态句法转换和语义关系的重新定义。其次，数据集的标记过程需要处理大量的非形态学词汇和复合词，确保标记的准确性和一致性。此外，转换过程中还需解决语法特征和句法头部的差异，以及依赖成分的重新分类问题。这些挑战不仅考验了数据集构建的技术能力，也对其在实际应用中的效果提出了高要求。

常用场景

经典使用场景

CoBaLD Eng corpus 数据集的经典使用场景主要集中在自然语言处理（NLP）领域，特别是在语义分析和语法解析任务中。该数据集通过提供丰富的语义和语法标注，使得研究人员能够开发和验证基于增强型通用依存关系（Enhanced UD）的模型。例如，研究者可以利用该数据集训练语义角色标注（Semantic Role Labeling）模型，或者进行跨语言语义对齐研究，以提升多语言NLP系统的性能。

解决学术问题

CoBaLD Eng corpus 数据集解决了自然语言处理中常见的学术研究问题，特别是在语义和语法标注的精确性和一致性方面。通过提供基于增强型通用依存关系（Enhanced UD）的标注，该数据集帮助研究人员克服了传统依存关系标注中的模糊性和不一致性问题。此外，数据集中的语义标注基于Compreno模型，为语义角色和关系提供了详细的描述，有助于提升语义分析的准确性和深度。

衍生相关工作

CoBaLD Eng corpus 数据集的发布催生了多项相关研究工作，特别是在语义和语法标注的标准化和自动化方面。例如，有研究者基于该数据集开发了新的语义角色标注算法，显著提升了标注的准确性；还有研究团队利用该数据集进行跨语言语义对齐研究，推动了多语言NLP技术的发展。此外，该数据集还激发了关于如何将Compreno语义模型与通用依存关系（UD）格式有效结合的讨论和研究。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集