DFKI-SLT/conll04

Name: DFKI-SLT/conll04
Creator: DFKI-SLT
Published: 2024-06-07 13:30:12
License: 暂无描述

Hugging Face2024-06-07 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/DFKI-SLT/conll04

下载链接

链接失效反馈

官方服务：

资源简介：

CoNLL04数据集是一个用于关系抽取任务的基准数据集，包含1,437个句子，每个句子至少有一个关系。句子被标注了实体（如`Peop`、`Loc`、`Org`、`Other`）和关系类型（如`Located_In`、`Work_For`、`OrgBased_In`、`Live_In`、`Kill`）。数据集的语言为英语，数据格式为JSONL。

提供机构：

DFKI-SLT

原始信息汇总

数据集概述

数据集名称： CoNLL04

数据集用途： 关系抽取任务

语言： 英语

数据集大小： 1,437个句子，每个句子至少包含一个关系。

数据集结构

数据字段

tokens: 文本内容，字符串类型。
entities: 实体列表
- type: 实体类型，字符串类型。
- start: 实体起始索引，整数类型。
- end: 实体结束索引，整数类型。
relations: 关系列表
- type: 关系类型，字符串类型。
- head: 头实体索引，整数类型。
- tail: 尾实体索引，整数类型。

数据集分割

训练集（train）: 922个样本，358752字节。
验证集（validation）: 231个样本，94688字节。
测试集（test）: 288个样本，114248字节。

数据集配置

默认配置（default）:
- 训练数据路径: data/train-*
- 验证数据路径: data/validation-*
- 测试数据路径: data/test-*

引用信息

BibTeX:

@inproceedings{roth-yih-2004-linear, title = "A Linear Programming Formulation for Global Inference in Natural Language Tasks", author = "Roth, Dan and Yih, Wen-tau", booktitle = "Proceedings of the Eighth Conference on Computational Natural Language Learning ({C}o{NLL}-2004) at {HLT}-{NAACL} 2004", month = may # " 6 - " # may # " 7", year = "2004", address = "Boston, Massachusetts, USA", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/W04-2401", pages = "1--8", } @article{eberts-ulges2019spert, author = {Markus Eberts and Adrian Ulges}, title = {Span-based Joint Entity and Relation Extraction with Transformer Pre-training}, journal = {CoRR}, volume = {abs/1909.07755}, year = {2019}, url = {http://arxiv.org/abs/1909.07755}, eprinttype = {arXiv}, eprint = {1909.07755}, timestamp = {Mon, 23 Sep 2019 18:07:15 +0200}, biburl = {https://dblp.org/rec/journals/corr/abs-1909-07755.bib}, bibsource = {dblp computer science bibliography, https://dblp.org} }

APA:

Roth, D., & Yih, W. (2004). A linear programming formulation for global inference in natural language tasks. In Proceedings of the Eighth Conference on Computational Natural Language Learning (CoNLL-2004) at HLT-NAACL 2004 (pp. 1-8). Boston, Massachusetts, USA: Association for Computational Linguistics. https://aclanthology.org/W04-2401
Eberts, M., & Ulges, A. (2019). Span-based joint entity and relation extraction with transformer pre-training. CoRR, abs/1909.07755. http://arxiv.org/abs/1909.07755

搜集汇总

数据集介绍

构建方式

DFKI-SLT/conll04数据集源自CoNLL04，通过将原始的CoNLL04格式转换为JSONL格式构建而成。该数据集包含1,437个句子，每个句子至少包含一个关系。转换过程由LavIS-NLP团队在GitHub上提供的脚本完成，确保了数据的一致性和可用性。

使用方法

DFKI-SLT/conll04数据集的使用方法相对直接。用户可以通过HuggingFace的datasets库加载该数据集，并根据需要选择训练、验证或测试集。数据集的结构清晰，包含tokens、entities和relations等关键字段，便于直接应用于各种自然语言处理模型，特别是那些专注于实体识别和关系抽取的模型。

背景与挑战

背景概述

CoNLL04数据集是关系抽取任务中的一个基准数据集，由Dan Roth和Wen-tau Yih于2004年创建。该数据集包含1,437个句子，每个句子至少包含一个关系，并标注了实体及其对应的关系类型。CoNLL04的发布极大地推动了自然语言处理领域中关系抽取技术的发展，为研究人员提供了一个标准化的评估平台。

当前挑战

CoNLL04数据集在构建过程中面临的主要挑战包括实体和关系的复杂标注，以及数据集的规模相对较小，可能导致模型泛化能力的限制。此外，关系抽取任务本身具有高度的复杂性，涉及多实体间的复杂交互，这要求模型具备强大的上下文理解能力。

常用场景

经典使用场景

在自然语言处理领域，DFKI-SLT/conll04数据集以其丰富的实体和关系标注成为关系抽取任务的经典基准。该数据集包含1,437个句子，每个句子至少包含一个关系，涵盖了人物、地点、组织和其他类型的实体。研究者常利用此数据集训练和评估模型在实体识别和关系抽取方面的性能，特别是在多实体和复杂关系的场景中。

解决学术问题

DFKI-SLT/conll04数据集解决了自然语言处理中关系抽取的核心问题，即如何从文本中自动识别和分类实体之间的关系。这一问题的解决对于信息抽取、知识图谱构建和问答系统等应用具有重要意义。通过提供高质量的标注数据，该数据集促进了相关算法的研发和评估，推动了关系抽取技术的发展。

实际应用

在实际应用中，DFKI-SLT/conll04数据集的成果被广泛应用于信息检索、智能客服和法律文书分析等领域。例如，在法律领域，自动识别案件中的关键实体及其关系可以大幅提高文书处理的效率和准确性。此外，在智能客服系统中，准确的关系抽取能力有助于更好地理解用户查询并提供精准的回答。

数据集最近研究