DFKI SmartData Corpus

github2022-06-06 更新2024-05-31 收录

下载链接：

https://github.com/DFKI-NLP/smartdata-corpus

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含2598个德语文档，这些文档被标注了精细的地理实体（如街道、站点和路线）、标准命名实体类型以及15种与交通和工业相关的n-ary关系和事件（如事故、交通堵塞、收购和罢工）。数据集由新闻文本、Twitter消息和来自广播电台、警察和铁路公司的交通报告组成，旨在训练和评估旨在精细类型化地理实体的命名实体识别算法以及n-ary关系抽取系统。

This dataset comprises 2,598 German documents, meticulously annotated with fine-grained geographical entities (such as streets, stations, and routes), standard named entity types, and 15 types of n-ary relations and events related to transportation and industry (e.g., accidents, traffic jams, acquisitions, and strikes). The dataset is composed of news texts, Twitter messages, and traffic reports from radio stations, police, and railway companies. It is designed to train and evaluate named entity recognition algorithms aimed at fine-grained typing of geographical entities, as well as n-ary relation extraction systems.

创建时间：

2020-03-26

原始信息汇总

数据集概述

数据集名称

DFKI SmartData Corpus

数据集内容

文档数量：2598个德语文档
内容类型：包括新闻文本、Twitter消息和交通报告
标注类型：
- 地理实体：街道、站点、路线等
- 标准命名实体
- 交通和工业相关关系及事件：事故、交通堵塞、收购、罢工等15种

数据集版本

版本3 (2020年3月)：
- 修复了概念提及边界与令牌边界对齐的错误
- 移除了重复文档
- 转换为BIO NER编码
- 添加了原始内容（如Twitter JSON、HTML、RSS标题+文本）
- 修正了约150个交通关系提及中的参数角色错误
- 添加了文档类型和URI信息
版本2 (2019年8月)：
- 进行了较小的标注修正
- 引入了训练/开发/测试分割
- 使用Stanford 3.9.2进行句子和令牌分割

数据集格式

存储格式：AVRO和JSON
数据分割：遵循训练/测试分割

数据集使用

许可证：CC-BY 4.0
引用要求：需引用相关论文

数据集结构

文档结构：包含原始文本及所有标注
概念提及：对应命名实体和其他类型概念
关系提及：存储在文档和句子级别

标注指南

版本：1.0 (2018年2月)

数据集用途

用于训练和评估命名实体识别算法及n-ary关系抽取系统，特别针对细粒度地理实体类型和交通工业事件。

搜集汇总

数据集介绍

构建方式

DFKI SmartData Corpus的构建基于2598份德语文档，涵盖了新闻文本、Twitter消息以及来自广播电台、警察和铁路公司的交通报告。这些文档经过精细的地理实体标注，如街道、站点和路线，以及标准的命名实体类型。此外，数据集还标注了15种与交通和行业相关的多元关系和事件，如事故、交通堵塞、收购和罢工。数据集的构建过程包括文档的收集、实体和关系的标注，以及通过Stanford 3.9.2进行句子分割和分词处理。

特点

DFKI SmartData Corpus的特点在于其精细的地理实体标注和多元关系标注。数据集不仅涵盖了标准命名实体，还特别关注了与交通和行业相关的实体和事件。此外，数据集提供了多种格式（AVRO和JSON）以适应不同的研究需求，并且包含了详细的注释指南和版本更新记录，确保了数据的高质量和一致性。

使用方法

DFKI SmartData Corpus的使用方法包括通过AVRO或JSON格式读取数据，并利用提供的Java工具进行数据处理。用户可以通过代码片段读取文档、提取命名实体和关系，并进行进一步的分析。数据集的使用遵循CC-BY 4.0许可，用户在使用时应引用相关的研究论文。此外，数据集提供了详细的注释指南，帮助用户理解和使用标注数据。

背景与挑战

背景概述

DFKI SmartData Corpus是由德国人工智能研究中心（DFKI）于2018年发布的一个德语文本数据集，旨在支持细粒度命名实体识别（NER）和多元关系抽取任务。该数据集包含2598份德语文档，涵盖了新闻文本、Twitter消息以及来自广播电台、警察和铁路公司的交通报告。文档中标注了诸如街道、站点和路线等地理实体，以及15种与交通和行业相关的多元关系和事件，如事故、交通堵塞、收购和罢工等。该数据集的发布为德语自然语言处理领域的研究提供了重要的资源，特别是在交通和行业事件的分析中具有广泛的应用前景。

当前挑战

DFKI SmartData Corpus在构建和应用过程中面临多重挑战。首先，细粒度命名实体识别要求对地理实体进行精确分类，这对标注的准确性和一致性提出了极高的要求。其次，多元关系抽取任务涉及复杂的事件和关系类型，标注过程中需要处理大量上下文信息，增加了标注难度。此外，数据来源的多样性（如新闻、社交媒体和交通报告）导致文本风格和语言表达的差异，进一步增加了数据预处理和模型训练的复杂性。在构建过程中，研究人员还需解决文档对齐、实体边界标注错误以及关系角色分配等问题，这些技术挑战对数据集的最终质量产生了直接影响。

常用场景

经典使用场景

DFKI SmartData Corpus 数据集在自然语言处理领域中被广泛用于细粒度命名实体识别（NER）和关系抽取任务。其独特的标注体系涵盖了地理实体（如街道、站点和路线）以及交通和行业相关的事件（如事故、交通堵塞、收购和罢工），为研究者提供了丰富的训练和评估资源。该数据集尤其适用于处理德语文本，支持从新闻、社交媒体和交通报告等多源数据中提取复杂的信息。

解决学术问题

DFKI SmartData Corpus 解决了自然语言处理中细粒度实体识别和多元关系抽取的难题。通过提供详细的标注数据，研究者能够开发更精确的算法，以识别复杂的地理实体和事件关系。该数据集为德语文本处理提供了标准化基准，推动了多语言信息抽取技术的发展，并为交通和行业领域的文本分析提供了重要支持。

衍生相关工作

DFKI SmartData Corpus 的发布催生了一系列相关研究。例如，基于该数据集的细粒度实体识别算法在多个国际评测中取得了显著成果。此外，研究者还利用其多元关系标注开发了新型事件抽取模型，进一步推动了信息抽取技术的发展。该数据集还为多语言和多领域文本分析提供了重要参考，激发了跨学科研究的创新。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集