GermanEval/germeval_14

Name: GermanEval/germeval_14
Creator: GermanEval
Published: 2024-01-18 11:04:11
License: 暂无描述

Hugging Face2024-01-18 更新2024-06-15 收录

下载链接：

https://hf-mirror.com/datasets/GermanEval/germeval_14

下载链接

链接失效反馈

官方服务：

资源简介：

GermEval 2014 NER共享任务基于一个新的德语命名实体注释数据集，该数据集具有以下特性：数据来自德国维基百科和新闻语料库，作为引文集合；数据集涵盖超过31,000个句子，对应超过590,000个标记；NER注释使用NoSta-D指南，扩展了Tübingen Treebank指南，使用四个主要的NER类别及其子结构，并标注了命名实体之间的嵌入关系。

The GermEval 2014 NER Shared Task builds on a new dataset with German Named Entity annotation with the following properties: The data was sampled from German Wikipedia and News Corpora as a collection of citations. The dataset covers over 31,000 sentences corresponding to over 590,000 tokens. The NER annotation uses the NoSta-D guidelines, which extend the Tübingen Treebank guidelines, using four main NER categories with sub-structure, and annotating embeddings among NEs such as [ORG FC Kickers [LOC Darmstadt]].

提供机构：

GermanEval

原始信息汇总

数据集概述

基本信息

数据集名称: GermEval14
语言: 德语
许可证: CC BY-SA 4.0
数据集大小: 100K<n<1M
任务类型: 命名实体识别 (Named Entity Recognition)

数据集结构

数据字段

id: 字符串类型
source: 字符串类型
tokens: 字符串列表
ner_tags: 分类标签列表，可能值包括 O, B-LOC, I-LOC, B-LOCderiv, I-LOCderiv 等
nested_ner_tags: 分类标签列表，可能值包括 O, B-LOC, I-LOC, B-LOCderiv, I-LOCderiv 等

数据分割

训练集: 24000 条数据
验证集: 2200 条数据
测试集: 5100 条数据

数据集创建

数据来源

数据采样自德语维基百科和新闻语料库
包含超过 31,000 个句子，对应超过 590,000 个词汇
NER 标注使用 NoSta-D 指南，扩展了 Tübingen Treebank 指南，使用四个主要 NER 类别及其子结构，并标注嵌入在 NEs 中的实体

引用信息

@inproceedings{benikova-etal-2014-nosta, title = {NoSta-D Named Entity Annotation for German: Guidelines and Dataset}, author = {Benikova, Darina and Biemann, Chris and Reznicek, Marc}, booktitle = {Proceedings of the Ninth International Conference on Language Resources and Evaluation ({LREC}14)}, month = {may}, year = {2014}, address = {Reykjavik, Iceland}, publisher = {European Language Resources Association (ELRA)}, url = {http://www.lrec-conf.org/proceedings/lrec2014/pdf/276_Paper.pdf}, pages = {2524--2531}, }

搜集汇总

数据集介绍

构建方式

该数据集通过从德语维基百科和新闻语料中抽取样本，形成关于德语命名实体的注释集合。数据集的构建采用NoSta-D指南，扩展了图宾根树库指南，使用四个主要的命名实体识别类别，并标注了实体间的嵌入关系。

特点

GermEval14数据集的特点在于：覆盖了超过31000个句子，约590000个词汇；采用NoSta-D指南进行命名实体识别注释，支持细粒度的实体类别标注；数据集分为训练集、验证集和测试集，便于模型的训练和评估。

使用方法

用户可以通过HuggingFace的datasets库加载该数据集。加载后，数据集以{'id', 'source', 'tokens', 'ner_tags', 'nested_ner_tags'}字段组织，其中'id'为唯一标识符，'source'为数据来源，'tokens'为词汇序列，'ner_tags'和'nested_ner_tags'为命名实体识别标签。用户可以根据需要对这些字段进行索引和操作，以适应不同的模型训练需求。

背景与挑战

背景概述

GermEval 2014 NER数据集，创建于2014年，由Darina Benikova、Chris Biemann和Marc Reznicek等研究人员主导，旨在推动德语命名实体识别领域的研究。该数据集基于德国维基百科和新闻语料库，包含约31000个句子，590000个词汇。它遵循NoSta-D标注指南，涵盖四个主要的命名实体类别，并标注了实体之间的嵌入关系。该数据集对德语自然语言处理领域产生了重要影响，为相关研究提供了宝贵的资源。

当前挑战

在构建过程中，该数据集面临的挑战包括数据的选择和清洗，确保标注的质量和一致性，以及处理个人和敏感信息的问题。在研究领域，该数据集的挑战主要在于提高命名实体识别的准确性和覆盖范围，同时解决标注中的歧义和细粒度问题，以适应不同的应用场景和需求。

常用场景

经典使用场景

在自然语言处理领域，GermEval14数据集被广泛用于命名实体识别（NER）任务，其经典使用场景在于训练模型以识别德语文本中的地名（LOC）、组织名（ORG）以及人名（PER）等实体。通过对该数据集的深入分析，研究者能够构建出能够准确标注文本中各类实体的机器学习模型，进而提高文本理解的精确度。

实际应用

在实用层面，基于GermEval14数据集训练的NER模型可以应用于德语内容审核、语义搜索、自动摘要以及智能问答等多个场景，从而提升这些应用场景中的文本处理能力和智能化水平。

衍生相关工作

GermEval14数据集的发布促进了后续一系列相关工作的开展，包括但不限于实体识别的改进算法研究、跨语言NER模型的构建以及针对特定领域如医疗、法律等的专业实体识别任务，极大地丰富了德语处理领域的学术研究和应用实践。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集