five

GermanEval/germeval_14

收藏
Hugging Face2024-01-18 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/GermanEval/germeval_14
下载链接
链接失效反馈
官方服务:
资源简介:
GermEval 2014 NER共享任务基于一个新的德语命名实体注释数据集,该数据集具有以下特性:数据来自德国维基百科和新闻语料库,作为引文集合;数据集涵盖超过31,000个句子,对应超过590,000个标记;NER注释使用NoSta-D指南,扩展了Tübingen Treebank指南,使用四个主要的NER类别及其子结构,并标注了命名实体之间的嵌入关系。

The GermEval 2014 NER Shared Task builds on a new dataset with German Named Entity annotation with the following properties: The data was sampled from German Wikipedia and News Corpora as a collection of citations. The dataset covers over 31,000 sentences corresponding to over 590,000 tokens. The NER annotation uses the NoSta-D guidelines, which extend the Tübingen Treebank guidelines, using four main NER categories with sub-structure, and annotating embeddings among NEs such as [ORG FC Kickers [LOC Darmstadt]].
提供机构:
GermanEval
原始信息汇总

数据集概述

基本信息

  • 数据集名称: GermEval14
  • 语言: 德语
  • 许可证: CC BY-SA 4.0
  • 数据集大小: 100K<n<1M
  • 任务类型: 命名实体识别 (Named Entity Recognition)

数据集结构

数据字段

  • id: 字符串类型
  • source: 字符串类型
  • tokens: 字符串列表
  • ner_tags: 分类标签列表,可能值包括 O, B-LOC, I-LOC, B-LOCderiv, I-LOCderiv
  • nested_ner_tags: 分类标签列表,可能值包括 O, B-LOC, I-LOC, B-LOCderiv, I-LOCderiv

数据分割

  • 训练集: 24000 条数据
  • 验证集: 2200 条数据
  • 测试集: 5100 条数据

数据集创建

数据来源

  • 数据采样自德语维基百科和新闻语料库
  • 包含超过 31,000 个句子,对应超过 590,000 个词汇
  • NER 标注使用 NoSta-D 指南,扩展了 Tübingen Treebank 指南,使用四个主要 NER 类别及其子结构,并标注嵌入在 NEs 中的实体

引用信息

@inproceedings{benikova-etal-2014-nosta, title = {NoSta-D Named Entity Annotation for German: Guidelines and Dataset}, author = {Benikova, Darina and Biemann, Chris and Reznicek, Marc}, booktitle = {Proceedings of the Ninth International Conference on Language Resources and Evaluation ({LREC}14)}, month = {may}, year = {2014}, address = {Reykjavik, Iceland}, publisher = {European Language Resources Association (ELRA)}, url = {http://www.lrec-conf.org/proceedings/lrec2014/pdf/276_Paper.pdf}, pages = {2524--2531}, }

搜集汇总
数据集介绍
main_image_url
构建方式
该数据集通过从德语维基百科和新闻语料中抽取样本,形成关于德语命名实体的注释集合。数据集的构建采用NoSta-D指南,扩展了图宾根树库指南,使用四个主要的命名实体识别类别,并标注了实体间的嵌入关系。
特点
GermEval14数据集的特点在于:覆盖了超过31000个句子,约590000个词汇;采用NoSta-D指南进行命名实体识别注释,支持细粒度的实体类别标注;数据集分为训练集、验证集和测试集,便于模型的训练和评估。
使用方法
用户可以通过HuggingFace的datasets库加载该数据集。加载后,数据集以{'id', 'source', 'tokens', 'ner_tags', 'nested_ner_tags'}字段组织,其中'id'为唯一标识符,'source'为数据来源,'tokens'为词汇序列,'ner_tags'和'nested_ner_tags'为命名实体识别标签。用户可以根据需要对这些字段进行索引和操作,以适应不同的模型训练需求。
背景与挑战
背景概述
GermEval 2014 NER数据集,创建于2014年,由Darina Benikova、Chris Biemann和Marc Reznicek等研究人员主导,旨在推动德语命名实体识别领域的研究。该数据集基于德国维基百科和新闻语料库,包含约31000个句子,590000个词汇。它遵循NoSta-D标注指南,涵盖四个主要的命名实体类别,并标注了实体之间的嵌入关系。该数据集对德语自然语言处理领域产生了重要影响,为相关研究提供了宝贵的资源。
当前挑战
在构建过程中,该数据集面临的挑战包括数据的选择和清洗,确保标注的质量和一致性,以及处理个人和敏感信息的问题。在研究领域,该数据集的挑战主要在于提高命名实体识别的准确性和覆盖范围,同时解决标注中的歧义和细粒度问题,以适应不同的应用场景和需求。
常用场景
经典使用场景
在自然语言处理领域,GermEval14数据集被广泛用于命名实体识别(NER)任务,其经典使用场景在于训练模型以识别德语文本中的地名(LOC)、组织名(ORG)以及人名(PER)等实体。通过对该数据集的深入分析,研究者能够构建出能够准确标注文本中各类实体的机器学习模型,进而提高文本理解的精确度。
实际应用
在实用层面,基于GermEval14数据集训练的NER模型可以应用于德语内容审核、语义搜索、自动摘要以及智能问答等多个场景,从而提升这些应用场景中的文本处理能力和智能化水平。
衍生相关工作
GermEval14数据集的发布促进了后续一系列相关工作的开展,包括但不限于实体识别的改进算法研究、跨语言NER模型的构建以及针对特定领域如医疗、法律等的专业实体识别任务,极大地丰富了德语处理领域的学术研究和应用实践。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作