five

dfki-nlp/smartdata

收藏
Hugging Face2024-01-18 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/dfki-nlp/smartdata
下载链接
链接失效反馈
官方服务:
资源简介:
DFKI SmartData语料库是一个包含2598份德语文档的数据集,这些文档被注释了细粒度的地理实体,如街道、站点和路线,以及标准的命名实体类型。此外,还注释了15种与交通和工业相关的n元关系和事件,如事故、交通堵塞、收购和罢工。语料库包括新闻文本、Twitter消息和来自广播电台、警察和铁路公司的交通报告。它允许训练和评估旨在细粒度类型化地理实体的命名实体识别算法,以及n元关系提取系统。

DFKI SmartData语料库是一个包含2598份德语文档的数据集,这些文档被注释了细粒度的地理实体,如街道、站点和路线,以及标准的命名实体类型。此外,还注释了15种与交通和工业相关的n元关系和事件,如事故、交通堵塞、收购和罢工。语料库包括新闻文本、Twitter消息和来自广播电台、警察和铁路公司的交通报告。它允许训练和评估旨在细粒度类型化地理实体的命名实体识别算法,以及n元关系提取系统。
提供机构:
dfki-nlp
原始信息汇总

数据集概述

  • 名称: SmartData
  • 语言: 德语
  • 许可: CC-BY-4.0
  • 多语言性: 单语种
  • 大小: 1K<n<10K
  • 源数据: 原创数据
  • 任务类别: 词元分类
  • 任务ID: 命名实体识别

数据集结构

数据字段

  • id: 字符串类型,文章标识符
  • tokens: 字符串序列,文章的文本标记
  • ner_tags: 序列类型,包含以下类别的命名实体标签:
    • 0: O
    • 1: B-DATE
    • 2: I-DATE
    • 3: B-DISASTER_TYPE
    • 4: I-DISASTER_TYPE
    • 5: B-DISTANCE
    • 6: I-DISTANCE
    • 7: B-DURATION
    • 8: I-DURATION
    • 9: B-LOCATION
    • 10: I-LOCATION
    • 11: B-LOCATION_CITY
    • 12: I-LOCATION_CITY
    • 13: B-LOCATION_ROUTE
    • 14: I-LOCATION_ROUTE
    • 15: B-LOCATION_STOP
    • 16: I-LOCATION_STOP
    • 17: B-LOCATION_STREET
    • 18: I-LOCATION_STREET
    • 19: B-NUMBER
    • 20: I-NUMBER
    • 21: B-ORGANIZATION
    • 22: I-ORGANIZATION
    • 23: B-ORGANIZATION_COMPANY
    • 24: I-ORGANIZATION_COMPANY
    • 25: B-ORG_POSITION
    • 26: I-ORG_POSITION
    • 27: B-PERSON
    • 28: I-PERSON
    • 29: B-TIME
    • 30: I-TIME
    • 31: B-TRIGGER
    • 32: I-TRIGGER

数据分割

  • 训练集: 1861个样本,2124312字节
  • 测试集: 230个样本,266529字节
  • 验证集: 228个样本,258681字节

数据集创建

许可信息

  • 许可: CC-BY 4.0

引用信息

@InProceedings{SCHIERSCH18.85, author = {Martin Schiersch and Veselina Mironova and Maximilian Schmitt and Philippe Thomas and Aleksandra Gabryszak and Leonhard Hennig}, title = "{A German Corpus for Fine-Grained Named Entity Recognition and Relation Extraction of Traffic and Industry Events}", booktitle = {Proceedings of the Eleventh International Conference on Language Resources and Evaluation (LREC 2018)}, year = {2018}, month = {May 7-12, 2018}, address = {Miyazaki, Japan}, editor = {Nicoletta Calzolari (Conference chair) and Khalid Choukri and Christopher Cieri and Thierry Declerck and Sara Goggi and Koiti Hasida and Hitoshi Isahara and Bente Maegaard and Joseph Mariani and Hélène Mazo and Asuncion Moreno and Jan Odijk and Stelios Piperidis and Takenobu Tokunaga}, publisher = {European Language Resources Association (ELRA)}, isbn = {979-10-95546-00-9}, language = {english} }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作