five

mingaflo/rebel-dataset-de

收藏
Hugging Face2023-04-20 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/mingaflo/rebel-dataset-de
下载链接
链接失效反馈
官方服务:
资源简介:
German REBEL数据集是Babelscape/rebel-dataset的德语版本,使用CROCODILE工具生成,基于2022年11月的维基百科版本。该数据集主要用于关系抽取(Relation Extraction)任务的预训练,特别是针对德语BART模型的预训练。数据集包含维基百科文章的摘要、实体和三元组信息,所有注释均为自动生成。由于数据来源于维基百科和Wikidata,可能存在这些来源中的偏见。数据集未提供分割,因为关系类别不平衡。数据集大小为1.1GB(解压后)或195MB(压缩后)。

German REBEL数据集是Babelscape/rebel-dataset的德语版本,使用CROCODILE工具生成,基于2022年11月的维基百科版本。该数据集主要用于关系抽取(Relation Extraction)任务的预训练,特别是针对德语BART模型的预训练。数据集包含维基百科文章的摘要、实体和三元组信息,所有注释均为自动生成。由于数据来源于维基百科和Wikidata,可能存在这些来源中的偏见。数据集未提供分割,因为关系类别不平衡。数据集大小为1.1GB(解压后)或195MB(压缩后)。
提供机构:
mingaflo
原始信息汇总

数据集概述

数据集名称: German REBEL Dataset

数据集描述: 该数据集是Babelscape/rebel-dataset的德语版本,通过CROCODILE工具生成。主要用于Relation Extraction模型的预训练。

语言: 德语

数据集大小: 100K<n<1M

许可证: MIT

数据集结构

数据字段:

  • docid: 文档ID
  • title: 维基百科标题
  • uri: 维基数据URI
  • text: 维基百科摘要
  • entities: 实体列表
    • uri: 维基数据URI
    • boundaries: 实体在摘要中的索引元组
    • surfaceform: 实体的文本形式
    • annotator: 不同的标注者类别
  • triples: 三元组列表
    • sentence_id: 三元组出现的句子编号
    • confidence: NLI模型的置信度
    • subject: 主语信息
      • uri: 维基数据实体URI
      • boundaries: 边界信息
      • surfaceform: 主语的文本形式
      • annotator: 标注者
    • predicate: 谓语信息
      • uri: 维基数据关系URI
      • boundaries: 总是为null
      • surfaceform: 维基数据关系名称
      • annotator: 标注者
    • object: 宾语信息
      • uri: 维基数据实体URI
      • boundaries: 边界信息
      • surfaceform: 宾语的文本形式
      • annotator: 标注者

数据集创建

创建理由: 用于训练德语BART模型,作为Relation Extraction的预训练阶段。

源数据: 来自维基百科和维基数据的贡献者。

标注过程: 使用cRocoDiLe自动关系抽取数据集,结合NLI过滤。

标注者: 自动标注。

敏感信息: 数据集中的文本来自维基百科,可能包含个人或敏感信息。

使用数据集的考虑

社会影响: 该数据集作为Relation Extraction模型的预训练步骤,由于是远距离标注,应仅用于此目的。

偏见讨论: 数据集自动从维基百科和维基数据创建,可能反映这些来源的偏见。

其他已知限制: 目前没有。

附加信息

数据集维护者: Me

许可证信息: MIT许可证

引用信息: 参考文献见README文件中的引用部分。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作