mingaflo/rebel-dataset-de
收藏Hugging Face2023-04-20 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/mingaflo/rebel-dataset-de
下载链接
链接失效反馈官方服务:
资源简介:
German REBEL数据集是Babelscape/rebel-dataset的德语版本,使用CROCODILE工具生成,基于2022年11月的维基百科版本。该数据集主要用于关系抽取(Relation Extraction)任务的预训练,特别是针对德语BART模型的预训练。数据集包含维基百科文章的摘要、实体和三元组信息,所有注释均为自动生成。由于数据来源于维基百科和Wikidata,可能存在这些来源中的偏见。数据集未提供分割,因为关系类别不平衡。数据集大小为1.1GB(解压后)或195MB(压缩后)。
German REBEL数据集是Babelscape/rebel-dataset的德语版本,使用CROCODILE工具生成,基于2022年11月的维基百科版本。该数据集主要用于关系抽取(Relation Extraction)任务的预训练,特别是针对德语BART模型的预训练。数据集包含维基百科文章的摘要、实体和三元组信息,所有注释均为自动生成。由于数据来源于维基百科和Wikidata,可能存在这些来源中的偏见。数据集未提供分割,因为关系类别不平衡。数据集大小为1.1GB(解压后)或195MB(压缩后)。
提供机构:
mingaflo
原始信息汇总
数据集概述
数据集名称: German REBEL Dataset
数据集描述: 该数据集是Babelscape/rebel-dataset的德语版本,通过CROCODILE工具生成。主要用于Relation Extraction模型的预训练。
语言: 德语
数据集大小: 100K<n<1M
许可证: MIT
数据集结构
数据字段:
- docid: 文档ID
- title: 维基百科标题
- uri: 维基数据URI
- text: 维基百科摘要
- entities: 实体列表
- uri: 维基数据URI
- boundaries: 实体在摘要中的索引元组
- surfaceform: 实体的文本形式
- annotator: 不同的标注者类别
- triples: 三元组列表
- sentence_id: 三元组出现的句子编号
- confidence: NLI模型的置信度
- subject: 主语信息
- uri: 维基数据实体URI
- boundaries: 边界信息
- surfaceform: 主语的文本形式
- annotator: 标注者
- predicate: 谓语信息
- uri: 维基数据关系URI
- boundaries: 总是为null
- surfaceform: 维基数据关系名称
- annotator: 标注者
- object: 宾语信息
- uri: 维基数据实体URI
- boundaries: 边界信息
- surfaceform: 宾语的文本形式
- annotator: 标注者
数据集创建
创建理由: 用于训练德语BART模型,作为Relation Extraction的预训练阶段。
源数据: 来自维基百科和维基数据的贡献者。
标注过程: 使用cRocoDiLe自动关系抽取数据集,结合NLI过滤。
标注者: 自动标注。
敏感信息: 数据集中的文本来自维基百科,可能包含个人或敏感信息。
使用数据集的考虑
社会影响: 该数据集作为Relation Extraction模型的预训练步骤,由于是远距离标注,应仅用于此目的。
偏见讨论: 数据集自动从维基百科和维基数据创建,可能反映这些来源的偏见。
其他已知限制: 目前没有。
附加信息
数据集维护者: Me
许可证信息: MIT许可证
引用信息: 参考文献见README文件中的引用部分。



