DFKI-SLT/cross_re
收藏Hugging Face2023-01-19 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/DFKI-SLT/cross_re
下载链接
链接失效反馈官方服务:
资源简介:
CrossRE 是一个跨领域的关系抽取数据集,包含六个不同的文本领域:新闻、政治、自然科学、音乐、文学和人工智能。该数据集包含多标签注释,并基于 CrossNER 数据集构建。它涵盖了这六个领域的 17 种关系标签。数据集为英文,适用于文本分类任务,特别是多类分类。README 文件还提供了每个领域的数据实例、数据字段和数据分割的示例。
CrossRE is a cross-domain relation extraction dataset that encompasses six distinct text domains: news, politics, natural sciences, music, literature, and artificial intelligence. It features multi-label annotations and is constructed based on the CrossNER dataset, covering 17 relation labels across these six domains. The dataset is in English and is applicable to text classification tasks, particularly multi-class classification. The README file also provides examples of data instances, data fields, and data splits for each domain.
提供机构:
DFKI-SLT
原始信息汇总
数据集概述
基本信息
- 名称: CrossRE
- 类型: 跨领域关系抽取数据集
- 语言: 英语
- 多语言性: 单语
- 规模: 10,000 < n < 100,000
- 领域: 新闻、政治、自然科学、音乐、文学、人工智能
- 任务类型: 文本分类
- 任务ID: 多类分类
数据集结构
数据字段
- doc_key: 字符串,实例ID
- sentence: 字符串序列,句子内容
- ner: 字典序列,命名实体信息
- id-start: 整数,实体起始位置
- id-end: 整数,实体结束位置
- entity-type: 字符串,实体类型
- relations: 字典序列,关系信息
- id_1-start: 整数,第一个实体起始位置
- id_1-end: 整数,第一个实体结束位置
- id_2-start: 整数,第二个实体起始位置
- id_2-end: 整数,第二个实体结束位置
- relation-type: 字符串,关系类型
- Exp: 字符串,关系类型解释
- Un: 布尔值,注释者的不确定性
- SA: 布尔值,句法歧义的存在
数据分割
- train: 训练集
- validation: 验证集
- test: 测试集
数据示例
- news: 新闻领域示例
- politics: 政治领域示例
- science: 科学领域示例
- music: 音乐领域示例
- literature: 文学领域示例
- ai: 人工智能领域示例
数据集创建
注释者
- 类型: 专家生成
源数据
- 来源: 扩展自CrossNER数据集
许可证
- 信息: 未指定
标签
- 数量: 17种关系标签
- 描述: PART-OF, PHYSICAL, USAGE, ROLE, SOCIAL, GENERAL-AFFILIATION, COMPARE, TEMPORAL, ARTIFACT, ORIGIN, TOPIC, OPPOSITE, CAUSE-EFFECT, WIN-DEFEAT, TYPEOF, NAMED, RELATED-TO
数据集大小
- 下载大小: 不同配置下范围从239,763字节到726,956字节
- 数据集大小: 不同配置下范围从223,355字节到643,508字节
搜集汇总
数据集介绍

背景与挑战
背景概述
CrossRE是一个跨领域关系抽取基准数据集,涵盖新闻、政治、自然科学、音乐、文学和人工智能六个领域,包含17种关系类型的多标签注释。该数据集基于CrossNER命名实体识别数据构建,总共包含5,265个句子和18,608个关系实例,适用于评估模型在不同领域的泛化能力。
以上内容由遇见数据集搜集并总结生成



