five

DFKI-SLT/multitacred

收藏
Hugging Face2025-07-17 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/DFKI-SLT/multitacred
下载链接
链接失效反馈
官方服务:
资源简介:
MultiTACRED是一个多语言的关系抽取数据集,它包含多种语言配置,包括阿拉伯语、德语、西班牙语、芬兰语、法语、印地语、匈牙利语、日语、波兰语、俄语、土耳其语和中文。数据集专注于关系抽取任务,并包含由众包和专家生成的注释。数据集包含了多种实体类型和关系类型,例如位置、组织、人员、日期、金钱等,以及它们之间的关系,如组织成立地点、人员出生日期等。

MultiTACRED is a multilingual relation extraction dataset available in various language configurations, including Arabic, German, Spanish, Finnish, French, Hindi, Hungarian, Japanese, Polish, Russian, Turkish, and Chinese. The dataset focuses on relation extraction tasks and includes annotations created by both crowdsourced and expert-generated methods. It encompasses a wide range of entity types and relation types, such as locations, organizations, people, dates, money, and their associated relations like organization founding location, persons birth date, and more.
提供机构:
DFKI-SLT
原始信息汇总

数据集概述

数据集名称: MultiTACRED - Multilingual TAC Relation Extraction Dataset

语言支持: 该数据集支持多种语言,包括阿拉伯语(ar)、德语(de)、西班牙语(es)、芬兰语(fi)、法语(fr)、印地语(hi)、匈牙利语(hu)、日语(ja)、波兰语(pl)、俄语(ru)、土耳其语(tr)和中文(zh)。

许可证: 数据集的许可证类型为“other”,具体细节可参考许可证详情

标签: 数据集主要用于关系抽取(relation extraction)。

注释创建者: 数据集的注释由众包(crowdsourced)和专家生成(expert-generated)两种方式创建。

语言创建者: 语言数据是通过“found”方式创建的。

大小类别: 数据集大小介于100,000到1,000,000之间。

源数据集: 数据集源自DFKI-NLP/tacred。

任务类别: 数据集适用于文本分类(text-classification)任务。

任务ID: 具体任务为多类分类(multi-class-classification)。

PapersWithCode ID: 数据集在PapersWithCode上的ID为multitacred。

数据集详细信息

配置和特征

数据集包含多个配置,每个配置对应不同的语言和版本,如“original-ar”, “revisited-ar”, “retacred-ar”等。每个配置包含以下特征:

  • id: 字符串类型
  • token: 字符串序列
  • subj_start: 整数类型,表示主体开始位置
  • subj_end: 整数类型,表示主体结束位置
  • subj_type: 分类标签,包括多种实体类型如LOCATION, ORGANIZATION, PERSON等
  • obj_start: 整数类型,表示对象开始位置
  • obj_end: 整数类型,表示对象结束位置
  • obj_type: 分类标签,与subj_type类似
  • relation: 分类标签,表示实体间的关系,如no_relation, org:alternate_names, per:age等

数据集拆分

每个配置的数据集被拆分为训练集、测试集、验证集和backtranslated_test集。例如,“original-ar”配置的训练集包含67,736个示例,测试集包含15,425个示例,验证集包含22,502个示例,backtranslated_test集也包含15,425个示例。

数据集大小

每个配置的数据集大小不同,但总体介于47575415到55307874字节之间。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作