DFKI-SLT/multitacred
收藏数据集概述
数据集名称: MultiTACRED - Multilingual TAC Relation Extraction Dataset
语言支持: 该数据集支持多种语言,包括阿拉伯语(ar)、德语(de)、西班牙语(es)、芬兰语(fi)、法语(fr)、印地语(hi)、匈牙利语(hu)、日语(ja)、波兰语(pl)、俄语(ru)、土耳其语(tr)和中文(zh)。
许可证: 数据集的许可证类型为“other”,具体细节可参考许可证详情。
标签: 数据集主要用于关系抽取(relation extraction)。
注释创建者: 数据集的注释由众包(crowdsourced)和专家生成(expert-generated)两种方式创建。
语言创建者: 语言数据是通过“found”方式创建的。
大小类别: 数据集大小介于100,000到1,000,000之间。
源数据集: 数据集源自DFKI-NLP/tacred。
任务类别: 数据集适用于文本分类(text-classification)任务。
任务ID: 具体任务为多类分类(multi-class-classification)。
PapersWithCode ID: 数据集在PapersWithCode上的ID为multitacred。
数据集详细信息
配置和特征
数据集包含多个配置,每个配置对应不同的语言和版本,如“original-ar”, “revisited-ar”, “retacred-ar”等。每个配置包含以下特征:
- id: 字符串类型
- token: 字符串序列
- subj_start: 整数类型,表示主体开始位置
- subj_end: 整数类型,表示主体结束位置
- subj_type: 分类标签,包括多种实体类型如LOCATION, ORGANIZATION, PERSON等
- obj_start: 整数类型,表示对象开始位置
- obj_end: 整数类型,表示对象结束位置
- obj_type: 分类标签,与subj_type类似
- relation: 分类标签,表示实体间的关系,如no_relation, org:alternate_names, per:age等
数据集拆分
每个配置的数据集被拆分为训练集、测试集、验证集和backtranslated_test集。例如,“original-ar”配置的训练集包含67,736个示例,测试集包含15,425个示例,验证集包含22,502个示例,backtranslated_test集也包含15,425个示例。
数据集大小
每个配置的数据集大小不同,但总体介于47575415到55307874字节之间。



