CATIE-AQ/xwinograd_fr_prompt_coreference
收藏xwinograd_fr_prompt_coreference 数据集概述
概要
xwinograd_fr_prompt_coreference 是 Dataset of French Prompts (DFP) 的一个子集。
该数据集包含 830 条记录,适用于指代消解任务。
原始数据(无提示)来自 Muennighoff 的 xwinograd 数据集,仅保留了法语部分。
随后应用了一系列提示(见下文),以构建输入和目标列,从而获得与 Muennighoff 等人的 xP3 数据集相同的格式。
提示列表
该数据集创建了 10 个提示,逻辑上包括直陈式、亲昵语和敬语形式。
plaintext "+sentence+" Remplacer le "_" dans la phrase ci-dessus par la bonne option :
- "+option1+"
- "+option2+",
"+sentence+" Remplace le "_" dans la phrase ci-dessus par la bonne option : - "+option1+"
- "+option2+",
"+sentence+" Remplacez le "_" dans la phrase ci-dessus par la bonne option : - "+option1+"
- "+option2+",
"+sentence+" Dans la phrase précédente, "" fait-il référence à "+option1+" ou "+option2+" ?,
"+sentence+" À quoi le "" dans la phrase ci-dessus fait-il référence ? "+option1+" ou "+option2+" ?,
"+sentence+" Le "_" dans la phrase ci-dessous fait référence à "+option1+" - "+option2+" ?,
Remplisser le "_" de la phrase suivante : "+sentence+ " Choix : - "+option1+"
- "+option2+"
Réponse :,
Remplis le "_" de la phrase suivante : "+sentence+ " Choix : - "+option1+"
- "+option2+"
Réponse :,
Remplissez le "_" de la phrase suivante : "+sentence+ " Choix : - "+option1+"
- "+option2+"
Réponse :,
Dans la phrase ci-dessous, le "_" renvoie-t-il à "+option1+" ou "+option2+" ? : +sentence,
提示中的特征
在上述提示列表中,option1、option2、sentence 和 targets 是从以下代码构造的:
python xwinograd = load_dataset(Muennighoff/xwinograd,fr) sentence = xwinograd[test][i][sentence] option1 = xwinograd[test][i][option1] option2 = xwinograd[test][i][option2] targets = str(xwinograd[test][i][answer]).replace("1",xwinograd[test][i][option1]).replace("2",xwinograd[test][i][option2])
数据集划分
train包含 830 个样本- 无
valid划分 - 无
test划分
使用方法
python from datasets import load_dataset dataset = load_dataset("CATIE-AQ/xwinograd_fr_prompt_coreference")
引用
原始数据
plaintext @misc{muennighoff2022crosslingual, title={Crosslingual Generalization through Multitask Finetuning}, author={Niklas Muennighoff and Thomas Wang and Lintang Sutawika and Adam Roberts and Stella Biderman and Teven Le Scao and M Saiful Bari and Sheng Shen and Zheng-Xin Yong and Hailey Schoelkopf and Xiangru Tang and Dragomir Radev and Alham Fikri Aji and Khalid Almubarak and Samuel Albanie and Zaid Alyafeai and Albert Webson and Edward Raff and Colin Raffel}, year={2022}, eprint={2211.01786}, archivePrefix={arXiv}, primaryClass={cs.CL} } @misc{tikhonov2021heads, title={Its All in the Heads: Using Attention Heads as a Baseline for Cross-Lingual Transfer in Commonsense Reasoning}, author={Alexey Tikhonov and Max Ryabinin}, year={2021}, eprint={2106.12066}, archivePrefix={arXiv}, primaryClass={cs.CL} }
本数据集
plaintext
@misc {centre_aquitain_des_technologies_de_linformation_et_electroniques_2023,
author = { {Centre Aquitain des Technologies de lInformation et Electroniques} },
title = { DFP (Revision 1d24c09) },
year = 2023,
url = { https://huggingface.co/datasets/CATIE-AQ/DFP },
doi = { 10.57967/hf/1200 },
publisher = { Hugging Face }
}



