five

CATIE-AQ/xwinograd_fr_prompt_coreference

收藏
Hugging Face2025-02-10 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/CATIE-AQ/xwinograd_fr_prompt_coreference
下载链接
链接失效反馈
官方服务:
资源简介:
xwinograd_fr_prompt_coreference是法语提示数据集(DFP)的一个子集,包含830行数据,适用于共指消解任务。原始数据来自Muennighoff的xwinograd数据集,仅保留了法语部分。通过应用一系列提示,构建了输入和目标列,使其格式与Muennighoff等人的xP3数据集一致。使用的提示包括指示性时态、你形式(tutoiement)和您形式(vouvoiement)的提示。数据集特征包括从xwinograd数据集中提取的句子、选项1、选项2和目标。数据集仅包含训练集,没有验证集和测试集。

xwinograd_fr_prompt_coreference是法语提示数据集(DFP)的一个子集,包含830行数据,适用于共指消解任务。原始数据来自Muennighoff的xwinograd数据集,仅保留了法语部分。通过应用一系列提示,构建了输入和目标列,使其格式与Muennighoff等人的xP3数据集一致。使用的提示包括指示性时态、你形式(tutoiement)和您形式(vouvoiement)的提示。数据集特征包括从xwinograd数据集中提取的句子、选项1、选项2和目标。数据集仅包含训练集,没有验证集和测试集。
提供机构:
CATIE-AQ
原始信息汇总

xwinograd_fr_prompt_coreference 数据集概述

概要

xwinograd_fr_prompt_coreferenceDataset of French Prompts (DFP) 的一个子集。
该数据集包含 830 条记录,适用于指代消解任务。
原始数据(无提示)来自 Muennighoff 的 xwinograd 数据集,仅保留了法语部分。
随后应用了一系列提示(见下文),以构建输入和目标列,从而获得与 Muennighoff 等人的 xP3 数据集相同的格式。

提示列表

该数据集创建了 10 个提示,逻辑上包括直陈式、亲昵语和敬语形式。

plaintext "+sentence+" Remplacer le "_" dans la phrase ci-dessus par la bonne option :

  • "+option1+"
  • "+option2+",
    "+sentence+" Remplace le "_" dans la phrase ci-dessus par la bonne option :
  • "+option1+"
  • "+option2+",
    "+sentence+" Remplacez le "_" dans la phrase ci-dessus par la bonne option :
  • "+option1+"
  • "+option2+",
    "+sentence+" Dans la phrase précédente, "" fait-il référence à "+option1+" ou "+option2+" ?,
    "+sentence+" À quoi le "
    " dans la phrase ci-dessus fait-il référence ? "+option1+" ou "+option2+" ?,
    "+sentence+" Le "_" dans la phrase ci-dessous fait référence à "+option1+"
  • "+option2+" ?,
    Remplisser le "_" de la phrase suivante : "+sentence+ " Choix :
  • "+option1+"
  • "+option2+" Réponse :,
    Remplis le "_" de la phrase suivante : "+sentence+ " Choix :
  • "+option1+"
  • "+option2+" Réponse :,
    Remplissez le "_" de la phrase suivante : "+sentence+ " Choix :
  • "+option1+"
  • "+option2+" Réponse :,
    Dans la phrase ci-dessous, le "_" renvoie-t-il à "+option1+" ou "+option2+" ? : +sentence,

提示中的特征

在上述提示列表中,option1option2sentencetargets 是从以下代码构造的:

python xwinograd = load_dataset(Muennighoff/xwinograd,fr) sentence = xwinograd[test][i][sentence] option1 = xwinograd[test][i][option1] option2 = xwinograd[test][i][option2] targets = str(xwinograd[test][i][answer]).replace("1",xwinograd[test][i][option1]).replace("2",xwinograd[test][i][option2])

数据集划分

  • train 包含 830 个样本
  • valid 划分
  • test 划分

使用方法

python from datasets import load_dataset dataset = load_dataset("CATIE-AQ/xwinograd_fr_prompt_coreference")

引用

原始数据

plaintext @misc{muennighoff2022crosslingual, title={Crosslingual Generalization through Multitask Finetuning}, author={Niklas Muennighoff and Thomas Wang and Lintang Sutawika and Adam Roberts and Stella Biderman and Teven Le Scao and M Saiful Bari and Sheng Shen and Zheng-Xin Yong and Hailey Schoelkopf and Xiangru Tang and Dragomir Radev and Alham Fikri Aji and Khalid Almubarak and Samuel Albanie and Zaid Alyafeai and Albert Webson and Edward Raff and Colin Raffel}, year={2022}, eprint={2211.01786}, archivePrefix={arXiv}, primaryClass={cs.CL} } @misc{tikhonov2021heads, title={Its All in the Heads: Using Attention Heads as a Baseline for Cross-Lingual Transfer in Commonsense Reasoning}, author={Alexey Tikhonov and Max Ryabinin}, year={2021}, eprint={2106.12066}, archivePrefix={arXiv}, primaryClass={cs.CL} }

本数据集

plaintext @misc {centre_aquitain_des_technologies_de_linformation_et_electroniques_2023,
author = { {Centre Aquitain des Technologies de lInformation et Electroniques} },
title = { DFP (Revision 1d24c09) },
year = 2023,
url = { https://huggingface.co/datasets/CATIE-AQ/DFP },
doi = { 10.57967/hf/1200 },
publisher = { Hugging Face }
}

许可证

cc-by-4.0

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作