CATIE-AQ/bisect_fr_prompt_textual_simplification
收藏数据集概述
基本信息
- 名称: bisect_fr_prompt_textual_simplification
- 语言: 法语 (fr)
- 许可证: cc-by-nc-4.0
- 大小: 1M<n<10M
- 任务类型: 文本简化
- 多语言性: 单语种
- 来源数据集: BiSECT
数据集描述
- 概要: bisect_fr_prompt_textual_simplification 是 Dataset of French Prompts (DFP) 的一个子集,包含 9,889,420 行数据,用于文本简化任务。原始数据来自 Kim 等人的 BiSECT 数据集,仅保留了法语部分。
- 提示使用: 该数据集使用了20个提示,这些提示以指示性语气、你称形式和你称形式构建,用于构建输入和目标列,以达到与 xP3 数据集相同的格式。
- 特征构造: 提示中的
source和targets是从 BiSECT 数据集的法语部分提取和处理的。
数据分割
- 训练集: 9,820,700 样本
- 验证集: 48,000 样本
- 测试集: 20,720 样本
使用方法
python from datasets import load_dataset dataset = load_dataset("CATIE-AQ/bisect_fr_prompt_textual_simplification")
引用信息
-
原始数据:
@inproceedings{bisect2021, title={BiSECT: Learning to Split and Rephrase Sentences with Bitexts}, author={Kim, Joongwon and Maddela, Mounica and Kriz, Reno and Xu, Wei and Callison-Burch, Chris}, booktitle={Proceedings of the Conference on Empirical Methods in Natural Language Processing (EMNLP)}, year={2021} }
-
本数据集:
@misc {centre_aquitain_des_technologies_de_linformation_et_electroniques_2023,
author = { {Centre Aquitain des Technologies de lInformation et Electroniques} },
title = { DFP (Revision 1d24c09) },
year = 2023,
url = { https://huggingface.co/datasets/CATIE-AQ/DFP },
doi = { 10.57967/hf/1200 },
publisher = { Hugging Face }
}
许可证
- 许可证: cc-by-nc-4.0



