five

CATIE-AQ/bisect_fr_prompt_textual_simplification

收藏
Hugging Face2025-02-10 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/CATIE-AQ/bisect_fr_prompt_textual_simplification
下载链接
链接失效反馈
官方服务:
资源简介:
bisect_fr_prompt_textual_simplification是DFP数据集的一个子集,包含9,889,420条可用于文本简化任务的数据。该数据集基于BiSECT数据集的法语部分构建,并应用了20种提示语来构建输入和目标列。数据集分为训练集、验证集和测试集,遵循cc-by-nc-4.0许可证。

bisect_fr_prompt_textual_simplification is a subset of the Dataset of French Prompts (DFP), containing 9,889,420 entries for textual simplification tasks. Based on the French part of the BiSECT dataset, it uses 20 prompts to construct input and target columns. The dataset is split into training, validation, and test sets, and is licensed under cc-by-nc-4.0.
提供机构:
CATIE-AQ
原始信息汇总

数据集概述

基本信息

  • 名称: bisect_fr_prompt_textual_simplification
  • 语言: 法语 (fr)
  • 许可证: cc-by-nc-4.0
  • 大小: 1M<n<10M
  • 任务类型: 文本简化
  • 多语言性: 单语种
  • 来源数据集: BiSECT

数据集描述

  • 概要: bisect_fr_prompt_textual_simplification 是 Dataset of French Prompts (DFP) 的一个子集,包含 9,889,420 行数据,用于文本简化任务。原始数据来自 Kim 等人的 BiSECT 数据集,仅保留了法语部分。
  • 提示使用: 该数据集使用了20个提示,这些提示以指示性语气、你称形式和你称形式构建,用于构建输入和目标列,以达到与 xP3 数据集相同的格式。
  • 特征构造: 提示中的 sourcetargets 是从 BiSECT 数据集的法语部分提取和处理的。

数据分割

  • 训练集: 9,820,700 样本
  • 验证集: 48,000 样本
  • 测试集: 20,720 样本

使用方法

python from datasets import load_dataset dataset = load_dataset("CATIE-AQ/bisect_fr_prompt_textual_simplification")

引用信息

  • 原始数据:

    @inproceedings{bisect2021, title={BiSECT: Learning to Split and Rephrase Sentences with Bitexts}, author={Kim, Joongwon and Maddela, Mounica and Kriz, Reno and Xu, Wei and Callison-Burch, Chris}, booktitle={Proceedings of the Conference on Empirical Methods in Natural Language Processing (EMNLP)}, year={2021} }

  • 本数据集:

    @misc {centre_aquitain_des_technologies_de_linformation_et_electroniques_2023,
    author = { {Centre Aquitain des Technologies de lInformation et Electroniques} },
    title = { DFP (Revision 1d24c09) },
    year = 2023,
    url = { https://huggingface.co/datasets/CATIE-AQ/DFP },
    doi = { 10.57967/hf/1200 },
    publisher = { Hugging Face }
    }

许可证

  • 许可证: cc-by-nc-4.0
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作