liweili/c4_200m

Name: liweili/c4_200m
Creator: liweili
Published: 2022-10-23 11:00:46
License: 暂无描述

Hugging Face2022-10-23 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/liweili/c4_200m

下载链接

链接失效反馈

官方服务：

资源简介：

c4_200m是一个包含1.85亿个句子对的数据集，这些句子对是从C4的清理过的英语数据集中生成的。该数据集可用于语法错误纠正（GEC）任务。每个句子对包含两个属性：`input`和`output`。例如，输入句子可能是Bitcoin is for $7,094 this morning, which CoinDesk says.，而输出句子则是Bitcoin goes for $7,094 this morning, according to CoinDesk.。

提供机构：

liweili

原始信息汇总

数据集概述

数据集名称

C4 200M Grammatical Error Correction Dataset

数据集内容

类型: 文本生成
任务类别: 语法错误修正（GEC）
数据量: 包含185百万个句子对

数据结构

每个句子对包含两个属性：input 和 output。
示例:

{ "input": "Bitcoin is for $7,094 this morning, which CoinDesk says." "output": "Bitcoin goes for $7,094 this morning, according to CoinDesk." }

数据来源

数据集由C4清理后的英语数据集生成。
合成数据集的方法参考自：C4_200M Synthetic Dataset

5,000+

优质数据集

54 个

任务类型

进入经典数据集