liweili/c4_200m
收藏Hugging Face2022-10-23 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/liweili/c4_200m
下载链接
链接失效反馈官方服务:
资源简介:
c4_200m是一个包含1.85亿个句子对的数据集,这些句子对是从C4的清理过的英语数据集中生成的。该数据集可用于语法错误纠正(GEC)任务。每个句子对包含两个属性:`input`和`output`。例如,输入句子可能是Bitcoin is for $7,094 this morning, which CoinDesk says.,而输出句子则是Bitcoin goes for $7,094 this morning, according to CoinDesk.。
提供机构:
liweili
原始信息汇总
数据集概述
数据集名称
C4 200M Grammatical Error Correction Dataset
数据集内容
- 类型: 文本生成
- 任务类别: 语法错误修正(GEC)
- 数据量: 包含185百万个句子对
数据结构
-
每个句子对包含两个属性:
input和output。 -
示例:
{ "input": "Bitcoin is for $7,094 this morning, which CoinDesk says." "output": "Bitcoin goes for $7,094 this morning, according to CoinDesk." }
数据来源
- 数据集由C4清理后的英语数据集生成。
- 合成数据集的方法参考自:C4_200M Synthetic Dataset



