abhinavsarkar/C4-200m-550k-Determiner

Name: abhinavsarkar/C4-200m-550k-Determiner
Creator: abhinavsarkar
Published: 2024-11-10 11:48:41
License: 暂无描述

Hugging Face2024-11-10 更新2024-12-14 收录

下载链接：

https://hf-mirror.com/datasets/abhinavsarkar/C4-200m-550k-Determiner

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是来自Kaggle的C4_200M数据集的子集，包含550,000对错误和正确的句子，这些句子属于Determiner类别。原始数据集是合成的，包含输入（错误句子）和输出（正确句子）。为了生成错误，首先训练了一个标记的腐败模型，该模型通过输入干净文本来生成腐败文本。

This dataset is a subset of the C4_200M dataset from kaggle, containing 550k pairs of incorrect and correct sentences of the Determiner category. The original dataset is also a synthetic dataset, containing input[incorrect sentence] and output[correct_sentence]. To generate the corruption, a tagged corruption model was first trained. This model is trained on existing datasets by taking as input a clean text and generating a corrupted text.

提供机构：

abhinavsarkar

5,000+

优质数据集

54 个

任务类型

进入经典数据集