erhwenkuo/clean_passages_80m-chinese-zhtw

Name: erhwenkuo/clean_passages_80m-chinese-zhtw
Creator: erhwenkuo
Published: 2023-10-04 21:53:04
License: 暂无描述

Hugging Face2023-10-04 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/erhwenkuo/clean_passages_80m-chinese-zhtw

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: features: - name: passage dtype: string splits: - name: train num_bytes: 18996999214 num_examples: 88328203 download_size: 13088559046 dataset_size: 18996999214 configs: - config_name: default data_files: - split: train path: data/train-* task_categories: - text-generation language: - zh size_categories: - 10M<n<100M --- # Dataset Card for "clean_passages_80m-chinese-zhtw" 包含**8千萬餘萬**（88328203）個中文段落，不包含任何字母、數字。文字長度大部分介於 50\~200 個字。原始資料集是用於訓練[GENIUS模型中文版](https://huggingface.co/spaces/beyond/genius)。論文參考引用: ``` @article{guo2022genius, title={GENIUS: Sketch-based Language Model Pre-training via Extreme and Selective Masking for Text Generation and Augmentation}, author={Guo, Biyang and Gong, Yeyun and Shen, Yelong and Han, Songqiao and Huang, Hailiang and Duan, Nan and Chen, Weizhu}, journal={arXiv preprint arXiv:2211.10330}, year={2022} } ``` ## 資料集來源本資料集是基於[CLUE中文預訓練語料集](https://github.com/CLUEbenchmark/CLUE)進行處理、過濾并進行簡繁轉諲而得到的。原始資料集引用: ``` @misc{bright_xu_2019_3402023, author = {Bright Xu}, title = {NLP Chinese Corpus: Large Scale Chinese Corpus for NLP }, month = sep, year = 2019, doi = {10.5281/zenodo.3402023}, version = {1.0}, publisher = {Zenodo}, url = {https://doi.org/10.5281/zenodo.3402023} } ```

提供机构：

erhwenkuo

原始信息汇总

数据集概述

数据集信息

特征:
- 名称: passage
- 数据类型: string
分割:
- 名称: train
- 字节数: 18996999214
- 样本数: 88328203
下载大小: 13088559046
数据集大小: 18996999214

配置

配置名称: default
数据文件:
- 分割: train
- 路径: data/train-*

任务类别

text-generation

语言

大小类别

10M<n<100M

数据集描述

包含8千萬餘萬（88328203）個中文段落，不包含任何字母、數字。文字長度大部分介於 50~200 個字。

数据集来源

本資料集是基於CLUE中文預訓練語料集進行處理、過濾并進行簡繁轉謲而得到的。

5,000+

优质数据集

54 个

任务类型

进入经典数据集