sradc/chunked-wikipedia20220301en-bookcorpusopen

Name: sradc/chunked-wikipedia20220301en-bookcorpusopen
Creator: sradc
Published: 2023-05-30 16:52:48
License: 暂无描述

Hugging Face2023-05-30 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/sradc/chunked-wikipedia20220301en-bookcorpusopen

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集结合了wikipedia20220301.en和bookcorpusopen，并将数据分割成较小的块，每个块大约820个字符。数据集已经过标准化处理，包括转换为小写、去除重音和非英文字符，并且移除了少于200字符或多于1000字符的项。数据集未经过洗牌，但提供了洗牌版本的下载链接。

提供机构：

sradc

原始信息汇总

数据集概述

5,000+

优质数据集

54 个

任务类型

进入经典数据集