five

G-reen/exp_1

收藏
Hugging Face2025-12-14 更新2025-12-20 收录
下载链接:
https://hf-mirror.com/datasets/G-reen/exp_1
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含多个分片,每个分片来自不同的数据源,如Ultra_FineWeb、DCLM_Edu、FineMath、The_Stack_Mini_Edu、BookCorpusOpen、AO3_Random_Subset、WritingPrompts_Filtered、OpenThoughts_114k和MegaScience。数据集的特征包括数据源(data_source)、原始文本(text_raw)和分词后的文本(text_tokenized)。每个分片的大小和示例数量也有所不同,涵盖了教育、数学、书籍、写作提示等多个领域。

The dataset consists of multiple shards, each sourced from different origins such as Ultra_FineWeb, DCLM_Edu, FineMath, The_Stack_Mini_Edu, BookCorpusOpen, AO3_Random_Subset, WritingPrompts_Filtered, OpenThoughts_114k, and MegaScience. The features include data source (data_source), raw text (text_raw), and tokenized text (text_tokenized). Each shard varies in size and number of examples, covering various domains like education, mathematics, books, writing prompts, and more.
提供机构:
G-reen
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作