kanhatakeyama/SyntheticText

Name: kanhatakeyama/SyntheticText
Creator: kanhatakeyama
Published: 2024-07-16 07:30:43
License: 暂无描述

Hugging Face2024-07-16 更新2024-06-29 收录

下载链接：

https://hf-mirror.com/datasets/kanhatakeyama/SyntheticText

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是通过从Wikibooks、Wikipedia、Cosmopedia和判例数据等数据源随机抽取文本，并使用phi3模型重新生成的。数据以parquet文件形式存在，大小约为数十GB，可能需要使用git lfs等工具下载。部分计算使用了东京工业大学的超级计算机TSUBAME4.0。

This dataset is generated by randomly extracting text from sources such as Wikibooks, Wikipedia, Cosmopedia, and legal case data, and then regenerating the text using the phi3 model. The data is stored in parquet files, totaling several tens of GB, and may require tools like git lfs for downloading. Some computations were performed using the Tokyo Institute of Technologys supercomputer TSUBAME4.0.

提供机构：

kanhatakeyama

原始信息汇总

数据集概述

数据来源

数据集基于以下数据源的随机抽取文本，并通过phi3模型重新生成：
- Wikibooks
- Wikipedia
- Cosmopedia
- 判例数据

数据格式与大小

数据以parquet文件格式存储，总大小约为数十GB。
通过datasets库可能只能加载前几GB的数据，建议使用git lfs等工具进行完整下载。

kanhatakeyama/SyntheticText

数据集概述

数据来源

数据格式与大小

相关代码