kanhatakeyama/SyntheticText
收藏Hugging Face2024-07-16 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/kanhatakeyama/SyntheticText
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是通过从Wikibooks、Wikipedia、Cosmopedia和判例数据等数据源随机抽取文本,并使用phi3模型重新生成的。数据以parquet文件形式存在,大小约为数十GB,可能需要使用git lfs等工具下载。部分计算使用了东京工业大学的超级计算机TSUBAME4.0。
This dataset is generated by randomly extracting text from sources such as Wikibooks, Wikipedia, Cosmopedia, and legal case data, and then regenerating the text using the phi3 model. The data is stored in parquet files, totaling several tens of GB, and may require tools like git lfs for downloading. Some computations were performed using the Tokyo Institute of Technologys supercomputer TSUBAME4.0.
提供机构:
kanhatakeyama
原始信息汇总
数据集概述
数据来源
- 数据集基于以下数据源的随机抽取文本,并通过phi3模型重新生成:
- Wikibooks
- Wikipedia
- Cosmopedia
- 判例数据
数据格式与大小
- 数据以parquet文件格式存储,总大小约为数十GB。
- 通过datasets库可能只能加载前几GB的数据,建议使用git lfs等工具进行完整下载。
相关代码
- 数据生成和处理的相关代码可在此GitHub仓库中找到。



