five

kanhatakeyama/SyntheticText

收藏
Hugging Face2024-07-16 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/kanhatakeyama/SyntheticText
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是通过从Wikibooks、Wikipedia、Cosmopedia和判例数据等数据源随机抽取文本,并使用phi3模型重新生成的。数据以parquet文件形式存在,大小约为数十GB,可能需要使用git lfs等工具下载。部分计算使用了东京工业大学的超级计算机TSUBAME4.0。

This dataset is generated by randomly extracting text from sources such as Wikibooks, Wikipedia, Cosmopedia, and legal case data, and then regenerating the text using the phi3 model. The data is stored in parquet files, totaling several tens of GB, and may require tools like git lfs for downloading. Some computations were performed using the Tokyo Institute of Technologys supercomputer TSUBAME4.0.
提供机构:
kanhatakeyama
原始信息汇总

数据集概述

数据来源

  • 数据集基于以下数据源的随机抽取文本,并通过phi3模型重新生成:
    • Wikibooks
    • Wikipedia
    • Cosmopedia
    • 判例数据

数据格式与大小

  • 数据以parquet文件格式存储,总大小约为数十GB。
  • 通过datasets库可能只能加载前几GB的数据,建议使用git lfs等工具进行完整下载。

相关代码

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作