five

kanhatakeyama/SyntheticTextWikiTranslate

收藏
Hugging Face2024-07-16 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/kanhatakeyama/SyntheticTextWikiTranslate
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是从Wikibooks和Wikipedia等数据源中随机抽取的日语文本,经过Phi-3模型重新生成,并自动翻译成英语的语料库。部分计算使用了东京工业大学的超级计算机TSUBAME4.0。数据集以parquet文件形式存在,大小约为数十GB,且通过datasets库可能只能读取前几GB的数据,建议使用git lfs进行下载。

该数据集是从Wikibooks和Wikipedia等数据源中随机抽取的日语文本,经过Phi-3模型重新生成,并自动翻译成英语的语料库。部分计算使用了东京工业大学的超级计算机TSUBAME4.0。数据集以parquet文件形式存在,大小约为数十GB,且通过datasets库可能只能读取前几GB的数据,建议使用git lfs进行下载。
提供机构:
kanhatakeyama
原始信息汇总

数据集概述

数据来源

  • 数据集包含从以下数据源随机抽取的日语文本,经过Phi-3模型重新生成,并自动翻译成英文的语料库:

数据格式

  • 数据以parquet文件形式存储,文件大小约为数十GB。
  • 由于文件较大,使用datasets库可能只能加载前几GB的数据,建议使用git lfs等工具进行下载。

计算资源

  • 部分计算任务使用了东京工业大学的超级计算机TSUBAME4.0。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作