range3/wiki40b-ja
收藏Hugging Face2023-02-04 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/range3/wiki40b-ja
下载链接
链接失效反馈官方服务:
资源简介:
---
task_categories:
- text-generation
- fill-mask
language:
- ja
---
# range3/wiki40b-ja
This dataset consists of three parquet files from the wiki40b dataset with only Japanese data extracted. It is generated by the following python code.
このデータセットは、wiki40bデータセットの日本語データのみを抽出した3つのparquetファイルで構成されます。以下のpythonコードによって生成しています。
```py
import datasets
dss = datasets.load_dataset(
"wiki40b",
"ja",
beam_runner="DirectRunner",
)
for split,ds in dss.items():
ds.to_parquet(f"wikipedia-ja-20230101/{split}.parquet")
```
提供机构:
range3
原始信息汇总
range3/wiki40b-ja
数据集概述
- 任务类别:
- 文本生成
- 填空
- 语言:
- 日语
数据集组成
- 该数据集由从wiki40b数据集中提取的仅包含日语数据的三个parquet文件组成。
数据集生成
- 数据集通过以下Python代码生成:
python import datasets
dss = datasets.load_dataset( "wiki40b", "ja", beam_runner="DirectRunner", )
for split,ds in dss.items(): ds.to_parquet(f"wikipedia-ja-20230101/{split}.parquet")



