tet550/jawiki_sentences
收藏Hugging Face2023-07-16 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/tet550/jawiki_sentences
下载链接
链接失效反馈官方服务:
资源简介:
该数据集基于日语版Wikipedia的条目创建,移除了不必要的标签和表格等非文本内容。每个条目包含文章标题、章节标题和文本内容。数据集通过特定脚本从日语Wikipedia的转储文件中生成,并遵循Creative Commons Attribution-ShareAlike 4.0 International License (CC BY-SA 4.0) 和 GNU Free Documentation License (GFDL) 的许可。
该数据集基于日语版Wikipedia的条目创建,移除了不必要的标签和表格等非文本内容。每个条目包含文章标题、章节标题和文本内容。数据集通过特定脚本从日语Wikipedia的转储文件中生成,并遵循Creative Commons Attribution-ShareAlike 4.0 International License (CC BY-SA 4.0) 和 GNU Free Documentation License (GFDL) 的许可。
提供机构:
tet550
原始信息汇总
Jawiki Sentences Dataset 概要
データセット情報
- ライセンス: CC-BY-3.0
- 特徴:
- article_title: 文字列型
- topic_title: 文字列型
- text: 文字列型
- 分割:
- train:
- num_bytes: 7170293044
- num_examples: 31888063
- train:
- ダウンロードサイズ: 3521442667
- データセットサイズ: 7170293044
- 言語: 日本語
データの構造
- article_title: 記事のタイトルを表す文字列。
- topic_title: 記事のセクションタイトルを表す文字列。
- text: セクションのテキストを表す文字列。



