llm-book/jawiki-sentences
收藏Hugging Face2023-10-25 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/llm-book/jawiki-sentences
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是用于书籍《大規模言語モデル入門》的Wikipedia句子数据集,利用了GitHub仓库singletongue/wikipedia-utils中公开的数据集。数据集包含日语文本,大小在10M到100M之间,遵循CC BY-SA 3.0和GFDL许可证。
该数据集是用于书籍《大規模言語モデル入門》的Wikipedia句子数据集,利用了GitHub仓库singletongue/wikipedia-utils中公开的数据集。数据集包含日语文本,大小在10M到100M之间,遵循CC BY-SA 3.0和GFDL许可证。
提供机构:
llm-book
原始信息汇总
数据集概述
基本信息
- 语言: 日语 (ja)
- 大小: 10M<n<100M
- 许可证:
- 知识共享署名-相同方式共享 3.0 (CC BY-SA 3.0)
- GNU自由文档许可证 (GFDL)
数据集结构
- 特征:
- 名称: text
- 数据类型: string
数据分割
- 训练集:
- 字节数: 3569619848
- 示例数: 24387500
下载与数据集大小
- 下载大小: 1297833377
- 数据集大小: 3569619848



