laion/Anh

Name: laion/Anh
Creator: laion
Published: 2023-03-21 19:00:53
License: 暂无描述

Hugging Face2023-03-21 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/laion/Anh

下载链接

链接失效反馈

官方服务：

资源简介：

Anh多语言聊天数据集包含约2400万条多语言合成指令，旨在用于聊天机器人的持续预训练和微调。数据集包括三个主要部分：cross_lingual.jsonl（约80万条），包含多语言和跨语言版本的Anh数据，覆盖了中文、越南语、俄语、马来语、葡萄牙语、日语、印尼语、印地语、法语、西班牙语和德语；xp3_sample.jsonl（约65万条），包含部分xp3数据集转换为标准人/助手格式的数据，覆盖43种语言；sungai_ul2_instructions.jsonl（约2300万条），包含基于cc100、OSCAR和mc4子集的140种语言的UL2指令集。数据集可能包含翻译不准确和不当内容，翻译由M2M 12B生成，输出限制在512个令牌内。数据集由LAION志愿者创作，采用Apache 2.0许可证发布，但也包含其他许可下的内容或基于合理使用原则的网络爬取数据。

提供机构：

laion

原始信息汇总

数据集概述

数据集名称

Anh multilingual chat dataset

数据集大小

总数据量约为24M条多语言合成指令。

数据集组成部分

cross_lingual.jsonl (~800000)
- 包含多语言和跨语言版本的Anh数据，格式为Human: instruction Assistant: response。
- 数据来源：从OIG数据集中翻译而来，包括synthic_qa, prosocial和anthropic数据。
- 覆盖语言：中文(zh), 越南语(vi), 俄语(ru), 马来语(ms), 葡萄牙语(pt), 日语(ja), 印尼语(id), 印地语(hi), 法语(fr), 西班牙语(es), 德语(de)。
xp3_sample.jsonl (~650000)
- 包含部分xp3数据集转换的标准Human/Assistant格式数据。
- 覆盖语言：xp3数据集覆盖的43种语言。
sungai_ul2_instructions.jsonl (~23000000)
- 包含基于140种语言的UL2类指令集，数据来源于cc100, OSCAR和mc4的子集。

数据集使用注意事项

翻译可能存在不准确性。
UL2文件中的网页文本可能包含不适当内容，因其基于网络爬取数据。
翻译由M2M 12B生成，输出限制在512个tokens以内，受限于VRAM限制（40G）。

许可证

数据集由LAION志愿者创作，根据Apache 2.0许可证发布。
数据集中也包含根据其他许可协议授权的内容，以及根据合理使用原则使用的网络爬取数据。

5,000+

优质数据集

54 个

任务类型

进入经典数据集