laion/Anh
收藏Hugging Face2023-03-21 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/laion/Anh
下载链接
链接失效反馈官方服务:
资源简介:
Anh多语言聊天数据集包含约2400万条多语言合成指令,旨在用于聊天机器人的持续预训练和微调。数据集包括三个主要部分:cross_lingual.jsonl(约80万条),包含多语言和跨语言版本的Anh数据,覆盖了中文、越南语、俄语、马来语、葡萄牙语、日语、印尼语、印地语、法语、西班牙语和德语;xp3_sample.jsonl(约65万条),包含部分xp3数据集转换为标准人/助手格式的数据,覆盖43种语言;sungai_ul2_instructions.jsonl(约2300万条),包含基于cc100、OSCAR和mc4子集的140种语言的UL2指令集。数据集可能包含翻译不准确和不当内容,翻译由M2M 12B生成,输出限制在512个令牌内。数据集由LAION志愿者创作,采用Apache 2.0许可证发布,但也包含其他许可下的内容或基于合理使用原则的网络爬取数据。
Anh多语言聊天数据集包含约2400万条多语言合成指令,旨在用于聊天机器人的持续预训练和微调。数据集包括三个主要部分:cross_lingual.jsonl(约80万条),包含多语言和跨语言版本的Anh数据,覆盖了中文、越南语、俄语、马来语、葡萄牙语、日语、印尼语、印地语、法语、西班牙语和德语;xp3_sample.jsonl(约65万条),包含部分xp3数据集转换为标准人/助手格式的数据,覆盖43种语言;sungai_ul2_instructions.jsonl(约2300万条),包含基于cc100、OSCAR和mc4子集的140种语言的UL2指令集。数据集可能包含翻译不准确和不当内容,翻译由M2M 12B生成,输出限制在512个令牌内。数据集由LAION志愿者创作,采用Apache 2.0许可证发布,但也包含其他许可下的内容或基于合理使用原则的网络爬取数据。
提供机构:
laion
原始信息汇总
数据集概述
数据集名称
Anh multilingual chat dataset
数据集大小
- 总数据量约为24M条多语言合成指令。
数据集组成部分
-
cross_lingual.jsonl (~800000)
- 包含多语言和跨语言版本的Anh数据,格式为
Human: instruction Assistant: response。 - 数据来源:从OIG数据集中翻译而来,包括synthic_qa, prosocial和anthropic数据。
- 覆盖语言:中文(zh), 越南语(vi), 俄语(ru), 马来语(ms), 葡萄牙语(pt), 日语(ja), 印尼语(id), 印地语(hi), 法语(fr), 西班牙语(es), 德语(de)。
- 包含多语言和跨语言版本的Anh数据,格式为
-
xp3_sample.jsonl (~650000)
- 包含部分xp3数据集转换的标准Human/Assistant格式数据。
- 覆盖语言:xp3数据集覆盖的43种语言。
-
sungai_ul2_instructions.jsonl (~23000000)
- 包含基于140种语言的UL2类指令集,数据来源于cc100, OSCAR和mc4的子集。
数据集使用注意事项
- 翻译可能存在不准确性。
- UL2文件中的网页文本可能包含不适当内容,因其基于网络爬取数据。
- 翻译由M2M 12B生成,输出限制在512个tokens以内,受限于VRAM限制(40G)。
许可证
- 数据集由LAION志愿者创作,根据Apache 2.0许可证发布。
- 数据集中也包含根据其他许可协议授权的内容,以及根据合理使用原则使用的网络爬取数据。



