five

laion/Anh

收藏
Hugging Face2023-03-21 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/laion/Anh
下载链接
链接失效反馈
官方服务:
资源简介:
Anh多语言聊天数据集包含约2400万条多语言合成指令,旨在用于聊天机器人的持续预训练和微调。数据集包括三个主要部分:cross_lingual.jsonl(约80万条),包含多语言和跨语言版本的Anh数据,覆盖了中文、越南语、俄语、马来语、葡萄牙语、日语、印尼语、印地语、法语、西班牙语和德语;xp3_sample.jsonl(约65万条),包含部分xp3数据集转换为标准人/助手格式的数据,覆盖43种语言;sungai_ul2_instructions.jsonl(约2300万条),包含基于cc100、OSCAR和mc4子集的140种语言的UL2指令集。数据集可能包含翻译不准确和不当内容,翻译由M2M 12B生成,输出限制在512个令牌内。数据集由LAION志愿者创作,采用Apache 2.0许可证发布,但也包含其他许可下的内容或基于合理使用原则的网络爬取数据。

Anh多语言聊天数据集包含约2400万条多语言合成指令,旨在用于聊天机器人的持续预训练和微调。数据集包括三个主要部分:cross_lingual.jsonl(约80万条),包含多语言和跨语言版本的Anh数据,覆盖了中文、越南语、俄语、马来语、葡萄牙语、日语、印尼语、印地语、法语、西班牙语和德语;xp3_sample.jsonl(约65万条),包含部分xp3数据集转换为标准人/助手格式的数据,覆盖43种语言;sungai_ul2_instructions.jsonl(约2300万条),包含基于cc100、OSCAR和mc4子集的140种语言的UL2指令集。数据集可能包含翻译不准确和不当内容,翻译由M2M 12B生成,输出限制在512个令牌内。数据集由LAION志愿者创作,采用Apache 2.0许可证发布,但也包含其他许可下的内容或基于合理使用原则的网络爬取数据。
提供机构:
laion
原始信息汇总

数据集概述

数据集名称

Anh multilingual chat dataset

数据集大小

  • 总数据量约为24M条多语言合成指令。

数据集组成部分

  1. cross_lingual.jsonl (~800000)

    • 包含多语言和跨语言版本的Anh数据,格式为Human: instruction Assistant: response
    • 数据来源:从OIG数据集中翻译而来,包括synthic_qa, prosocial和anthropic数据。
    • 覆盖语言:中文(zh), 越南语(vi), 俄语(ru), 马来语(ms), 葡萄牙语(pt), 日语(ja), 印尼语(id), 印地语(hi), 法语(fr), 西班牙语(es), 德语(de)。
  2. xp3_sample.jsonl (~650000)

    • 包含部分xp3数据集转换的标准Human/Assistant格式数据。
    • 覆盖语言:xp3数据集覆盖的43种语言。
  3. sungai_ul2_instructions.jsonl (~23000000)

    • 包含基于140种语言的UL2类指令集,数据来源于cc100, OSCAR和mc4的子集。

数据集使用注意事项

  • 翻译可能存在不准确性。
  • UL2文件中的网页文本可能包含不适当内容,因其基于网络爬取数据。
  • 翻译由M2M 12B生成,输出限制在512个tokens以内,受限于VRAM限制(40G)。

许可证

  • 数据集由LAION志愿者创作,根据Apache 2.0许可证发布。
  • 数据集中也包含根据其他许可协议授权的内容,以及根据合理使用原则使用的网络爬取数据。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作