five

ai4bharat/indic-align

收藏
Hugging Face2024-07-25 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/ai4bharat/indic-align
下载链接
链接失效反馈
官方服务:
资源简介:
IndicAlign数据集是一个包含14种印度语言的指令和毒性对齐数据集的多样化集合。该集合包括两个主要部分:IndicAlign - Instruct和IndicAlign - Toxic。IndicAlign - Instruct部分包括Indic-ShareLlama、Dolly-T、OpenAssistant-T、WikiHow、IndoWordNet、Anudesh、Wiki-Conv和Wiki-Chat等子数据集。IndicAlign - Toxic部分包括HHRLHF-T和Toxic-Matrix子数据集。数据集使用了IndicTrans2进行翻译,并提供了每个子数据集的详细描述和统计数据。

IndicAlign数据集是一个包含14种印度语言的指令和毒性对齐数据集的多样化集合。该集合包括两个主要部分:IndicAlign - Instruct和IndicAlign - Toxic。IndicAlign - Instruct部分包括Indic-ShareLlama、Dolly-T、OpenAssistant-T、WikiHow、IndoWordNet、Anudesh、Wiki-Conv和Wiki-Chat等子数据集。IndicAlign - Toxic部分包括HHRLHF-T和Toxic-Matrix子数据集。数据集使用了IndicTrans2进行翻译,并提供了每个子数据集的详细描述和统计数据。
提供机构:
ai4bharat
原始信息汇总

IndicAlign 数据集概述

数据集基本信息

  • 许可证: cc-by-4.0
  • 名称: indic-align
  • 语言:
    • 阿萨姆语 (as)
    • 孟加拉语 (bn)
    • 古吉拉特语 (gu)
    • 英语 (en)
    • 印地语 (hi)
    • 卡纳达语 (kn)
    • 马拉雅拉姆语 (ml)
    • 马拉地语 (mr)
    • 尼泊尔语 (ne)
    • 奥里亚语 (or)
    • 旁遮普语 (pa)
    • 梵语 (sa)
    • 泰米尔语 (ta)
    • 泰卢固语 (te)
    • 乌尔都语 (ur)
  • 任务类别: 文本生成
  • 大小类别: 100M<n<1B

数据集配置信息

  • Indic_ShareLlama: 包含来自 ShareGPT 的用户提示和 Llama2-70B-Chat 模型的响应。
  • Dolly_T: Dolly-15K 的翻译和罗马化版本。
  • OpenAssistant_T: OpenAssistant v1 的翻译和罗马化版本。
  • WikiHow: WikiHow 的翻译和罗马化版本。
  • IndoWordNet: 将 IndoWordNet 条目转换为指令-响应对的创新数据集。
  • Anudesh: 由 Llama2-70B-Chat 模型生成响应的众包提示集合。
  • Wiki_Conv: 基于 Wikipedia 段落和 Wiki-Infoboxes 的简短对话集合。
  • Wiki_Chat: 基于 Wikipedia 段落的长篇开放对话集合。
  • HHRLHF_T: 来自 Anthropic HH-RLHF 的“有毒”提示和 Llama2-70B-Chat 模型的拒绝。
  • Toxic_Matrix: 使用 Mistral-7B Instruct 生成有毒提示和 Llama2-70B-Chat 模型的非有毒响应/拒绝的合成数据集。

数据集统计信息

组件 示例数量 平均轮次 平均指令长度 平均输出长度
Indic ShareLlama 21.1k 1 60.45 267.98
Dolly-T 15.0k 1 12.34 59.38
OpenAssistant-T 19.9k 2.98 25.72 136.37
WikiHow 20.3k 1 43.85 327.95
IndoWordNet 74,272.2k 1 19.74 14.84
Anudesh 36.8k 1.58 12.4 149.28
Wiki-Conv 144k 9.14 7.09 11.22
Wiki-Chat 202k 2.8 23 227.75
HH-RLHF-T 32.6k 1 14.11 64.88
Toxic Matrix 90.3k 1 33.68 89.64

引用

bibtex @misc{khan2024indicllmsuite, title={IndicLLMSuite: A Blueprint for Creating Pre-training and Fine-Tuning Datasets for Indian Languages}, author={Mohammed Safi Ur Rahman Khan and Priyam Mehta and Ananth Sankar and Umashankar Kumaravelan and Sumanth Doddapaneni and Suriyaprasaad G and Varun Balan G and Sparsh Jain and Anoop Kunchukuttan and Pratyush Kumar and Raj Dabre and Mitesh M. Khapra}, year={2024}, eprint={2403.06350}, archivePrefix={arXiv}, primaryClass={cs.CL} }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作