ai4bharat/indic-align
收藏Hugging Face2024-07-25 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/ai4bharat/indic-align
下载链接
链接失效反馈官方服务:
资源简介:
IndicAlign数据集是一个包含14种印度语言的指令和毒性对齐数据集的多样化集合。该集合包括两个主要部分:IndicAlign - Instruct和IndicAlign - Toxic。IndicAlign - Instruct部分包括Indic-ShareLlama、Dolly-T、OpenAssistant-T、WikiHow、IndoWordNet、Anudesh、Wiki-Conv和Wiki-Chat等子数据集。IndicAlign - Toxic部分包括HHRLHF-T和Toxic-Matrix子数据集。数据集使用了IndicTrans2进行翻译,并提供了每个子数据集的详细描述和统计数据。
IndicAlign数据集是一个包含14种印度语言的指令和毒性对齐数据集的多样化集合。该集合包括两个主要部分:IndicAlign - Instruct和IndicAlign - Toxic。IndicAlign - Instruct部分包括Indic-ShareLlama、Dolly-T、OpenAssistant-T、WikiHow、IndoWordNet、Anudesh、Wiki-Conv和Wiki-Chat等子数据集。IndicAlign - Toxic部分包括HHRLHF-T和Toxic-Matrix子数据集。数据集使用了IndicTrans2进行翻译,并提供了每个子数据集的详细描述和统计数据。
提供机构:
ai4bharat
原始信息汇总
IndicAlign 数据集概述
数据集基本信息
- 许可证: cc-by-4.0
- 名称: indic-align
- 语言:
- 阿萨姆语 (as)
- 孟加拉语 (bn)
- 古吉拉特语 (gu)
- 英语 (en)
- 印地语 (hi)
- 卡纳达语 (kn)
- 马拉雅拉姆语 (ml)
- 马拉地语 (mr)
- 尼泊尔语 (ne)
- 奥里亚语 (or)
- 旁遮普语 (pa)
- 梵语 (sa)
- 泰米尔语 (ta)
- 泰卢固语 (te)
- 乌尔都语 (ur)
- 任务类别: 文本生成
- 大小类别: 100M<n<1B
数据集配置信息
- Indic_ShareLlama: 包含来自 ShareGPT 的用户提示和 Llama2-70B-Chat 模型的响应。
- Dolly_T: Dolly-15K 的翻译和罗马化版本。
- OpenAssistant_T: OpenAssistant v1 的翻译和罗马化版本。
- WikiHow: WikiHow 的翻译和罗马化版本。
- IndoWordNet: 将 IndoWordNet 条目转换为指令-响应对的创新数据集。
- Anudesh: 由 Llama2-70B-Chat 模型生成响应的众包提示集合。
- Wiki_Conv: 基于 Wikipedia 段落和 Wiki-Infoboxes 的简短对话集合。
- Wiki_Chat: 基于 Wikipedia 段落的长篇开放对话集合。
- HHRLHF_T: 来自 Anthropic HH-RLHF 的“有毒”提示和 Llama2-70B-Chat 模型的拒绝。
- Toxic_Matrix: 使用 Mistral-7B Instruct 生成有毒提示和 Llama2-70B-Chat 模型的非有毒响应/拒绝的合成数据集。
数据集统计信息
| 组件 | 示例数量 | 平均轮次 | 平均指令长度 | 平均输出长度 |
|---|---|---|---|---|
| Indic ShareLlama | 21.1k | 1 | 60.45 | 267.98 |
| Dolly-T | 15.0k | 1 | 12.34 | 59.38 |
| OpenAssistant-T | 19.9k | 2.98 | 25.72 | 136.37 |
| WikiHow | 20.3k | 1 | 43.85 | 327.95 |
| IndoWordNet | 74,272.2k | 1 | 19.74 | 14.84 |
| Anudesh | 36.8k | 1.58 | 12.4 | 149.28 |
| Wiki-Conv | 144k | 9.14 | 7.09 | 11.22 |
| Wiki-Chat | 202k | 2.8 | 23 | 227.75 |
| HH-RLHF-T | 32.6k | 1 | 14.11 | 64.88 |
| Toxic Matrix | 90.3k | 1 | 33.68 | 89.64 |
引用
bibtex @misc{khan2024indicllmsuite, title={IndicLLMSuite: A Blueprint for Creating Pre-training and Fine-Tuning Datasets for Indian Languages}, author={Mohammed Safi Ur Rahman Khan and Priyam Mehta and Ananth Sankar and Umashankar Kumaravelan and Sumanth Doddapaneni and Suriyaprasaad G and Varun Balan G and Sparsh Jain and Anoop Kunchukuttan and Pratyush Kumar and Raj Dabre and Mitesh M. Khapra}, year={2024}, eprint={2403.06350}, archivePrefix={arXiv}, primaryClass={cs.CL} }



