ai4bharat/indic-align

Name: ai4bharat/indic-align
Creator: ai4bharat
Published: 2024-07-25 03:38:13
License: 暂无描述

Hugging Face2024-07-25 更新2024-06-22 收录

下载链接：

https://hf-mirror.com/datasets/ai4bharat/indic-align

下载链接

链接失效反馈

官方服务：

资源简介：

IndicAlign数据集是一个包含14种印度语言的指令和毒性对齐数据集的多样化集合。该集合包括两个主要部分：IndicAlign - Instruct和IndicAlign - Toxic。IndicAlign - Instruct部分包括Indic-ShareLlama、Dolly-T、OpenAssistant-T、WikiHow、IndoWordNet、Anudesh、Wiki-Conv和Wiki-Chat等子数据集。IndicAlign - Toxic部分包括HHRLHF-T和Toxic-Matrix子数据集。数据集使用了IndicTrans2进行翻译，并提供了每个子数据集的详细描述和统计数据。

提供机构：

ai4bharat

原始信息汇总

IndicAlign 数据集概述

数据集基本信息

许可证: cc-by-4.0
名称: indic-align
语言:
- 阿萨姆语 (as)
- 孟加拉语 (bn)
- 古吉拉特语 (gu)
- 英语 (en)
- 印地语 (hi)
- 卡纳达语 (kn)
- 马拉雅拉姆语 (ml)
- 马拉地语 (mr)
- 尼泊尔语 (ne)
- 奥里亚语 (or)
- 旁遮普语 (pa)
- 梵语 (sa)
- 泰米尔语 (ta)
- 泰卢固语 (te)
- 乌尔都语 (ur)
任务类别: 文本生成
大小类别: 100M<n<1B

数据集配置信息

Indic_ShareLlama: 包含来自 ShareGPT 的用户提示和 Llama2-70B-Chat 模型的响应。
Dolly_T: Dolly-15K 的翻译和罗马化版本。
OpenAssistant_T: OpenAssistant v1 的翻译和罗马化版本。
WikiHow: WikiHow 的翻译和罗马化版本。
IndoWordNet: 将 IndoWordNet 条目转换为指令-响应对的创新数据集。
Anudesh: 由 Llama2-70B-Chat 模型生成响应的众包提示集合。
Wiki_Conv: 基于 Wikipedia 段落和 Wiki-Infoboxes 的简短对话集合。
Wiki_Chat: 基于 Wikipedia 段落的长篇开放对话集合。
HHRLHF_T: 来自 Anthropic HH-RLHF 的“有毒”提示和 Llama2-70B-Chat 模型的拒绝。
Toxic_Matrix: 使用 Mistral-7B Instruct 生成有毒提示和 Llama2-70B-Chat 模型的非有毒响应/拒绝的合成数据集。

数据集统计信息

组件	示例数量	平均轮次	平均指令长度	平均输出长度
Indic ShareLlama	21.1k	1	60.45	267.98
Dolly-T	15.0k	1	12.34	59.38
OpenAssistant-T	19.9k	2.98	25.72	136.37
WikiHow	20.3k	1	43.85	327.95
IndoWordNet	74,272.2k	1	19.74	14.84
Anudesh	36.8k	1.58	12.4	149.28
Wiki-Conv	144k	9.14	7.09	11.22
Wiki-Chat	202k	2.8	23	227.75
HH-RLHF-T	32.6k	1	14.11	64.88
Toxic Matrix	90.3k	1	33.68	89.64

引用

bibtex @misc{khan2024indicllmsuite, title={IndicLLMSuite: A Blueprint for Creating Pre-training and Fine-Tuning Datasets for Indian Languages}, author={Mohammed Safi Ur Rahman Khan and Priyam Mehta and Ananth Sankar and Umashankar Kumaravelan and Sumanth Doddapaneni and Suriyaprasaad G and Varun Balan G and Sparsh Jain and Anoop Kunchukuttan and Pratyush Kumar and Raj Dabre and Mitesh M. Khapra}, year={2024}, eprint={2403.06350}, archivePrefix={arXiv}, primaryClass={cs.CL} }

5,000+

优质数据集

54 个

任务类型

进入经典数据集