aaditya/databricks-dolly-15k-Hinglish-Codemix
收藏Hugging Face2024-01-25 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/aaditya/databricks-dolly-15k-Hinglish-Codemix
下载链接
链接失效反馈官方服务:
资源简介:
`aaditya/databricks-dolly-15k-Hindi` 是一个开源的Hinglish-Codemix版本的数据集,基于databricks/databricks-dolly-15k。该数据集可用于任何目的,无论是学术还是商业用途,遵循Creative Commons Attribution-ShareAlike 3.0 Unported License。支持的任务包括训练大型语言模型(LLMs)、合成数据生成和数据增强。数据集语言为印地语,版本为1.0。
`aaditya/databricks-dolly-15k-Hindi` 是一个开源的Hinglish-Codemix版本的数据集,基于databricks/databricks-dolly-15k。该数据集可用于任何目的,无论是学术还是商业用途,遵循Creative Commons Attribution-ShareAlike 3.0 Unported License。支持的任务包括训练大型语言模型(LLMs)、合成数据生成和数据增强。数据集语言为印地语,版本为1.0。
提供机构:
aaditya
原始信息汇总
数据集概述
数据集信息
- 名称:
aaditya/databricks-dolly-15k-Hindi - 版本: 1.0
- 语言: 印地语
- 标签: 印地语, 代码混合, 印英混合
- 许可: Creative Commons Attribution-ShareAlike 3.0 Unported License
特征
- en_instruction: 字符串
- en_input: 字符串
- en_output: 字符串
- id: 字符串
- en_category: 字符串
- codemix_instruction: 字符串
- codemix_input: 字符串
- codemix_output: 字符串
- codemix_category: 字符串
数据分割
- 训练集:
- 样本数: 15011
- 字节数: 24382493
下载和数据集大小
- 下载大小: 15777048 字节
- 数据集大小: 24382493 字节
配置
- 默认配置:
- 数据文件:
- 分割: 训练
- 路径:
data/train-*
- 数据文件:
支持的任务
- 训练大型语言模型
- 合成数据生成
- 数据增强
引用
@misc {dolly_hinglish, author = { Pal, Ankit }, title = { databricks-dolly-15k-Hinglish-Codemix (Revision ca228c8) }, year = 2024, url = { https://huggingface.co/datasets/aaditya/databricks-dolly-15k-Hinglish-Codemix }, doi = { 10.57967/hf/1677 }, publisher = { Hugging Face } }



