Trotter/Hinglish-Dataset-Collection
收藏Hugging Face2024-01-06 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Trotter/Hinglish-Dataset-Collection
下载链接
链接失效反馈官方服务:
资源简介:
该数据集收集自多个来源,旨在帮助在Hinglish(印地语-英语)语境下微调大型语言模型(LLM)。数据来源包括从Solshine数据集中清理和提取的印地语-英语合成数据,以及由Google Deepmind翻译成印地语的SQuAD v1.1问答数据集及其英文翻译。
该数据集收集自多个来源,旨在帮助在Hinglish(印地语-英语)语境下微调大型语言模型(LLM)。数据来源包括从Solshine数据集中清理和提取的印地语-英语合成数据,以及由Google Deepmind翻译成印地语的SQuAD v1.1问答数据集及其英文翻译。
提供机构:
Trotter
原始信息汇总
Hinglish(Hindi-English) 数据集概述
该数据集从多个来源收集,旨在帮助微调用于Hinglish语境的大型语言模型(LLM)。
数据来源
- hindi_syn1.jsonl:从Solshine Dataset中清理和提取的Hindi-English合成数据。
- xquad.hi.json:由Google Deepmind翻译成Hindi的SQuAD v1.1问答数据集。Repo
- xquad.en.json:xquad数据集的英文翻译版本。



