five

fnnerd/Baatcheet_Hinglish_English_Translation_Corpus

收藏
Hugging Face2024-04-16 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/fnnerd/Baatcheet_Hinglish_English_Translation_Corpus
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是一个开源的、高质量的英语与Hinglish(一种用英语字母书写的印地语)之间的翻译语料库。数据集涵盖了多种语境下的对话,包括家庭聊天、商业、政治、新闻和技术等,这些对话在印度的日常交流中非常常见。数据集由ChatGPT GPT-3.5-turbo精心策划和创建,确保了数据的清洁性和准确性。数据集主要用于文本生成和翻译模型的训练,且仅限于研究用途。

该数据集是一个开源的、高质量的英语与Hinglish(一种用英语字母书写的印地语)之间的翻译语料库。数据集涵盖了多种语境下的对话,包括家庭聊天、商业、政治、新闻和技术等,这些对话在印度的日常交流中非常常见。数据集由ChatGPT GPT-3.5-turbo精心策划和创建,确保了数据的清洁性和准确性。数据集主要用于文本生成和翻译模型的训练,且仅限于研究用途。
提供机构:
fnnerd
原始信息汇总

数据集概述

名称: L00ny/Baatcheet_Hinglish_English_Translation_Corpus

描述: 该数据集是一个开源的高质量翻译集合,涵盖英语与Hinglish(一种使用英文字母书写的印地语形式)之间的翻译。数据集包含多种类型的对话,涉及家庭聊天、商业、政治、新闻和技术等多个领域,适用于印度日常交流。

语言: Hinglish, English

来源: 数据集源自ChatGPT GPT-3.5-turbo。

用途: 可用于训练文本生成和翻译模型。

结构: 数据集包含双语文本对,例如:

  • {en: The Indian startup funding scene is getting more competitive., hi_ng: Bharatiya startup funding parivesh mein aur takkar ka samna ho raha hai.}
  • {en: "I need to finish this project by tomorrow, can you help me?", hi_ng: mujhe kal tak iss project ko khatam karna hai, kya aap meri madad kar sakte hai?}

联系方式:

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作