Hindi Instruct V1 Dataset

github2023-12-23 更新2024-05-31 收录

下载链接：

https://github.com/pacman100/openhathi_instruct

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集由Sourab Mangrulkar策划，基于HuggingFaceH4/no_robots数据集开发。首先使用ai4bharat/indictrans2-en-indic-1B翻译模型进行翻译，处理输入输出序列长度限制为256的问题。数据集用于训练模型以遵循指令并在印地语和印英混合语中进行对话。

This dataset was curated by Sourab Mangrulkar and developed based on the HuggingFaceH4/no_robots dataset. Initially, the ai4bharat/indictrans2-en-indic-1B translation model was employed to translate the data, addressing the issue of input and output sequence length limitations set at 256. The dataset is designed to train models to follow instructions and engage in dialogues in Hindi and Hindi-English code-mixed languages.

创建时间：

2023-12-22

原始信息汇总

数据集概述

数据集名称

Hindi Instruct V1 Dataset

数据集来源

该数据集由Sourab Mangrulkar创建，基于HuggingFaceH4/no_robots数据集。

数据集处理

使用ai4bharat/indictrans2-en-indic-1B模型进行翻译。
输入和输出序列长度限制为256，通过分割句子并创建翻译的minibatches来处理。

数据集特点

移除了所有编程相关的样本，以减少对Hindi指令微调的干扰。
引入了英语和Hinglish指令，以指导模型对英语用户消息用Hindi回复，并使用CoT提示First write in English and then translate to Hindi来增强响应质量。
通过概率为0.2的方式，在英语用户消息后添加提示，如Hindi mein jawab dena.，以促进模型用Hindi回复。

数据集应用

用于微调Bilingual OpenHathi模型，使其能够遵循指令并在Hindi和Hinglish中进行聊天。

数据集链接

smangrul/hindi_instruct_v1

搜集汇总

数据集介绍

构建方式

Hindi Instruct V1 数据集的构建基于 `HuggingFaceH4/no_robots` 数据集，通过 AI4Bharat 开发的 `ai4bharat/indictrans2-en-indic-1B` 翻译模型将英文内容翻译为印地语。为确保翻译质量，输入和输出序列的长度限制为 256 个字符，因此将句子按句号分割后进行批量翻译，并在翻译完成后重新拼接。此外，数据集还移除了所有与编程相关的内容，以避免对印地语指令调优产生干扰。通过添加英文和印地语混合的指令提示，模型能够在用户输入英文时以印地语进行回复，并引入了链式思维（CoT）提示，进一步提升模型的响应质量。

使用方法

使用该数据集时，用户可以通过加载 Hugging Face 平台上的数据集文件，并利用提供的预处理函数对数据进行进一步处理。数据集支持多种指令格式，用户可以根据需求添加特定的提示词，如“Reply in Hindi”或“First write in English and then translate to Hindi”，以引导模型生成符合预期的回复。此外，数据集还支持印地语与英语混合的指令，用户可以通过设置不同的提示词组合，实现从英语到印地语、印地语到英语、以及印地语到 Hinglish 的翻译任务。通过灵活使用这些提示词，用户能够训练出适应多种语言环境的指令跟随模型。

背景与挑战

背景概述

Hindi Instruct V1 数据集由 Sourab Mangrulkar 开发，旨在为印地语和 Hinglish（印地语与英语的混合语言）提供指令遵循和对话生成能力。该数据集基于 HuggingFaceH4/no_robots 数据集构建，并通过 AI4Bharat 开发的 SoTA 翻译模型 `ai4bharat/indictrans2-en-indic-1B` 进行翻译。数据集的核心研究问题在于如何有效地将英语指令数据集转化为印地语和 Hinglish 语境下的高质量对话数据，以支持多语言模型的训练。该数据集的创建标志着印地语自然语言处理领域的重要进展，为印地语和 Hinglish 的对话系统开发提供了宝贵资源。

当前挑战

Hindi Instruct V1 数据集在构建过程中面临多重挑战。首先，翻译过程中需要处理输入和输出序列的长度限制（256个字符），这要求对长文本进行分块翻译并重新拼接，增加了数据处理的复杂性。其次，数据集中包含的编程示例在印地语指令调优中可能成为噪声，因此需要手动筛选和移除这些样本。此外，为了增强模型的链式思维（Chain of Thoughts）能力，数据集引入了特定的提示语（如“First write in English and then translate to Hindi”），这要求对数据进行精细的预处理和标注。最后，如何在保持语言多样性的同时确保翻译的准确性和流畅性，也是数据集构建中的一大挑战。

常用场景

经典使用场景

Hindi Instruct V1 数据集主要用于训练和微调双语模型，使其能够理解和生成印地语和印英混合语（Hinglish）的指令响应。该数据集通过对英文指令的翻译和本地化处理，生成了大量的印地语和Hinglish对话样本，特别适用于开发能够处理多语言指令的对话系统。

解决学术问题

该数据集解决了多语言自然语言处理中的关键问题，特别是在印地语和Hinglish语境下的指令理解和生成。通过提供高质量的翻译和本地化对话数据，研究者能够更好地训练模型，使其在印地语和Hinglish环境中表现出色。这不仅提升了模型的多语言能力，还为印地语地区的自然语言处理研究提供了重要的数据支持。

实际应用

在实际应用中，Hindi Instruct V1 数据集可以用于开发智能助手、聊天机器人以及多语言翻译系统。特别是在印度等印地语和Hinglish广泛使用的地区，该数据集能够帮助构建更加本地化和用户友好的AI系统，提升用户体验。此外，该数据集还可用于教育领域，帮助学生学习印地语和英语的双语转换。

数据集最近研究