UPDESH1

Name: UPDESH1
Creator: 微软公司, 南洋理工大学, 东北大学, 独立研究员
Published: 2025-09-25 23:13:00
License: 暂无描述

arXiv2025-09-25 更新2025-11-21 收录

下载链接：

https://hf-mirror.com/datasets/microsoft/Updesh_beta

下载链接

链接失效反馈

官方服务：

资源简介：

UPDESH1是一个高质量的、大规模的合成指令遵循数据集，包含950万条数据点，覆盖13种印度语言。它包括多样化的推理和生成任务，重点在于增强长上下文和多轮对话能力，并提高与印度文化环境的契合度。数据集的创建采用了一种自下而上的生成策略，通过提示大型开源LLMs（参数≥235B）将数据生成扎根于语言特定的维基百科内容。评估结果显示，生成的数据质量高，但在人类评估中也指出了需要改进的特定领域。

UPDESH1 is a high-quality, large-scale synthetic instruction-following dataset containing 9.5 million data points spanning 13 Indian languages. It encompasses diverse reasoning and generation tasks, with a focus on enhancing long-context and multi-turn conversation capabilities, as well as improving alignment with Indian cultural contexts. The dataset was developed using a bottom-up generation strategy, where large open-source LLMs (with parameters ≥235B) are prompted to generate data grounded in language-specific Wikipedia content. Evaluation results demonstrate that the generated data is of high quality, though human evaluators have also identified specific domains that require further improvement.

提供机构：

微软公司, 南洋理工大学, 东北大学, 独立研究员

创建时间：

2025-09-25

搜集汇总

数据集介绍

构建方式

在构建多语言人工智能系统的背景下，UPDESH1数据集通过自底向上的生成策略创建，利用大型开源语言模型（参数≥235B）以语言特定的维基百科内容为基础生成数据。该方法结合了翻译高质量英语推理数据集和基于检索增强的生成技术，涵盖13种印度语言，总计生成950万条数据点。生成过程包括严格的自动化质量控制，如语言识别和重复检测，确保数据的高质量和多样性。

特点

UPDESH1数据集以其大规模、高质量和多语言覆盖为特点，特别强调长上下文和多轮对话能力，同时增强与印度文化背景的对齐。数据集包含推理和生成两个互补子集，推理数据通过翻译现有高质量数据集获得，生成数据则利用维基百科内容确保事实准确性和文化相关性。其独特之处在于结合了文化语境和语言自然性，有效弥补了低资源语言的表示差距，并通过自动化评估和人工标注验证了数据的整体质量。

使用方法

UPDESH1数据集主要用于监督微调，以提升多语言模型的指令遵循和生成能力。用户可通过标准微调框架（如Axolotl）加载数据集，对预训练模型进行训练，重点关注生成任务和长上下文处理。评估时，建议使用多语言基准测试，涵盖自然语言理解、生成和指令遵循任务，以全面衡量模型在低资源语言上的性能提升。数据集的设计支持跨语言泛化，尤其适用于需要文化敏感性和语言多样性的实际应用场景。

背景与挑战

背景概述

UPDESH1数据集由微软研究院联合南洋理工大学、东北大学等机构于2025年推出，旨在应对多语言文化人工智能系统开发中的资源稀缺问题。该数据集聚焦印度语言场景，通过自底向上的生成策略，利用大规模开源语言模型基于语言特定维基百科内容构建合成数据，涵盖13种印度语言的950万条指令遵循数据。其核心研究在于探索合成数据在低资源语言环境下的有效性，推动多语言模型在推理生成任务中的长上下文与多轮对话能力发展，同时增强对印度文化语境的适应性，为构建更具包容性的人工智能系统提供实证基础。

当前挑战

该数据集致力于解决多语言文化AI系统中低资源语言性能不足与西方文化偏见主导的领域挑战，具体包括语言资源分布不均导致的模型泛化困难，以及文化特异性缺失引发的语义失真问题。在构建过程中，面临生成质量控制的复杂性，需克服低资源语言合成数据的事实准确性不足与文化错位风险；同时需平衡自动化评估与人工验证的效能，确保语言正确性、文化适当性等多维度质量指标的有效衡量。

常用场景

经典使用场景

在多语言人工智能系统开发领域，UPDESH1数据集为指令微调提供了关键支撑。该数据集通过自底向上的生成策略，利用大型开源语言模型基于语言特定的维基百科内容生成数据，有效补充了传统自上而下翻译方法的不足。其950万条数据点覆盖13种印度语言，特别强调增强长文本和多轮对话能力，同时提升与印度文化背景的契合度。在低资源语言环境下，该数据集成为提升模型多语言理解与生成能力的重要训练资源。

实际应用

在实际应用层面，UPDESH1数据集为印度多语言服务场景提供了重要支持。基于该数据集训练的模型能够更好地处理印度各地区的文化特定内容，包括传统节日、地方美食、艺术形式等本土知识。在客服对话、内容创作、教育辅助等场景中，模型展现出更准确的文化理解和语言表达能力。特别是在政府服务、医疗咨询等需要精准文化适配的领域，该数据集帮助构建了更具包容性的AI系统。

衍生相关工作

UPDESH1数据集推动了多语言合成数据生成方法的研究进展。其采用的检索增强生成策略启发了后续工作在文化接地数据构建方面的探索。基于该数据集的实验框架为多语言评估标准建立提供了参考，特别是在低资源语言质量评估方面。相关工作开始关注合成数据在跨文化对话系统、本土知识问答等场景的应用，促进了多语言AI技术向更细粒度文化适配方向发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集