sft_dataset_20k

Hugging Face2025-12-01 更新2025-12-02 收录

下载链接：

https://huggingface.co/datasets/MedVita/sft_dataset_20k

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个包含16,411条记录和10个字段的数据集，主要包含越南语和英语两种语言的数据，涵盖了多种任务类型，如编程、数学、指令、总结、对话、翻译等。所有数据都属于'common'领域。数据集来源于多个不同的数据集，如'instruct_general_dataset'、'aya_collection_language_split'等。

This is a dataset containing 16,411 records and 10 fields, mainly comprising data in two languages: Vietnamese and English. It covers various task types such as programming, mathematics, instruction, summarization, dialogue, translation, and more. All data belongs to the 'common' domain. The dataset is sourced from multiple distinct datasets, including "instruct_general_dataset", "aya_collection_language_split", and others.

创建时间：

2025-11-26

原始信息汇总

MedVita/sft_dataset_20k 数据集概述

1. 基本信息

数据集名称: sft_dataset_20k
文件: sft_data_common_20k_cleaned.parquet
语言: 越南语 (vi), 英语 (en)
标签: sft
规模分类: 10K<n<100K
总行数: 16,411
列数: 10
数据尺寸: 16,411 × 10

2. 数据结构 (Schema)

序号	列名	数据类型	非空计数	非空比例
1	`doc_id`	object	16,411	100.0%
2	`provided_dataset`	object	16,411	100.0%
3	`lang`	object	16,411	100.0%
4	`task`	object	16,411	100.0%
5	`messages`	object	16,411	100.0%
6	`meta_filtered`	object	16,411	100.0%
7	`canonical_hash`	object	16,411	100.0%
8	`tools`	object	8,871	54.1%
9	`parallel_tool_calls`	object	8,844	53.9%
10	`domain`	object	16,411	100.0%

3. 数据分布

3.1 按语言 (`lang`)

语言	数量	比例
越南语 (vi)	8,402	51.2%
英语 (en)	8,009	48.8%

3.2 按任务 (`task`)

任务	数量	比例
code	1,995	12.2%
math	1,994	12.2%
instruction	1,968	12.0%
summarize	1,961	11.9%
dialogue	1,945	11.9%
translation	1,920	11.7%
daily	1,622	9.9%
qa	1,551	9.5%
classification	1,455	8.9%

3.3 按领域 (`domain`)

领域	数量	比例
common	16,411	100.0%

4. 数据来源 (`provided_dataset`)

序号	来源数据集	数量	比例
1	`instruct_general_dataset`	5,879	35.8%
2	`aya_collection_language_split`	2,921	17.8%
3	`infinity_instruct_7m`	2,849	17.4%
4	`smoltalk2`	1,345	8.2%
5	`lmsys_chat_1m`	905	5.5%
6	`nemotron`	574	3.5%
7	`tulu3`	484	2.9%
8	`openhermes_2_5`	370	2.3%
9	`wildchat_1m`	294	1.8%
10	`ultrachat_200k`	230	1.4%
11	`acereason_1_1_sft`	211	1.3%
12	`webscale_rl`	197	1.2%
13	`ViSpanExtractQA`	39	0.2%
14	`chatbot_arena_conversations`	38	0.2%
15	`mmlu5_options`	29	0.2%

5. 组合分布 (Top 15)

5.1 语言 × 任务

语言	任务	数量	比例
vi	math	1,000	6.1%
vi	classification	1,000	6.1%
vi	code	999	6.1%
en	code	996	6.1%
en	summarize	994	6.1%
en	math	994	6.1%
en	dialogue	987	6.0%
vi	instruction	985	6.0%
en	instruction	983	6.0%
en	translation	973	5.9%
en	daily	968	5.9%
vi	summarize	967	5.9%
vi	dialogue	958	5.8%
vi	translation	947	5.8%
vi	qa	892	5.4%

5.2 领域 × 语言

领域	语言	数量	比例
common	vi	8,402	51.2%
common	en	8,009	48.8%

6. 补充统计

包含 tools 列的行数: 8,871 (54.1%)
包含 parallel_tool_calls 列的行数: 8,844 (53.9%)
唯一值数量:
- doc_id: 16,411
- provided_dataset: 18
- canonical_hash: 16,411
可视化图表: https://cdn-uploads.huggingface.co/production/uploads/6908e31ea9baafa42b5139ba/8T-Yom_1cTiygu0sNwVm_.png

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，高质量指令数据集对于监督式微调模型的性能提升至关重要。sft_dataset_20k的构建源于对多个开源指令数据集的系统整合与清洗，其核心来源包括instruct_general_dataset、aya_collection_language_split及infinity_instruct_7m等共计18个知名数据集。构建过程通过统一的模式规范，将原始数据映射至包含对话消息、任务类型及语言标签的结构化字段，并运用哈希去重技术确保样本唯一性，最终形成一个包含16,411条样本的平衡双语语料库。

特点

该数据集在任务多样性与语言覆盖上展现出显著特色。其内容均衡分布于越南语与英语，比例接近一比一，涵盖了代码生成、数学推理、文本摘要、对话模拟及翻译等九大核心任务类别，每种任务占比均维持在9%至13%之间，确保了任务表征的广泛性。尤为突出的是，超过半数的样本配备了工具调用及并行工具调用元数据，为研究智能体与工具增强的语言模型提供了丰富的情景数据。所有样本均归属于通用领域，使其成为跨任务模型微调的基准资源。

使用方法

研究者与开发者可通过加载Parquet格式文件直接访问该数据集，其标准化的列结构便于进行数据筛选与分析。典型应用场景包括用于监督式微调训练双语或多任务语言模型，用户可依据lang字段选择特定语言子集，或根据task字段针对性地构建专业领域的训练数据。对于工具学习研究，可利用tools与parallel_tool_calls字段筛选出相关样本，以探索模型在工具使用与组合调用方面的能力。数据集亦适用于评估模型在代码、数学及分类等细分任务上的跨语言泛化性能。

背景与挑战

背景概述

在自然语言处理领域，监督式微调（SFT）是提升大型语言模型指令遵循与任务泛化能力的关键技术。sft_dataset_20k数据集应运而生，旨在为多语言、多任务场景下的模型微调提供高质量、结构化的训练语料。该数据集由越南语与英语双语构成，涵盖代码生成、数学推理、指令理解、文本摘要、对话、翻译、日常问答、问答及分类等九大核心任务，数据规模达一万六千余条，其构建整合了instruct_general_dataset、aya_collection_language_split、infinity_instruct_7m等十余个开源数据集资源。该数据集的创建反映了研究社区对于构建通用、可扩展的SFT基准的迫切需求，尤其为越南语等资源相对匮乏的语言在复杂任务上的模型能力评估与优化提供了重要支撑。

当前挑战

该数据集致力于解决多语言、多任务监督式微调中的核心挑战，即如何在一个统一框架下有效处理不同语言、不同任务范式间的差异，并确保模型具备稳健的跨任务泛化与语言适应能力。具体挑战体现在：其一，任务多样性带来的表征对齐难题，如代码生成的结构化输出与开放式对话的自由文本需在统一序列建模中协调；其二，语言资源不均衡问题，尽管越南语与英语样本量接近，但越南语在复杂推理任务上的高质量数据获取与标注仍具难度；其三，数据构建过程中面临多源异构数据的整合挑战，需对来自十余个不同来源的数据进行去重、清洗、格式标准化与质量过滤，以确保数据一致性与可靠性，同时部分任务如工具调用数据存在缺失，需在后续使用中妥善处理。

常用场景

经典使用场景

在自然语言处理领域，sft_dataset_20k作为一个精心构建的监督微调数据集，其经典使用场景集中于多任务指令遵循模型的训练与评估。该数据集涵盖了代码生成、数学推理、文本摘要、对话生成、翻译、问答及分类等九大任务，并均衡融合了越南语和英语双语样本，为研究者提供了一个跨语言、多领域的统一基准平台。通过其结构化的消息序列和工具调用标注，该数据集能够有效支撑模型在复杂指令理解与执行能力上的系统性优化，尤其适用于探索大语言模型在多样化现实任务中的泛化性能与适应性。

解决学术问题

该数据集主要解决了当前大语言模型研究中的若干关键学术问题，包括跨语言任务统一建模的挑战、多任务协同学习的效率瓶颈，以及工具增强型对话系统的可扩展性难题。通过整合来自18个高质量开源数据源的16,411条样本，并确保任务与语言的均衡分布，它为模型提供了丰富的监督信号，有助于缓解数据偏差与领域过拟合现象。其意义在于推动了指令微调技术的标准化进程，为评估模型在代码、数学等专业领域的推理能力提供了可靠的数据基础，进而促进了多语言人工智能系统向更公平、更鲁棒的方向发展。

衍生相关工作

围绕sft_dataset_20k，已衍生出一系列聚焦于高效指令微调与多任务学习的经典研究工作。这些工作通常借鉴其多源数据集成与任务平衡的设计理念，进一步探索了参数高效微调、任务间知识迁移以及跨语言对齐等前沿方向。部分研究利用该数据集的工具调用标注，推动了工具学习与规划决策模型的联合训练框架发展；另一些工作则以其双语结构为基础，深入研究了低资源语言与高资源语言之间的表示共享与能力迁移机制，为构建更通用的多语言大模型提供了重要的实验依据与方法论启示。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集