BAAI/AquilaEdu-Instruct
收藏Hugging Face2024-06-13 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/BAAI/AquilaEdu-Instruct
下载链接
链接失效反馈官方服务:
资源简介:
---
license: apache-2.0
---
# Data Description
The dataset comes from 5 different tasks: math word problems, commonsense reasoning, reading comprehension, subject knowledge, and instruction following. It involves 11 datasets, including Math23k, Ape210k, MetaMath, OpenbookQA, CommensenseQA, Arc-e, Arc-c, Race, MCTest. COIG, and Taoli.
## Data Selection
1. We first supplemented the COT process for the data and translated some English data sets into Chinese data sets.
2. Deita: We score the complexity of instrction and the quality of response.
## Data Statistics
The dataset contains 270,000 high-quality SFT education instances, in which the ratio of Chinese and English is 76%:24%. The Figure is as follows:

## Sample
```json
{
{
"instruction": "请依据以下问题,提出答案。",
"output": "假设乙盒中原来的糖果数量为x颗。\n根据题意,先从乙盒中取走了(1/4)x颗糖果,剩下的糖果数量为(3/4)x颗。\n再从乙盒中取走了剩下的(1/2)(3/4)x = (3/8)x颗糖果。\n所以,最后乙盒中剩下的糖果数量为(3/4)x - (3/8)x = (3/8)x颗。\n根据题意,甲、乙两盒的糖果总数为原来两盒糖果总数的50%,即:\n40 + (3/8)x = (1/2)(40 + x)\n将等式两边化简,得:\n40 + (3/8)x = 20 + (1/2)x\n将等式两边同时移项,得:\n(3/8)x - (1/2)x = 20 - 40\n将等式两边化简,得:\n(-1/8)x = -20\n将等式两边同时乘以-8,得:\nx = (-20)(-8) = 160\n所以,原来甲、乙两个盒子中的糖果共有40 + 160 = 200颗。 \n#### 答案是: 200.0",
"answer": "200.0",
"quality": 4.260541501059948,
"complexity": 3.0842046494197084,
"c_q_score": 13.140381906614715,
"input": "甲、乙两个盒子内分别装有糖果,已知甲盒内有40颗,先从乙盒内取走(1/4),再从乙盒内取走余下的(1/2),这时甲、乙两盒的糖果总数为原来两盒糖果总数的50%.则原来甲、乙两个盒子中的糖果共有多少颗."
}
}
```
许可证:Apache-2.0
# 数据集说明
本数据集涵盖5类不同任务:数学应用题、常识推理、阅读理解、学科知识及指令遵循,共包含11个子数据集,分别为Math23k、Ape210k、MetaMath、OpenbookQA、CommensenseQA、Arc-e、Arc-c、Race、MCTest、COIG及Taoli。
## 数据筛选
1. 我们首先为数据集补充了思维链(Chain of Thought,COT)过程,并将部分英文数据集翻译为中文数据集。
2. Deita评分方案:我们对指令的复杂度与回复质量进行打分。
## 数据统计
本数据集包含27万个高质量监督微调(Supervised Fine-Tuning,SFT)教育类样本,其中中文与英文样本占比为76%:24%。数据分布如图所示:

## 数据示例
json
{
{
"instruction": "请依据以下问题,提出答案。",
"output": "假设乙盒中原来的糖果数量为x颗。
根据题意,先从乙盒中取走了(1/4)x颗糖果,剩下的糖果数量为(3/4)x颗。
再从乙盒中取走了剩下的(1/2)(3/4)x = (3/8)x颗糖果。
所以,最后乙盒中剩下的糖果数量为(3/4)x - (3/8)x = (3/8)x颗。
根据题意,甲、乙两盒的糖果总数为原来两盒糖果总数的50%,即:
40 + (3/8)x = (1/2)(40 + x)
将等式两边化简,得:
40 + (3/8)x = 20 + (1/2)x
将等式两边同时移项,得:
(3/8)x - (1/2)x = 20 - 40
将等式两边化简,得:
(-1/8)x = -20
将等式两边同时乘以-8,得:
x = (-20)(-8) = 160
所以,原来甲、乙两个盒子中的糖果共有40 + 160 = 200颗。
#### 答案是: 200.0",
"answer": "200.0",
"quality": 4.260541501059948,
"complexity": 3.0842046494197084,
"c_q_score": 13.140381906614715,
"input": "甲、乙两个盒子内分别装有糖果,已知甲盒内有40颗,先从乙盒内取走(1/4),再从乙盒内取走余下的(1/2),这时甲、乙两盒的糖果总数为原来两盒糖果总数的50%.则原来甲、乙两个盒子中的糖果共有多少颗."
}
}
提供机构:
BAAI
原始信息汇总
数据集描述
该数据集来自5个不同的任务:数学应用题、常识推理、阅读理解、学科知识和指令遵循。涉及11个数据集,包括Math23k、Ape210k、MetaMath、OpenbookQA、CommesenseQA、Arc-e、Arc-c、Race、MCTest、COIG和Taoli。
数据选择
- 首先对数据补充了COT过程,并将部分英文数据集翻译成中文数据集。
- Deita:我们对指令的复杂度和响应的质量进行了评分。
数据统计
该数据集包含270,000个高质量的SFT教育实例,其中中文和英文的比例为76%:24%。
样本
json { { "instruction": "请依据以下问题,提出答案。", "output": "假设乙盒中原来的糖果数量为x颗。 根据题意,先从乙盒中取走了(1/4)x颗糖果,剩下的糖果数量为(3/4)x颗。 再从乙盒中取走了剩下的(1/2)(3/4)x = (3/8)x颗糖果。 所以,最后乙盒中剩下的糖果数量为(3/4)x - (3/8)x = (3/8)x颗。 根据题意,甲、乙两盒的糖果总数为原来两盒糖果总数的50%,即: 40 + (3/8)x = (1/2)(40 + x) 将等式两边化简,得: 40 + (3/8)x = 20 + (1/2)x 将等式两边同时移项,得: (3/8)x - (1/2)x = 20 - 40 将等式两边化简,得: (-1/8)x = -20 将等式两边同时乘以-8,得: x = (-20)(-8) = 160 所以,原来甲、乙两个盒子中的糖果共有40 + 160 = 200颗。
答案是: 200.0",
"answer": "200.0",
"quality": 4.260541501059948,
"complexity": 3.0842046494197084,
"c_q_score": 13.140381906614715,
"input": "甲、乙两个盒子内分别装有糖果,已知甲盒内有40颗,先从乙盒内取走(1/4),再从乙盒内取走余下的(1/2),这时甲、乙两盒的糖果总数为原来两盒糖果总数的50%.则原来甲、乙两个盒子中的糖果共有多少颗."
}
}
搜集汇总
数据集介绍

构建方式
在构建BAAI/AquilaEdu-Instruct数据集时,研究团队聚焦于教育领域的智能任务处理,通过整合数学应用题、常识推理、阅读理解、学科知识及指令遵循等五个核心任务,涵盖了Math23k、Ape210k、MetaMath等11个知名数据集。构建过程中,首先对部分数据补充了思维链过程,并将英文数据集翻译为中文,以增强跨语言适用性;随后采用Deita方法,对指令的复杂性和响应的质量进行量化评分,确保数据的高标准筛选。最终,该数据集汇集了27万条高质量监督微调实例,中英文比例优化为76%:24%,体现了多源融合与精细评估的科学构建理念。
使用方法
该数据集适用于教育大模型的监督微调阶段,用户可直接加载其结构化JSON格式,利用instruction和output字段进行模型训练,以提升在数学、推理等任务上的性能。实践中,建议结合质量与复杂度分数进行数据筛选或加权,优化训练样本的选择;同时,中英文混合内容支持多语言模型开发,用户可依据需求调整语言比例。数据集还可用于评估模型在教育场景下的泛化能力,通过输入问题验证输出逻辑的连贯性,推动智能教育系统的精准化发展。
背景与挑战
背景概述
随着人工智能在教育领域的深入应用,高质量的教育指令数据集成为推动智能教育系统发展的关键。BAAI/AquilaEdu-Instruct数据集由北京智源人工智能研究院于2023年构建,旨在通过融合数学问题、常识推理、阅读理解、学科知识及指令跟随等多类任务,为教育导向的大语言模型提供精细化的监督微调数据。该数据集整合了Math23k、Ape210k、MetaMath等11个知名子集,涵盖中英文双语内容,其构建不仅体现了跨任务知识融合的前沿理念,更通过数据复杂度与响应质量的量化评分,为教育智能体的能力优化奠定了坚实基础,对个性化学习支持与自适应教学系统的研发产生了深远影响。
当前挑战
在教育智能领域,构建能够处理多样化、高复杂度教育任务的数据集面临多重挑战。从领域问题视角,该数据集需应对数学推理、常识理解及跨学科知识整合等复杂认知任务的建模难题,要求模型兼具精准的逻辑推导与深层的语义解析能力。在构建过程中,挑战主要集中于数据质量的统一保障:一方面,需为原始数据补充思维链过程以增强可解释性,同时完成英文至中文的高保真翻译,确保语言与文化适配;另一方面,通过Deita框架对指令复杂度与响应质量进行量化评估,需平衡主观教育标准与客观度量指标,以筛选出兼具教学价值与训练效用的高质量实例。
常用场景
经典使用场景
在人工智能教育领域,BAAI/AquilaEdu-Instruct数据集凭借其涵盖数学应用题、常识推理、阅读理解、学科知识与指令遵循等多维任务,成为训练教育专用大语言模型的基石。该数据集通过精心整合Math23k、Ape210k、MetaMath等11个高质量子集,并辅以思维链增强与中英双语适配,为模型提供了结构化的教学交互范例,尤其适用于生成式AI在解题辅导与知识问答场景中的监督微调。
解决学术问题
该数据集有效应对了教育智能化进程中若干核心挑战:其一,缓解了高质量教学语料稀缺的困境,通过Deita方法对指令复杂度与响应质量进行量化筛选,确保了数据的可靠性与教育价值;其二,针对跨语言教育应用,实现了英文数据集向中文语境的转化,促进了本土化智能教育工具的发展;其三,其多任务融合特性为探索模型在复杂推理、知识融合与指令理解等方面的泛化能力提供了实证基础,推动了教育AI从简单问答向深层认知支持的演进。
实际应用
在实际教学环境中,基于该数据集训练的模型可部署为智能辅导系统,为学生提供即时、个性化的学科答疑服务,如数学问题分步解析、科学常识推理引导等。同时,其高质量的指令-响应对能够赋能教育内容生成,辅助教师设计练习题或编写教学材料。在语言学习领域,中英双语数据支持跨语言教学助手开发,帮助学习者通过对比理解提升语言与逻辑能力,从而在课堂辅助、在线教育平台及自适应学习系统中发挥切实作用。
数据集最近研究
最新研究方向
在教育领域的大语言模型发展中,BAAI/AquilaEdu-Instruct数据集凭借其涵盖数学问题、常识推理、阅读理解、学科知识及指令遵循等多任务的高质量指令微调数据,正成为推动教育智能化研究的关键资源。当前前沿研究聚焦于利用该数据集优化模型的复杂指令理解与推理能力,特别是在数学解题和跨学科知识融合方面,通过集成思维链(COT)增强与中英双语数据平衡处理,显著提升了模型在教育场景中的适应性与准确性。相关热点事件包括基于Deita框架的数据质量与复杂度评分机制的应用,这为数据筛选与模型训练效率提供了新范式,促进了教育大模型在个性化学习辅助与自动评估系统中的实践,对推动教育公平与智能化转型具有深远意义。
以上内容由遇见数据集搜集并总结生成



