robust-finetuning
收藏Hugging Face2024-08-06 更新2024-12-12 收录
下载链接:
https://huggingface.co/datasets/appier-ai-research/robust-finetuning
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含多个配置,每个配置都有特定的特征、数据类型和分割。配置包括'arc_challenge'、'gpqa'、'gsm8k'、'humaneval'、'math'、'math-resample'、'mbpp'、'mbpp-merged'和'mbppplus'。每个配置详细描述了数据的结构,包括列的名称和类型,以及训练、测试和验证分割的大小和数量。README还提到了每个数据集的来源和一些数据集的使用条款。
创建时间:
2024-08-06
原始信息汇总
数据集概述
数据集配置
arc_challenge
- 特征:
- id: string
- question: string
- choices:
- text: string
- label: string
- answerKey: string
- 拆分:
- train: 349760 字节, 1119 样本
- test: 375511 字节, 1172 样本
- validation: 96660 字节, 299 样本
- 下载大小: 449538 字节
- 数据集大小: 821931 字节
gpqa
- 特征:
- Pre-Revision Question: string
- Pre-Revision Correct Answer: string
- Pre-Revision Incorrect Answer 1: string
- Pre-Revision Incorrect Answer 2: string
- Pre-Revision Incorrect Answer 3: string
- Pre-Revision Explanation: string
- Self-reported question-writing time (minutes): float64
- Question: string
- Correct Answer: string
- Incorrect Answer 1: string
- Incorrect Answer 2: string
- Incorrect Answer 3: string
- Explanation: string
- Revision Comments (from Question Writer): string
- Subdomain: string
- Writers Difficulty Estimate: string
- Extra Revised Question: string
- Extra Revised Explanation: string
- Extra Revised Correct Answer: string
- Extra Revised Incorrect Answer 1: string
- Extra Revised Incorrect Answer 2: string
- Extra Revised Incorrect Answer 3: string
- Non-Expert Validator Accuracy: float64
- Majority Non-Expert Vals Incorrect: float64
- Expert Validator Accuracy: float64
- Record ID: string
- High-level domain: string
- Question Writer: string
- Feedback_EV_1: string
- Validator Revision Suggestion_EV_1: string
- Is First Validation_EV_1: bool
- Post hoc agreement_EV_1: string
- Sufficient Expertise?_EV_1: string
- Understand the question?_EV_1: string
- Question Difficulty_EV_1: string
- Validator Answered Correctly_EV_1: int64
- Self-reported time (minutes)_EV_1: float64
- Probability Correct_EV_1: string
- Manual Correctness Adjustment_EV_1: string
- Expert Validator_EV_1: string
- Feedback_EV_2: string
- Validator Revision Suggestion_EV_2: string
- Is First Validation_EV_2: bool
- Post hoc agreement_EV_2: string
- Sufficient Expertise?_EV_2: string
- Understand the question?_EV_2: string
- Question Difficulty_EV_2: string
- Validator Answered Correctly_EV_2: int64
- Self-reported time (minutes)_EV_2: float64
- Probability Correct_EV_2: string
- Manual Correctness Adjustment_EV_2: string
- Expert Validator_EV_2: string
- Feedback_NEV_1: string
- Validator Answered Correctly_NEV_1: int64
- Explanation_NEV_1: string
- Self-reported time (minutes)_NEV_1: float64
- Websites visited_NEV_1: string
- Probability Correct_NEV_1: string
- Manual Correctness Adjustment_NEV_1: string
- Non-Expert Validator_NEV_1: string
- Feedback_NEV_2: string
- Validator Answered Correctly_NEV_2: int64
- Explanation_NEV_2: string
- Self-reported time (minutes)_NEV_2: float64
- Websites visited_NEV_2: string
- Probability Correct_NEV_2: string
- Manual Correctness Adjustment_NEV_2: float64
- Non-Expert Validator_NEV_2: string
- Feedback_NEV_3: string
- Validator Answered Correctly_NEV_3: float64
- Explanation_NEV_3: string
- Self-reported time (minutes)_NEV_3: float64
- Websites visited_NEV_3: string
- Probability Correct_NEV_3: string
- Manual Correctness Adjustment_NEV_3: float64
- Non-Expert Validator_NEV_3: string
- Expert Validator Disagreement Category: float64
- Canary String: string
- 拆分:
- train: 3300242 字节, 448 样本
- 下载大小: 1829012 字节
- 数据集大小: 3300242 字节
gsm8k
- 特征:
- question: string
- answer: string
- 拆分:
- train: 3963202 字节, 7473 样本
- test: 713732 字节, 1319 样本
- 下载大小: 2725633 字节
- 数据集大小: 4676934 字节
humaneval
- 特征:
- task_id: string
- prompt: string
- canonical_solution: string
- entry_point: string
- test: string
- 拆分:
- test: 10962161 字节, 164 样本
- 下载大小: 2903135 字节
- 数据集大小: 10962161 字节
math
- 特征:
- problem: string
- level: string
- type: string
- solution: string
- 拆分:
- train: 5984772 字节, 7500 样本
- test: 3732833 字节, 5000 样本
- 下载大小: 4848009 字节
- 数据集大小: 9717605 字节
math-resample
- 特征:
- problem: string
- level: string
- type: string
- solution: string
- conversations:
- from: string
- value: string
- 拆分:
- train: 11252694 字节, 6766 样本
- validation: 1193267 字节, 734 样本
- test: 1573077 字节, 1000 样本
- 下载大小: 6670411 字节
- 数据集大小: 14019038 字节
mbpp
- 特征:
- task_id: int32
- text: string
- code: string
- test_list: sequence: string
- test_setup_code: string
- challenge_test_list: sequence: string
- 拆分:
- train: 176879 字节, 374 样本
- test: 244104 字节, 500 样本
- validation: 42405 字节, 90 样本
- prompt: 4550 字节, 10 样本
- 下载大小: 236141 字节
- 数据集大小: 467938 字节
mbpp-merged
- 特征:
- task_id: int64
- text: string
- code: string
- test_list: sequence: string
- conversations:
- from: string
- value: string
- test: string
- source_file: string
- test_imports: sequence: string
- 拆分:
- train: 432503 字节, 374 样本
- validation: 103890 字节, 90 样本
- test: 5080802 字节, 378 样本
- 下载大小: 1434969 字节
- 数据集大小: 5617195 字节
mbppplus
- 特征:
- task_id: int64
- code: string
- prompt: string
- source_file: string
- test_imports: sequence: string
- test_list: sequence: string
- test: string
- 拆分:
- test: 4841266 字节, 378 样本
- 下载大小: 1129135 字节
- 数据集大小: 4841266 字节
搜集汇总
数据集介绍

构建方式
robust-finetuning数据集通过整合多个公开数据集构建而成,涵盖了数学推理、编程任务、问答系统等多个领域。数据集的构建过程包括从原始数据集中提取关键特征,并对其进行标准化处理,以确保数据的一致性和可用性。每个子集均经过精心设计,旨在为模型提供多样化的训练和测试场景,从而增强其泛化能力。
特点
该数据集的特点在于其多样性和复杂性,涵盖了从基础数学问题到高级编程挑战的广泛任务。数据集中的每个子集都经过精心设计,以确保任务类型的多样性和难度层次的平衡。此外,数据集还包含了对话格式的数据,使得模型能够在多轮对话场景中进行训练和测试,进一步提升其在实际应用中的表现。
使用方法
使用robust-finetuning数据集时,用户可以通过Hugging Face的`load_dataset`函数加载特定子集。数据集支持训练、验证和测试三种划分,用户可以根据需求选择相应的子集进行模型训练和评估。加载后,数据集中的每个样本都包含详细的任务描述和对应的答案或解决方案,用户可以直接将其用于模型的输入和输出处理。
背景与挑战
背景概述
robust-finetuning数据集是一个多任务数据集,旨在支持模型在多个领域的鲁棒微调。该数据集整合了多个子集,包括GSM8K、MATH、HumanEval+、MBPP、ARC Challenge和GPQA等,涵盖了数学推理、编程任务、常识问答等多个领域。这些子集由不同的研究机构或团队创建,例如GSM8K由OpenAI发布,MATH由Hendrycks等人贡献,HumanEval+和MBPP+则由EvalPlus团队扩展。robust-finetuning数据集的创建旨在为模型提供多样化的训练和测试场景,以提升其在复杂任务中的泛化能力和鲁棒性。该数据集对自然语言处理、机器学习和人工智能领域的研究具有重要意义,尤其是在模型微调和评估方面。
当前挑战
robust-finetuning数据集面临的主要挑战包括:1) 领域多样性带来的模型泛化问题。由于数据集涵盖了数学、编程、常识问答等多个领域,模型需要具备跨领域的推理能力,这对模型的架构和训练策略提出了更高要求。2) 数据质量和一致性问题。不同子集的数据来源和标注标准各异,可能导致数据噪声或标注不一致,影响模型的训练效果。3) 构建过程中的技术挑战。例如,GPQA数据集的使用需要遵守严格的许可协议,限制了其广泛使用;而MATH数据集的子采样(如math-resample)需要确保数据的平衡性和代表性,这对数据预处理提出了较高要求。这些挑战需要在数据集的构建和使用过程中加以解决,以确保其在实际应用中的有效性。
常用场景
经典使用场景
在自然语言处理领域,robust-finetuning数据集广泛应用于模型微调任务,特别是在问答系统和数学问题求解场景中。该数据集通过提供多样化的训练样本,帮助模型在复杂问题中表现出更强的泛化能力。例如,gsm8k子集被广泛用于训练和评估模型在数学问题解答中的表现,而arc_challenge则用于测试模型在科学推理任务中的能力。
解决学术问题
robust-finetuning数据集解决了模型在特定领域微调时遇到的泛化能力不足问题。通过提供丰富的训练样本和多样化的任务类型,该数据集帮助研究人员验证模型在不同任务中的鲁棒性。例如,math-resample子集通过重新采样数学问题,确保模型在低资源环境下仍能保持较高的性能,从而推动了低资源学习领域的研究进展。
衍生相关工作
robust-finetuning数据集衍生了许多经典研究工作,特别是在模型微调和任务泛化领域。例如,基于gsm8k子集的研究推动了数学问题求解模型的性能提升,而基于arc_challenge的研究则促进了科学推理模型的发展。此外,该数据集还激发了大量关于低资源学习和多任务学习的创新研究,为自然语言处理领域提供了丰富的实验基础。
以上内容由遇见数据集搜集并总结生成



