METEOR Domain Data

github2024-11-21 更新2024-12-07 收录

下载链接：

https://github.com/DIRECT-BIT/METEOR

下载链接

链接失效反馈

官方服务：

资源简介：

METEOR域数据集用于验证METEOR方法在高级计算机教育领域的有效性。数据集从Stack Overflow上爬取，涵盖机器学习（ML）、深度学习（DL）、自然语言处理（NLP）和计算机视觉（CV）四个类别，总计10,276条数据。

The METEOR Domain Dataset is designed to validate the effectiveness of the METEOR method in the field of advanced computer education. This dataset was crawled from Stack Overflow, covering four categories: Machine Learning (ML), Deep Learning (DL), Natural Language Processing (NLP), and Computer Vision (CV), with a total of 10,276 data entries.

创建时间：

2024-11-21

原始信息汇总

METEOR: Evolutionary Journey of Large Language Models from Guidance to Self-Growth

数据集概述

数据集内容

领域: 高级计算机教育
类别:
- 机器学习 (ML)
- 深度学习 (DL)
- 自然语言处理 (NLP)
- 计算机视觉 (CV)
数据规模: 总计 10,276 条数据

数据来源

数据爬取: 从 Stack Overflow 爬取

数据下载

下载地址: https://github.com/DirectionAI/METEOR/tree/main/code/data/raw

数据处理

阶段1: 弱到强领域数据蒸馏
- 指南生成: 使用 LLMs 生成领域数据指南
- 数据蒸馏: 结合领域特定问题与指南，通过 GPT-4 API 蒸馏高质量领域数据
- 领域微调: 使用蒸馏的高质量领域数据微调模型
阶段2: 数据精炼与迭代训练
- 数据精炼: 模型使用 CoT 推理生成答案和推理路径，由 GPT-4 评估并提供反馈
- 迭代训练: 累积数据达到整数倍时，使用该批次数据微调模型
阶段3: 自训练
- 自训练方法: 基于对比学习，使模型自主增强其能力

数据评估

评估标准: 使用 GPT-4 评估数据质量和模型性能
评估维度: 准确性、完整性、相关性、连贯性和可靠性

数据集使用

许可证:
- 代码: Apache 2.0
- 数据: CC BY-NC 4.0
- 模型权重: GNU AGPL 3.0

引用

@misc{li2024meteorevolutionaryjourneylarge, title={METEOR: Evolutionary Journey of Large Language Models from Guidance to Self-Growth}, author={Jiawei Li and Chong Feng and Yang Gao}, year={2024}, eprint={2411.11933}, archivePrefix={arXiv}, primaryClass={cs.LG}, url={https://arxiv.org/abs/2411.11933}, }

搜集汇总

数据集介绍

构建方式

METEOR Domain Data数据集的构建基于一个三阶段的进化框架，旨在从弱到强逐步提升大型语言模型（LLMs）的领域知识。首先，通过从Stack Overflow抓取的机器学习、深度学习、自然语言处理和计算机视觉四个领域的数据，共计10,276条，进行初步的数据收集。随后，利用LLMs生成领域特定的指导方针，并通过GPT-4 API进行数据提炼，生成高质量的领域数据。最后，通过迭代训练和自我训练策略，进一步优化模型，使其在特定领域内表现卓越。

使用方法

使用METEOR Domain Data数据集时，首先需下载从Stack Overflow抓取的原始数据，并根据提供的指导方针进行数据提炼。随后，通过迭代训练和自我训练脚本，对模型进行微调和优化。评估阶段，利用GPT-4 API对模型生成的答案进行多维度的评分，包括准确性、完整性、相关性、连贯性和可靠性，以确保模型在特定领域的高效表现。

背景与挑战

背景概述

METEOR Domain Data数据集是由Jiawei Li、Chong Feng和Yang Gao等研究人员于2024年创建的，旨在支持大型语言模型（LLMs）从监督指导到自主增强的进化过程。该数据集的核心研究问题是如何通过逐步的计算扩展，使LLMs从基础领域知识的获取进化到自主能力的提升。METEOR数据集通过引入一个全面的三个阶段进化框架，显著提升了LLMs在特定领域的表现，如机器学习、深度学习、自然语言处理和计算机视觉等。这一研究对推动LLMs在专业领域的能力提升具有重要影响。

当前挑战

METEOR Domain Data数据集在构建过程中面临多项挑战。首先，如何从Stack Overflow等平台高效且准确地抓取高质量的领域数据是一个关键问题。其次，数据集在弱到强数据蒸馏、迭代训练和自训练策略的实施过程中，需要确保数据的质量和模型的稳定性。此外，使用GPT-4作为评估工具，虽然提高了评估的准确性，但也增加了计算成本和复杂性。最后，如何在保证模型性能提升的同时，避免过拟合和数据偏差，是该数据集需要持续解决的问题。

常用场景

经典使用场景

METEOR Domain Data数据集的经典使用场景主要体现在大型语言模型（LLMs）的领域能力进化过程中。通过该数据集，研究者可以实施从弱到强的数据蒸馏、迭代训练和自训练策略，逐步提升模型在特定领域（如机器学习、深度学习、自然语言处理和计算机视觉）的知识获取和任务执行能力。这一过程不仅优化了模型的准确性和可靠性，还显著提高了其在复杂任务中的表现。

解决学术问题

METEOR Domain Data数据集解决了大型语言模型在特定领域知识获取和能力提升方面的常见学术问题。通过提供高质量的领域数据和系统的训练方法，该数据集帮助研究者克服了模型在处理专业领域任务时的局限性，如数据噪声、模型复杂度和泛化能力不足等问题。这不仅提升了模型的学术研究价值，也为实际应用中的性能优化提供了理论支持。

实际应用

在实际应用中，METEOR Domain Data数据集被广泛用于提升大型语言模型在特定领域的任务执行能力。例如，在教育领域，该数据集可用于开发智能辅导系统，帮助学生更好地理解和掌握复杂的计算机科学概念。此外，在工业界，该数据集支持开发更精准的自动化工具和系统，如智能客服、数据分析和预测模型，从而提高生产效率和决策质量。

数据集最近研究