BAAI/JudgeLM-data-collection-v1.0

Name: BAAI/JudgeLM-data-collection-v1.0
Creator: BAAI
Published: 2023-10-30 03:53:59
License: 暂无描述

Hugging Face2023-10-30 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/BAAI/JudgeLM-data-collection-v1.0

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集名为JudgeLM-data-collection-v1.0，旨在为评估JudgeLM模型提供便利。它包含了由大型语言模型生成的答案以及一个名为MM-Vet的多模态基准测试。数据集的文件结构包括多个JSONL文件，这些文件可能包含模型的输出、预处理脚本和参考数据。数据集的语言为英语，遵循CC BY-NC 4.0许可。

This dataset, titled JudgeLM-data-collection-v1.0, is developed to facilitate the evaluation of the JudgeLM model. It encompasses answers generated by large language models and a multimodal benchmark named MM-Vet. The file structure of the dataset comprises multiple JSONL files, which may contain model outputs, preprocessing scripts, and reference data. The dataset is in English and is released under the CC BY-NC 4.0 license.

提供机构：

BAAI

原始信息汇总

数据集卡片 for JudgeLM-data-collection

数据集描述

数据集概述

该数据集旨在方便使用和评估 JudgeLM。我们包含了 LLMs 生成的答案和一个多模态基准 MM-Vet。文件夹结构如下：

文件夹结构

data ├── JudgeLM/ │ ├── answers/ │ │ ├── alpaca_judgelm_val.jsonl | | ├── ... │ ├── judgelm_preprocess.py │ ├── judgelm_val_5k.jsonl │ ├── judgelm_val_5k_gpt4.jsonl │ ├── judgelm_val_5k_gpt4_with_reference.jsonl │ ├── judgelm_val_5k_references.jsonl ├── MM-Vet/ │ ├── mm-vet-emu-prediction.json │ ├── mm-vet-gt.json │ ├── mm-vet-judge-samples.jsonl │ ├── mmvet_preprocess.py

您可以直接将此数据集集合放入 /JudgeLM/judgelm 中以更好地使用。

语言

Alpaca 中的数据为英语。

附加信息

许可信息

该数据集在 Creative Commons NonCommercial (CC BY-NC 4.0) 许可下可用。

引用信息

@article{zhu2023judgelm,
title={JudgeLM: Fine-tuned Large Language Models are Scalable Judges},
author={Lianghui Zhu and Xinggang Wang and Xinlong Wang},
year={2023},
eprint={2310.17631},
archivePrefix={arXiv},
primaryClass={cs.CL}
}

搜集汇总

数据集介绍

构建方式

BAAI/JudgeLM-data-collection-v1.0数据集的构建旨在便于使用与评估JudgeLM模型。该数据集包括大型语言模型生成的答案及多模态基准MM-Vet，通过收集与整理相关数据，构建出适合于指令微调任务的文本生成数据集。数据集的文件夹结构清晰，分别包含不同格式的答案数据与预处理脚本，便于研究者直接使用。

特点

本数据集的特色在于其包含了由LLM模型生成的答案，以及用于评估的多模态基准MM-Vet。所有数据均以英语呈现，且数据集遵循Creative Commons NonCommercial 4.0许可，保证了数据的合法共享与使用。此外，其结构化的数据存储方式，使得数据易于访问与处理，提高了研究的便捷性。

使用方法

使用该数据集时，用户可以直接将数据集放入指定目录下，以便更好地与JudgeLM模型相配合。数据集中的文件格式包括jsonl和json，这些文件包含了必要的输入与输出数据，以及参考答案，可供模型训练与评估之用。预处理脚本 judgelm_preprocess.py 亦提供了数据处理的支持，使得用户能够更高效地进行数据准备与模型训练。

背景与挑战

背景概述

在自然语言处理领域，对于评估大型语言模型的能力，特别是在指令微调方面，存在迫切需求。BAAI/JudgeLM-data-collection-v1.0数据集应运而生，旨在为研究者提供一个易于使用和评估JudgeLM模型的平台。该数据集由北京航空航天大学等机构的研究人员于2023年创建，其核心研究问题是提高大型语言模型在判断任务中的准确性和可靠性。数据集的发布对相关领域产生了重要影响，为评估和改进语言模型提供了新的方法和基准。

当前挑战

BAAI/JudgeLM-data-collection-v1.0数据集在构建过程中面临了多重挑战。首先，确保数据质量的一致性和准确性至关重要，这需要在数据预处理和标注阶段进行严格的质量控制。其次，构建一个包含多模态基准的综合性数据集，如MM-Vet，需要克服数据融合和整合的技术难题。此外，数据集在解决领域问题，例如利用LLM生成的答案进行评估时，面临着如何准确反映模型性能的挑战，以及如何平衡数据集中不同类型和难度任务的代表性。

常用场景

经典使用场景

在自然语言处理领域，尤其是在文本生成任务中，JudgeLM-data-collection-v1.0数据集提供了一个重要的资源。该数据集包含大型语言模型生成的答案以及多模态基准MM-Vet，使得研究者能够便捷地使用和评估JudgeLM模型。经典的使用场景包括对LLM生成的文本进行质量评估，以及通过多模态数据对模型的多模态理解能力进行验证。

解决学术问题

该数据集解决了学术研究中对于大型语言模型评估的难题，提供了丰富的标注数据和多模态样本，有助于学术界深入理解模型的性能边界，特别是在文本生成和评估方面。其意义在于促进了模型的可解释性和评估标准的建立，对提升自然语言处理技术的准确性和可靠性具有显著影响。

衍生相关工作

基于JudgeLM-data-collection-v1.0数据集，学术界已衍生出一系列相关研究工作。这些研究包括对JudgeLM模型的进一步细化和优化，以及利用该数据集进行的各种文本生成和评估任务。这些工作推动了自然语言处理技术的进步，并为后续研究提供了重要的基础数据集。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集