MDCure-72k

Name: MDCure-72k
Creator: Yale NLP Lab
Published: 2024-10-30 11:59:06
License: 暂无描述

Hugging Face2024-10-30 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/yale-nlp/MDCure-72k

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含三个特征：指令、答案和分数，均为字符串或浮点数类型。数据集分为训练集，包含72000个样本，总大小为797782722.0字节。下载大小为461012455字节。数据集配置为默认配置，训练数据文件路径为'data/train-*'。

提供机构：

Yale NLP Lab

创建时间：

2024-10-30

原始信息汇总

MDCure-72k 数据集概述

基本信息

语言: 英语 (en)
许可证: MIT

数据集结构

特征

instruction: 字符串类型 (string)
answer: 字符串类型 (string)
score: 浮点数类型 (float64)

分割

train:
- 样本数量: 72,000
- 字节数: 797,782,722.0

数据集大小

下载大小: 461,012,455 字节
数据集大小: 797,782,722.0 字节

配置

配置名称: default
- 数据文件:
  - 分割: train
  - 路径: data/train-*

搜集汇总

数据集介绍

构建方式

MDCure-72k数据集的构建采用了MDCure流程，该流程旨在生成高质量的多文档指令调优数据。首先，通过GPT-3.5-Turbo生成多文档问题和答案对，随后利用专门设计的MDCureRM模型对这些数据进行细粒度评分和筛选，以确保最终数据集的指令对具有高质量。整个过程结合了多文档指令生成、评分筛选和模型调优，旨在提升大语言模型在多文档任务中的表现。

特点

MDCure-72k数据集包含72,000个多文档指令-答案对，每个指令输入包含两个或更多相关文档，并附带一个多文档问题或提示。每个问题或提示还包含一个简短的句子或短语，指示答案的预期长度。答案则是对问题的适当回应，且符合指定的长度要求。数据集以parquet格式提供，仅包含训练数据，每个样本包括指令、答案和MDCureRM评分三个属性。

使用方法

用户可以通过Hugging Face的Datasets库轻松下载和使用MDCure-72k数据集。使用`load_dataset`函数加载数据集后，可以直接访问训练数据中的样本。此外，用户还可以结合MDCureRM模型对指令-答案对进行评分，或使用已发布的MDCure调优模型进行多文档任务的研究和开发。

背景与挑战

背景概述

MDCure-72k数据集由耶鲁大学自然语言处理团队于2024年发布，旨在提升大语言模型（LLMs）在多文档（MD）指令跟随任务中的表现。该数据集通过MDCure流程生成，结合了多文档指令调优技术，显著增强了模型在处理多文档任务时的能力。MDCure-72k包含72,000条多文档指令-答案对，每条指令输入包含两个或更多相关文档，并附带一个多文档问题或提示。该数据集的构建基于NewSHead数据集，并通过GPT-3.5-Turbo生成问题和答案，最终使用MDCureRM模型进行评分和筛选，确保数据的高质量。MDCure-72k的发布为多文档任务的研究提供了重要的数据支持，推动了LLMs在复杂文档处理领域的应用。

当前挑战

MDCure-72k数据集在构建和应用过程中面临多重挑战。首先，多文档指令跟随任务本身具有复杂性，模型需要同时理解多个文档的上下文信息，并生成符合要求的答案，这对模型的推理能力和上下文理解能力提出了极高要求。其次，数据集的构建过程中，如何确保生成的多文档指令和答案的多样性和高质量是一个关键问题。尽管使用了GPT-3.5-Turbo生成数据，但仍需通过MDCureRM模型进行精细评分和筛选，以确保数据的可靠性和有效性。此外，数据集的规模较大，处理和存储这些数据对计算资源提出了较高要求，如何在有限资源下高效完成数据处理和模型训练也是一个重要挑战。

常用场景

经典使用场景

MDCure-72k数据集在自然语言处理领域中被广泛应用于多文档指令调优任务。通过该数据集，研究人员能够训练和优化大型语言模型（LLMs），使其在处理多文档上下文时表现出更强的理解和生成能力。经典的使用场景包括多文档问答、文本摘要生成以及文本到文本的转换任务。该数据集通过提供高质量的多文档指令-答案对，显著提升了模型在多文档任务中的表现。

解决学术问题

MDCure-72k数据集有效解决了多文档指令调优中的关键学术问题，特别是在提升模型对多文档上下文的理解和生成能力方面。通过引入MDCureRM评分模型，该数据集能够筛选出高质量的指令数据，从而确保模型在训练过程中获得更精确的反馈。这一方法不仅降低了数据筛选的成本，还显著提高了模型在多文档任务中的性能，为多文档处理领域的研究提供了新的思路和工具。

衍生相关工作

MDCure-72k数据集的发布催生了一系列相关研究工作，特别是在多文档处理领域。基于该数据集，研究人员开发了多种多文档指令调优模型，如MDCure-FlanT5系列和MDCure-Qwen2系列。这些模型在多文档问答、文本摘要生成等任务中表现出色，进一步推动了多文档处理技术的发展。此外，MDCureRM评分模型的引入也为多文档数据筛选提供了新的方法，激发了更多关于数据质量评估的研究。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集