MDCure-12k

Name: MDCure-12k
Creator: Yale NLP Lab
Published: 2024-10-30 11:56:43
License: 暂无描述

Hugging Face2024-10-30 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/yale-nlp/MDCure-12k

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含三个特征：instruction（指令）、answer（答案）和score（分数），均为字符串或浮点数类型。数据集分为一个训练集，包含12000个样本，总大小为167304315字节。数据集的下载大小为95752019字节。配置信息显示数据集有一个默认配置，训练数据文件位于'data/train-*'路径下。

提供机构：

Yale NLP Lab

创建时间：

2024-10-30

原始信息汇总

MDCure-12k 数据集概述

数据集信息

许可证: MIT
特征:
- instruction: 类型为 string
- answer: 类型为 string
- score: 类型为 float64
分割:
- train: 包含 12000 个样本，占用 167304315.0 字节
下载大小: 95752019 字节
数据集大小: 167304315.0 字节

配置

配置名称: default
数据文件:
- train: 路径为 data/train-*

搜集汇总

数据集介绍

构建方式

MDCure-12k数据集的构建采用了MDCure流程，该流程通过生成多样化的多文档指令，并利用MDCureRM模型进行细粒度评分和筛选，最终形成高质量的多文档指令数据集。具体而言，数据集中的指令输入包含两个或更多来自NewSHead数据集的相关文档，随后是一个与上下文文档相关的多文档问题或提示。每个问题或提示还包括一个简短的句子或短语，指示答案的预期长度。所有问题和答案均通过GPT-3.5-Turbo生成，并通过MDCureRM进行评分和过滤，以确保最终数据集的高质量。

特点

MDCure-12k数据集包含12,000个多文档指令-答案对，每个数据样本包含三个关键属性：指令、答案和评分。指令部分由源文档和相关问题或提示组成，并附带答案的预期长度指示；答案部分是对指令输入的响应；评分部分则由MDCureRM模型对指令-答案对进行评分。该数据集旨在提升大语言模型在多文档指令跟随任务中的表现，具有高度的多样性和质量保证。

使用方法

用户可以通过Hugging Face的Datasets库轻松下载和使用MDCure-12k数据集。使用Python代码加载数据集后，用户可以访问训练集中的数据样本，并查看每个样本的指令、答案和评分信息。该数据集适用于多文档问答、文本生成等任务，能够有效提升模型在多文档场景下的表现。此外，用户还可以结合MDCureRM模型对数据进行进一步筛选和优化，以满足特定任务的需求。

背景与挑战

背景概述

MDCure-12k数据集由耶鲁大学自然语言处理团队于2024年发布，旨在提升大语言模型（LLMs）在多文档指令跟随任务中的表现。该数据集基于MDCure流程构建，通过生成多样化的多文档指令，并利用MDCureRM模型进行精细评分与筛选，最终形成高质量的多文档指令数据集。MDCure-12k包含12,000条多文档指令-答案对，每条指令输入包含两个或更多相关文档，并附带一个多文档问题或提示。该数据集的发布为多文档任务的研究提供了重要资源，显著提升了LLMs在多文档场景下的性能，最高可达75.5%的提升。

当前挑战

MDCure-12k数据集在构建与应用过程中面临多重挑战。首先，多文档指令生成需要确保文档间的相关性与指令的多样性，这对数据生成流程提出了较高要求。其次，指令-答案对的评分与筛选依赖于MDCureRM模型，该模型的设计与训练需兼顾多目标优化，以确保筛选结果的准确性与高效性。此外，多文档任务本身具有复杂性，模型需处理长上下文信息并生成连贯且准确的答案，这对模型的架构与训练策略提出了更高要求。最后，数据集的规模与质量平衡也是一个关键挑战，如何在保证数据多样性的同时控制成本与资源消耗，是数据集构建过程中需要持续优化的方向。

常用场景

经典使用场景

MDCure-12k数据集在自然语言处理领域中被广泛应用于多文档指令调优任务。通过提供12,000个多文档指令-答案对，该数据集能够有效提升大型语言模型（LLMs）在多文档环境下的理解和生成能力。研究人员利用该数据集对FlanT5、Qwen2和LLAMA3.1等模型进行微调，显著提升了模型在多文档任务中的表现。

衍生相关工作

MDCure-12k数据集衍生了一系列经典工作，包括MDCureRM评分模型和多个基于该数据集微调的语言模型，如MDCure-FlanT5-Base、MDCure-Qwen2-1.5B-Instruct和MDCure-LLAMA3.1-8B-Instruct等。这些模型在多文档任务中表现出色，进一步推动了多文档处理技术的发展。

数据集最近研究