five

MDCure-12k

收藏
Hugging Face2024-10-30 更新2024-12-12 收录
下载链接:
https://huggingface.co/datasets/yale-nlp/MDCure-12k
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含三个特征:instruction(指令)、answer(答案)和score(分数),均为字符串或浮点数类型。数据集分为一个训练集,包含12000个样本,总大小为167304315字节。数据集的下载大小为95752019字节。配置信息显示数据集有一个默认配置,训练数据文件位于'data/train-*'路径下。
提供机构:
Yale NLP Lab
创建时间:
2024-10-30
原始信息汇总

MDCure-12k 数据集概述

数据集信息

  • 许可证: MIT
  • 特征:
    • instruction: 类型为 string
    • answer: 类型为 string
    • score: 类型为 float64
  • 分割:
    • train: 包含 12000 个样本,占用 167304315.0 字节
  • 下载大小: 95752019 字节
  • 数据集大小: 167304315.0 字节

配置

  • 配置名称: default
  • 数据文件:
    • train: 路径为 data/train-*
搜集汇总
数据集介绍
main_image_url
构建方式
MDCure-12k数据集的构建采用了MDCure流程,该流程通过生成多样化的多文档指令,并利用MDCureRM模型进行细粒度评分和筛选,最终形成高质量的多文档指令数据集。具体而言,数据集中的指令输入包含两个或更多来自NewSHead数据集的相关文档,随后是一个与上下文文档相关的多文档问题或提示。每个问题或提示还包括一个简短的句子或短语,指示答案的预期长度。所有问题和答案均通过GPT-3.5-Turbo生成,并通过MDCureRM进行评分和过滤,以确保最终数据集的高质量。
特点
MDCure-12k数据集包含12,000个多文档指令-答案对,每个数据样本包含三个关键属性:指令、答案和评分。指令部分由源文档和相关问题或提示组成,并附带答案的预期长度指示;答案部分是对指令输入的响应;评分部分则由MDCureRM模型对指令-答案对进行评分。该数据集旨在提升大语言模型在多文档指令跟随任务中的表现,具有高度的多样性和质量保证。
使用方法
用户可以通过Hugging Face的Datasets库轻松下载和使用MDCure-12k数据集。使用Python代码加载数据集后,用户可以访问训练集中的数据样本,并查看每个样本的指令、答案和评分信息。该数据集适用于多文档问答、文本生成等任务,能够有效提升模型在多文档场景下的表现。此外,用户还可以结合MDCureRM模型对数据进行进一步筛选和优化,以满足特定任务的需求。
背景与挑战
背景概述
MDCure-12k数据集由耶鲁大学自然语言处理团队于2024年发布,旨在提升大语言模型(LLMs)在多文档指令跟随任务中的表现。该数据集基于MDCure流程构建,通过生成多样化的多文档指令,并利用MDCureRM模型进行精细评分与筛选,最终形成高质量的多文档指令数据集。MDCure-12k包含12,000条多文档指令-答案对,每条指令输入包含两个或更多相关文档,并附带一个多文档问题或提示。该数据集的发布为多文档任务的研究提供了重要资源,显著提升了LLMs在多文档场景下的性能,最高可达75.5%的提升。
当前挑战
MDCure-12k数据集在构建与应用过程中面临多重挑战。首先,多文档指令生成需要确保文档间的相关性与指令的多样性,这对数据生成流程提出了较高要求。其次,指令-答案对的评分与筛选依赖于MDCureRM模型,该模型的设计与训练需兼顾多目标优化,以确保筛选结果的准确性与高效性。此外,多文档任务本身具有复杂性,模型需处理长上下文信息并生成连贯且准确的答案,这对模型的架构与训练策略提出了更高要求。最后,数据集的规模与质量平衡也是一个关键挑战,如何在保证数据多样性的同时控制成本与资源消耗,是数据集构建过程中需要持续优化的方向。
常用场景
经典使用场景
MDCure-12k数据集在自然语言处理领域中被广泛应用于多文档指令调优任务。通过提供12,000个多文档指令-答案对,该数据集能够有效提升大型语言模型(LLMs)在多文档环境下的理解和生成能力。研究人员利用该数据集对FlanT5、Qwen2和LLAMA3.1等模型进行微调,显著提升了模型在多文档任务中的表现。
衍生相关工作
MDCure-12k数据集衍生了一系列经典工作,包括MDCureRM评分模型和多个基于该数据集微调的语言模型,如MDCure-FlanT5-Base、MDCure-Qwen2-1.5B-Instruct和MDCure-LLAMA3.1-8B-Instruct等。这些模型在多文档任务中表现出色,进一步推动了多文档处理技术的发展。
数据集最近研究
最新研究方向
在自然语言处理领域,多文档理解与生成任务正逐渐成为研究热点。MDCure-12k数据集作为多文档指令调优的重要资源,为提升大语言模型(LLMs)在多文档场景下的表现提供了有力支持。该数据集通过生成多样化的多文档指令,并结合MDCureRM模型进行精细评分与筛选,显著提升了模型在多文档任务中的性能。研究表明,基于MDCure-12k的指令调优模型在多种多文档和长上下文基准测试中表现优异,性能提升高达75.5%。这一成果不仅推动了多文档理解技术的发展,也为构建更高效、更智能的文本生成系统提供了新的思路。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作