allenai/SciRIFF

Name: allenai/SciRIFF
Creator: allenai
Published: 2024-06-13 06:27:05
License: 暂无描述

Hugging Face2024-06-13 更新2024-06-15 收录

下载链接：

https://hf-mirror.com/datasets/allenai/SciRIFF

下载链接

链接失效反馈

官方服务：

资源简介：

SciRIFF数据集包含137K个遵循指令的演示，用于54个科学文献理解任务。这些任务涵盖五个基本的科学文献类别，并跨越五个领域。数据集有三种配置，具有不同的最大上下文长度（4096、8192和16384）。所有实验均使用4096上下文窗口进行。数据集的每个实例包括任务输入、输出、实例ID和任务元数据，详细描述了任务类别、领域和上下文类型。

提供机构：

allenai

原始信息汇总

SciRIFF 数据集概述

数据集配置

SciRIFF 数据集包含三种不同最大上下文长度的配置：4096、8192 和 16384。每种配置包含以下内容：

配置 16384

特征:
- input: 输入，类型为字符串。
- output: 输出，类型为字符串。
- metadata: 元数据，包含以下结构：
  - domains: 领域序列，类型为字符串。
  - input_context: 输入上下文，类型为字符串。
  - output_context: 输出上下文，类型为字符串。
  - source_type: 源类型，类型为字符串。
  - task_family: 任务类别，类型为字符串。
- _instance_id: 实例ID，类型为字符串。
分割:
- train: 训练集，包含 72646 个样本，大小为 651887545 字节。
- validation: 验证集，包含 34621 个样本，大小为 316306085 字节。
- test: 测试集，包含 41909 个样本，大小为 422473879 字节。
下载大小: 623896235 字节。
数据集大小: 1390667509 字节。

配置 4096

特征:
- input: 输入，类型为字符串。
- output: 输出，类型为字符串。
- metadata: 元数据，包含以下结构：
  - domains: 领域序列，类型为字符串。
  - input_context: 输入上下文，类型为字符串。
  - output_context: 输出上下文，类型为字符串。
  - source_type: 源类型，类型为字符串。
  - task_family: 任务类别，类型为字符串。
- _instance_id: 实例ID，类型为字符串。
分割:
- train: 训练集，包含 70521 个样本，大小为 388072842 字节。
- validation: 验证集，包含 30736 个样本，大小为 147030710 字节。
- test: 测试集，包含 35875 个样本，大小为 186329809 字节。
下载大小: 308815650 字节。
数据集大小: 721433361 字节。

配置 8192

特征:
- input: 输入，类型为字符串。
- output: 输出，类型为字符串。
- metadata: 元数据，包含以下结构：
  - domains: 领域序列，类型为字符串。
  - input_context: 输入上下文，类型为字符串。
  - output_context: 输出上下文，类型为字符串。
  - source_type: 源类型，类型为字符串。
  - task_family: 任务类别，类型为字符串。
- _instance_id: 实例ID，类型为字符串。
分割:
- train: 训练集，包含 72367 个样本，大小为 546901470 字节。
- validation: 验证集，包含 34001 个样本，大小为 252982177 字节。
- test: 测试集，包含 40064 个样本，大小为 313157272 字节。
下载大小: 491399393 字节。
数据集大小: 1113040919 字节。

数据文件路径

配置 16384:
- train: 16384/train-*
- validation: 16384/validation-*
- test: 16384/test-*
配置 4096:
- train: 4096/train-*
- validation: 4096/validation-*
- test: 4096/test-*
配置 8192:
- train: 8192/train-*
- validation: 8192/validation-*
- test: 8192/test-*

许可证

SciRIFF 数据集的许可证为 ODC-By。

语言和标签

语言: 英语
标签: 化学、生物医学、临床医学、人工智能、材料科学

数据集大小类别

100K<n<1M

搜集汇总

数据集介绍

构建方式

SciRIFF数据集是由AllenAI团队构建的，旨在增强语言模型在科学文献理解任务上的指令遵循能力。该数据集通过重新利用现有的科学文献理解数据集而创建，涵盖了五个基本科学文献类别和五个领域。数据集包括137K指令遵循演示，每个演示对应一个科学文献理解任务。SciRIFF数据集分为三个配置，分别具有不同的最大上下文长度：4096、8192和16384。

特点

SciRIFF数据集的特点在于其多样化的科学文献任务，涵盖了从总结到问答、从实体识别到分类等多个任务类型。此外，数据集的元数据包含了丰富的信息，如任务类别、领域、输入和输出的上下文类型等，这些信息有助于研究人员更好地理解和使用数据集。SciRIFF数据集的构建基于现有的科学文献理解数据集，如BigBIO，从而提高了数据集的可用性和实用性。

使用方法

SciRIFF数据集的使用方法如下：首先，用户需要加载数据集，可以选择不同的配置，如4096、8192或16384。然后，用户可以使用数据集进行模型训练和评估。此外，SciRIFF数据集还提供了训练混合数据集，以便用户进行模型训练。用户还可以访问SciRIFF的GitHub仓库，获取创建数据集、训练模型和进行评估的代码。

背景与挑战

背景概述

在人工智能与科学文献理解交叉领域的研究中，allenai/SciRIFF 数据集的创建为推动语言模型在科学文献上的指令跟随能力提供了重要资源。该数据集由 Allen AI 研究所开发，旨在通过提供大量指令跟随示例，以促进模型在理解科学文献方面取得突破。SciRIFF 包含 137K 指令跟随演示，覆盖 54 个科学文献理解任务，跨越五个领域，包括临床医学、生物医学、化学、人工智能和材料科学。该数据集的创建时间为 2023 年，并在论文 [SciRIFF: A Resource to Enhance Language Model Instruction-Following over Scientific Literature](https://arxiv.org/abs/2406.07835) 中进行了详细描述。SciRIFF 的出现，对于提升语言模型在处理科学文献时的理解能力和应用水平，产生了深远的影响。

当前挑战

SciRIFF 数据集所面临的挑战主要包括：1)科学文献的多样性和复杂性，要求模型能够理解和处理不同领域和不同类型的文本；2)指令跟随任务的多样性，要求模型能够理解和执行不同类型的指令；3)数据集构建过程中，如何确保数据的质量和多样性，以及如何处理可能存在的偏见。此外，SciRIFF 数据集的构建过程中，还面临着如何有效地整合和利用现有的科学文献理解数据集的挑战。

常用场景

经典使用场景

在科学文献理解领域，SciRIFF数据集因其包含的54个科学文献理解任务而成为研究者的宝贵资源。这些任务涵盖了摘要、信息抽取、问答、蕴涵和分类等五个基本类别，并跨越了临床医学、生物医学、化学、人工智能和材料科学五个领域。研究者可以通过该数据集训练和评估语言模型，以提高模型在理解科学文献方面的能力。

解决学术问题

SciRIFF数据集解决了科学文献理解领域长期存在的难题，即缺乏一个包含多样性和复杂性的大规模数据集。该数据集不仅提供了大量的训练数据，还涵盖了多个科学领域和任务类型，使得研究者可以更全面地评估和改进模型。此外，SciRIFF数据集的开放性和可访问性也为学术界和工业界的研究人员提供了便利，促进了科学文献理解领域的发展。

衍生相关工作

SciRIFF数据集的发布也衍生了许多相关的研究工作。例如，一些研究者使用SciRIFF数据集来训练和评估预训练语言模型，以提高模型在理解科学文献方面的能力。此外，一些研究者还基于SciRIFF数据集开发了新的任务和评估指标，进一步推动了科学文献理解领域的发展。SciRIFF数据集的开放性和可访问性也为学术界和工业界的研究人员提供了便利，促进了科学文献理解领域的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集