Context24

github2024-05-11 更新2024-05-31 收录

下载链接：

https://github.com/oasisresearchlab/context24

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含474个科学声明的实例，这些声明在实验室笔记和讨论中用于综合和研究规划，涵盖生物学、计算机科学和社会科学领域。数据集为每个声明提供了“黄金”注释，指定了支持每个声明关键结果的图表/表格。此外，对于部分声明，还提供了描述关键方法细节的文本片段。

This dataset comprises 474 instances of scientific claims utilized in laboratory notes and discussions for synthesis and research planning, spanning the fields of biology, computer science, and social sciences. The dataset provides 'gold' annotations for each claim, specifying the charts/tables that support the key results of each claim. Additionally, for some claims, text excerpts describing key methodological details are also provided.

创建时间：

2024-03-22

原始信息汇总

数据集概述

数据集名称: Context24: Contextualizing Scientific Figures and Tables

目的: 用于训练AI模型，帮助识别和提取科学论文中的关键图表和方法论细节，以支持科学声明的上下文化。

数据集内容:

任务1: 识别支持科学声明的关键图表。
任务2: 识别描述实验方法论细节的文本片段。

数据集结构:

训练/开发数据: 包含474个科学声明示例，分布在四个数据集中。
测试数据: 包含111个科学声明示例。

数据集细分:

akamatsulab: 213个声明，细胞生物学领域。
BIOL403: 60个声明，细胞生物学领域。
dg-social-media-polarization: 78个声明，社会科学领域。
megacoglab: 123个声明，跨多个领域。

文件结构:

task1-train-dev.json, task2-train-dev.json: 主要训练/开发数据集。
figures-tables/: 包含图表和标题的.png文件。
extracted_captions/: 通过OCR提取的标题文本，以.json文件存储。
full_texts-2024-04-25-update.json: 包含每篇论文的全文解析。
eval/: 包含评估脚本。

评估方法:

任务1: 使用NDCG@5和NDCG@10进行评分。
任务2: 使用ROUGE和BERT分数进行评分。

提交格式:

任务1: .csv文件，包含声明ID和预测的图表排名。
任务2: .json文件，包含声明ID和预测的文本片段列表。

数据集详细信息

任务1: 证据识别

描述: 给定科学声明和相关研究论文，预测论文中提供支持证据的关键图表。
示例: 包含声明ID、声明内容、引用键、数据集和发现（图表或表格）。
评估: 使用NDCG@5和NDCG@10评分，考虑复合图表的子图表。

任务2: 基础上下文识别

描述: 给定科学声明和相关研究论文，识别讨论实验方法论细节的文本片段。
示例: 包含声明ID、声明内容、引用键、数据集和上下文（文本片段）。
评估: 使用ROUGE和BERT分数评分。

数据集细分

akamatsulab: 213个声明。
BIOL403: 60个声明。
dg-social-media-polarization: 78个声明。
megacoglab: 123个声明。

测试数据描述

任务1: 111个声明，其中akamatsulab有51个，megacoglab有60个。
任务2: 109个声明，其中akamatsulab有49个，megacoglab有60个。

提交和评估

提交平台: eval.ai。
评估脚本: 位于eval/目录，用于评估任务1和任务2的预测。
提交格式: 任务1为.csv文件，任务2为.json文件。

搜集汇总

数据集介绍

构建方式

Context24数据集的构建基于四个不同领域的研究数据，包括细胞生物学、社会科学、计算机科学和人机交互等。数据集通过整合来自不同领域的474个科学声明样本，这些声明来源于实验室笔记和研究讨论，涵盖了生物学、计算机科学和社会科学等多个领域。每个声明都附有‘黄金’标注，指向支持该声明的关键图表或表格，部分声明还包含描述实验方法细节的文本片段。数据集的目录结构清晰，包含训练和开发数据集、测试数据集、图表和表格的解析文件以及通过OCR提取的图表和表格的标题文本。

特点

Context24数据集的主要特点在于其跨学科的广泛覆盖和高质量的标注。数据集不仅包含了多个领域的科学声明，还提供了详细的图表和表格支持，以及实验方法的文本描述。这种结构化的数据为训练AI模型提供了丰富的上下文信息，有助于模型理解和关联科学声明与其支持证据。此外，数据集的更新机制确保了数据的时效性和准确性，为研究者提供了持续的资源支持。

使用方法

使用Context24数据集时，研究者可以利用提供的训练和开发数据集进行模型训练和验证。数据集的目录结构便于访问和解析，研究者可以通过引用键（citekey）快速定位到相关的图表、表格和全文解析。对于测试集，研究者需要提交预测结果，并通过提供的评估脚本进行评分。评估脚本支持多种评分标准，如NDCG（归一化折损累积增益）和ROUGE/BERT相似度评分，确保了评估的全面性和准确性。

背景与挑战

背景概述

Context24数据集由2024年学术文档处理研讨会（SDPROC）的共享任务‘Context24: Contextualizing Scientific Figures and Tables’提出，旨在解决科学文献中科学声明与支持性证据（如图表）之间的关联问题。该数据集包含了474个实际应用于实验室笔记和研究计划讨论中的科学声明，涵盖生物学、计算机科学和社会科学等多个领域。数据集的核心研究问题是如何通过AI模型自动识别和关联科学声明与其支持性证据，从而提高科学文献的阅读和使用效率。该数据集的创建不仅推动了学术文档处理技术的发展，还为跨学科研究提供了宝贵的资源。

当前挑战

Context24数据集面临的挑战主要集中在两个方面：首先，科学声明与其支持性证据之间的关联复杂且分散，尤其是在多学科背景下，如何准确识别和匹配这些信息是一个技术难题。其次，数据集的构建过程中，涉及大量的图表和文本数据的提取与处理，尤其是通过OCR技术提取的图表标题可能存在错误或不完整，这增加了数据处理的难度。此外，评估模型性能时需要考虑图表的复合性（如包含子图表的情况），这进一步增加了任务的复杂性。

常用场景

经典使用场景

Context24数据集的经典使用场景主要集中在科学文献处理领域，特别是在帮助研究人员快速定位和理解科学论文中的关键图表和方法细节。通过提供科学声明与相关图表、表格的关联，以及方法论细节的文本片段，该数据集支持AI模型训练，以自动化地识别和关联科学声明与其支持证据。这种应用场景在文献综述、研究计划制定以及解决数据冲突等科学活动中尤为重要。

衍生相关工作

基于Context24数据集，许多相关工作得以展开，特别是在自然语言处理和信息检索领域。例如，研究者们开发了用于自动识别科学声明支持证据的模型，这些模型在学术搜索引擎和文献管理系统中得到了应用。此外，该数据集还促进了关于如何更好地提取和理解科学文献中方法论细节的研究，推动了科学文献处理技术的进步。

数据集最近研究