five

DiagramQG

收藏
Hugging Face2024-11-25 更新2024-12-12 收录
下载链接:
https://huggingface.co/datasets/zhibei1204/DiagramQG
下载链接
链接失效反馈
官方服务:
资源简介:
DiagramQG数据集是一个专注于科学图表问题生成的综合性教育数据集。它包含了19,475个独特的问题、8,372个图表以及44,472个(目标和概念文本约束、图表、问题)的组合。数据集覆盖了四个主要学科领域:自然科学、地球科学、应用科学和社会科学,并分为15门课程和169个概念。数据收集过程包括初始数据收集、组织、注释和质量保证四个阶段。数据集的独特挑战包括特定领域的知识要求、长尾分布和高信息密度。
创建时间:
2024-11-25
原始信息汇总

DiagramQG 数据集

概述

DiagramQG 是一个专注于科学图表问题生成的综合性教育数据集,包含以下内容:

  • 19,475 个独特问题
  • 8,372 个图表
  • 44,472 个 (目标 & 概念文本约束, 图表, 问题) 组合
  • 涵盖 4 个学科、15 门课程和 169 个概念

数据集结构

学科领域

数据集涵盖四个主要学科领域:

  • 自然科学
  • 地球科学
  • 应用科学
  • 社会科学

层次组织

数据按层次结构组织:

  1. 学科(例如,自然科学)
  2. 课程(例如,生物学)
  3. 概念(例如,生态互动)

数据收集过程

阶段 1:初始数据收集

  • 来源:现有数据集和 Google 图片搜索
  • 原始数据集:20,000+ 个图表和 40,000+ 个问题

阶段 2:组织

  • 分类为 4 个学科和 15 门课程
  • 将问题映射到 169 个不同概念

阶段 3:标注

  • 训练的众包工人标注:
    • 目标 & 概念文本约束
    • 图表元素和文本
  • 生成 70,000+ 个独特组合

阶段 4:质量保证

  • 二次众包工人评估(0-100 分)
  • 过滤低于 60 分的组合
  • 最终数据集:44,472 个验证组合

数据集分析

问题分布

问题分布 图 3:DiagramQG 中的问题分布。

概念分布

概念分布 图 4:DiagramQG 中不同概念的图表、问题和每个图表的问题比例分布。

数据集比较

数据集 问题 图像 每图像对象 图像类型 约束 知识类型
VQAv2.0 1.1M 20k 3.5 自然 答案 N/A
FVQA 5,826 2k 2.9 自然 答案 常识
VQG-COCO 25,000 5k 3.3 自然 图像, 标题 常识
K-VQG 16,098 13K 2.7 自然 知识三元组 常识
DiagramQG 19,475 8,372 11.2 图表 目标, 概念 学科知识

独特挑战

  1. 领域特定知识要求

    • 需要理解专业学科概念
    • 超越常识推理
  2. 长尾分布

    • 概念覆盖不均
    • 模型泛化挑战
  3. 高信息密度

    • 复杂图表解释
    • 密集视觉信息处理
搜集汇总
数据集介绍
main_image_url
构建方式
DiagramQG数据集的构建过程分为四个主要阶段。初始数据收集阶段通过现有数据集和Google图像搜索获取了超过20,000张图表和40,000个问题。随后,数据被分类为四个主要学科领域和15门课程,并映射到169个独特概念。在注释阶段,经过培训的众包工人对目标与概念文本约束、图表元素和文本进行了详细标注,生成了超过70,000个独特组合。最后,通过质量保证阶段,由另一组众包工人对组合进行评分,筛选出得分低于60的组合,最终形成了包含44,472个验证组合的数据集。
特点
DiagramQG数据集以其广泛的学科覆盖和丰富的知识层次结构而著称。该数据集涵盖了自然科学、地球科学、应用科学和社会科学四个主要学科领域,包含15门课程和169个概念。其独特之处在于每个问题都与特定的图表和概念文本约束相结合,形成了高度结构化的数据组合。此外,数据集中每个图表平均包含11.2个对象,信息密度较高,要求模型具备复杂的视觉信息处理能力。
使用方法
DiagramQG数据集主要用于科学图表问题生成任务,特别适合用于训练和评估需要领域特定知识的问答模型。研究人员可以通过该数据集探索模型在处理复杂图表和长尾分布概念时的表现。使用该数据集时,建议首先熟悉其层次化组织结构,从学科领域到具体概念逐步深入。模型训练过程中,应特别注意处理高信息密度的图表和领域特定的知识需求,以确保模型能够准确理解并生成相关问题。
背景与挑战
背景概述
DiagramQG数据集是一个专注于科学图表问题生成的教育数据集,由研究人员在2023年创建。该数据集旨在通过图表生成与特定概念相关的问题,以促进教育领域的学习和理解。数据集包含19,475个独特问题、8,372个图表以及44,472个(目标与概念文本约束、图表、问题)的组合,涵盖了自然科学、地球科学、应用科学和社会科学四个主要学科领域。数据集的构建过程包括初始数据收集、分类组织、标注和严格的质量保证,确保了数据的高质量和多样性。DiagramQG的发布为教育技术、自然语言处理和计算机视觉领域的研究提供了重要的资源,推动了基于图表的学习和问题生成技术的发展。
当前挑战
DiagramQG数据集在构建和应用过程中面临多重挑战。首先,数据集要求模型具备领域特定的知识,能够理解复杂的科学概念,这超越了常见的常识推理。其次,数据集中的概念覆盖呈现长尾分布,某些概念的问题数量较少,导致模型在泛化能力上面临困难。此外,图表本身具有高信息密度,模型需要能够准确解读复杂的视觉信息,并从中提取关键概念。这些挑战不仅对模型的性能提出了高要求,也促使研究人员开发更先进的算法和技术,以应对教育领域中基于图表的问题生成任务。
常用场景
经典使用场景
DiagramQG数据集在科学教育领域中,主要用于生成基于图表的、概念聚焦的问题。该数据集通过提供丰富的图表和问题组合,支持教育技术研究,特别是在自动问题生成和智能辅导系统中的应用。研究人员可以利用这些数据来开发和测试能够理解和解释复杂科学图表的算法,从而提高教育资源的自动化和个性化水平。
衍生相关工作
DiagramQG数据集的发布,激发了多项相关研究,特别是在图表理解和自动问题生成领域。基于该数据集的研究工作,开发了多种先进的深度学习模型,这些模型在理解和生成科学图表相关问题上表现出色。此外,该数据集还促进了教育技术领域的新方法探索,如基于图表的自适应学习系统和跨学科知识融合的教育应用。
数据集最近研究
最新研究方向
在科学教育领域,DiagramQG数据集的推出为基于图表的问答生成研究提供了新的视角。该数据集涵盖了自然科学、地球科学、应用科学和社会科学四大领域,包含19,475个独特问题和8,372张图表,极大地丰富了教育资源的多样性。当前研究热点集中在如何利用深度学习模型,结合领域知识,从复杂图表中提取关键信息并生成高质量的问题。这一研究方向不仅推动了教育技术的创新,也为跨学科知识融合提供了新的可能性。DiagramQG的发布,标志着科学教育数据集的进一步专业化,为未来智能教育系统的开发奠定了坚实基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作