five

alexshengzhili/SciGraphQA-295K-train

收藏
Hugging Face2023-08-08 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/alexshengzhili/SciGraphQA-295K-train
下载链接
链接失效反馈
官方服务:
资源简介:
SciGraphQA是一个大规模合成的多轮问答数据集,专注于科学图表。它包含来自29万篇学术论文的29.5万个样本,这些样本是关于图表的开放词汇多轮问答对话。数据集通过使用Palm-2 API生成,基于包括论文标题、摘要、图表说明和提及图表的段落在内的丰富文本上下文。

SciGraphQA是一个大规模合成的多轮问答数据集,专注于科学图表。它包含来自29万篇学术论文的29.5万个样本,这些样本是关于图表的开放词汇多轮问答对话。数据集通过使用Palm-2 API生成,基于包括论文标题、摘要、图表说明和提及图表的段落在内的丰富文本上下文。
提供机构:
alexshengzhili
原始信息汇总

数据集概述

数据集描述

  • 名称: SciGraphQA
  • 类型: 大型合成多轮问答数据集,专注于科学图表。
  • 样本数量: 295,000个样本
  • 数据来源: 来自290,000篇学术论文的图表、标题、段落和元数据,主要集中在计算机科学和机器学习领域。
  • 语言: 英语

数据集结构

数据实例

  • 包含内容:
    • 论文标题
    • 论文摘要
    • 图表标题
    • 提及图表的段落
    • 多轮问答对话(平均2.23轮)

数据字段

  • title: 论文标题
  • abstract: 论文摘要
  • caption: 图表标题
  • paragraph: 提及图表的段落
  • questions: 问题字符串列表
  • answers: 答案字符串列表

数据分割

  • 训练数据: 295,000个样本
  • 验证数据: 无
  • 测试数据: 3,000个样本

数据集创建

来源数据

  • 数据收集: 使用PDFFigures 2.0提取图表,使用正则表达式和启发式规则提取标题和段落。
  • 语言生产者: 计算机科学和机器学习领域的研究人员。

注释

  • 注释过程: 使用Palm-2对话API生成多轮问答对话,通过GPT-4验证质量。
  • 注释者: Palm-2,由Anthropic开发的AI系统。

使用数据注意事项

  • 社会影响: 数据集包含合成对话,涉及科学图表和相关元数据,来自公开学术论文,社会风险最小。
  • 偏见讨论: 对话反映Palm-2系统的特性和限制,以及学术源材料的固有偏见。
  • 其他已知限制: 数据集专注于计算机科学和机器学习论文,其他领域的科学图表性能可能不同。

附加信息

  • 数据集维护者: Shengzhi Li, Nima Tajbakhsh
  • 许可证: MIT许可证
  • 贡献方式: 欢迎通过GitHub仓库提交问题或拉取请求进行贡献。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作