alexshengzhili/SciGraphQA-295K-train
收藏Hugging Face2023-08-08 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/alexshengzhili/SciGraphQA-295K-train
下载链接
链接失效反馈官方服务:
资源简介:
SciGraphQA是一个大规模合成的多轮问答数据集,专注于科学图表。它包含来自29万篇学术论文的29.5万个样本,这些样本是关于图表的开放词汇多轮问答对话。数据集通过使用Palm-2 API生成,基于包括论文标题、摘要、图表说明和提及图表的段落在内的丰富文本上下文。
SciGraphQA是一个大规模合成的多轮问答数据集,专注于科学图表。它包含来自29万篇学术论文的29.5万个样本,这些样本是关于图表的开放词汇多轮问答对话。数据集通过使用Palm-2 API生成,基于包括论文标题、摘要、图表说明和提及图表的段落在内的丰富文本上下文。
提供机构:
alexshengzhili
原始信息汇总
数据集概述
数据集描述
- 名称: SciGraphQA
- 类型: 大型合成多轮问答数据集,专注于科学图表。
- 样本数量: 295,000个样本
- 数据来源: 来自290,000篇学术论文的图表、标题、段落和元数据,主要集中在计算机科学和机器学习领域。
- 语言: 英语
数据集结构
数据实例
- 包含内容:
- 论文标题
- 论文摘要
- 图表标题
- 提及图表的段落
- 多轮问答对话(平均2.23轮)
数据字段
title: 论文标题abstract: 论文摘要caption: 图表标题paragraph: 提及图表的段落questions: 问题字符串列表answers: 答案字符串列表
数据分割
- 训练数据: 295,000个样本
- 验证数据: 无
- 测试数据: 3,000个样本
数据集创建
来源数据
- 数据收集: 使用PDFFigures 2.0提取图表,使用正则表达式和启发式规则提取标题和段落。
- 语言生产者: 计算机科学和机器学习领域的研究人员。
注释
- 注释过程: 使用Palm-2对话API生成多轮问答对话,通过GPT-4验证质量。
- 注释者: Palm-2,由Anthropic开发的AI系统。
使用数据注意事项
- 社会影响: 数据集包含合成对话,涉及科学图表和相关元数据,来自公开学术论文,社会风险最小。
- 偏见讨论: 对话反映Palm-2系统的特性和限制,以及学术源材料的固有偏见。
- 其他已知限制: 数据集专注于计算机科学和机器学习论文,其他领域的科学图表性能可能不同。
附加信息
- 数据集维护者: Shengzhi Li, Nima Tajbakhsh
- 许可证: MIT许可证
- 贡献方式: 欢迎通过GitHub仓库提交问题或拉取请求进行贡献。



