AI4Math/MathVista|数学推理数据集|多模态问答数据集
收藏数据集概述
MathVista 是一个专注于数学推理在视觉环境中应用的基准数据集。该数据集包含三个新创建的数据集:IQTest, FunctionQA, 和 PaperQA,以及从文献中整合的9个MathQA数据集和19个VQA数据集,共计6,141个示例,来自31个不同的数据集。
数据集特性
- 语言: 包含英语(en)、中文(zh)和波斯语(fa)。
- 许可证: 使用CC BY-SA 4.0许可证。
- 多语言性: 支持单语种数据。
- 大小分类: 数据集大小介于1,000到10,000之间。
- 任务类别: 包括多项选择、问答、视觉问答和文本分类。
- 任务ID: 涵盖多项选择问答、封闭领域问答、开放领域问答、视觉问答和多类分类。
- 标签创建者: 包括专家生成和发现的数据。
- 语言创建者: 同样包括专家生成和发现的数据。
数据集结构
-
特征:
pid
: 字符串类型,问题ID。question
: 字符串类型,问题文本。image
: 字符串类型,图像路径。decoded_image
: 图像类型,解码后的图像。choices
: 字符串序列,选择项。unit
: 字符串类型,答案单位。precision
: 浮点数类型,答案精度。answer
: 字符串类型,正确答案。question_type
: 字符串类型,问题类型。answer_type
: 字符串类型,答案类型。metadata
: 结构化数据,包含类别、上下文、年级、图像高度和宽度、语言、技能、来源、分割和任务等信息。query
: 字符串类型,查询文本。
-
分割:
testmini
: 包含1,000个示例,用于模型开发和验证。test
: 包含5,141个示例,用于标准评估。
数据集下载和使用
数据集可以通过Huggingface Datasets库下载,并提供了详细的JSON格式数据结构说明,方便用户理解和使用。
数据集标签和来源
数据集的标签包括专家生成和发现的数据,来源包括原始数据集和其他28个数据集。所有数据都已预处理和标注,以供评估使用。

MedDialog
MedDialog数据集(中文)包含了医生和患者之间的对话(中文)。它有110万个对话和400万个话语。数据还在不断增长,会有更多的对话加入。原始对话来自好大夫网。
github 收录
糖尿病预测数据集
糖尿病相关的医学研究或者健康数据
AI_Studio 收录
AgiBot World
为了进一步推动通用具身智能领域研究进展,让高质量机器人数据触手可及,作为上海模塑申城语料普惠计划中的一份子,智元机器人携手上海人工智能实验室、国家地方共建人形机器人创新中心以及上海库帕思,重磅发布全球首个基于全域真实场景、全能硬件平台、全程质量把控的百万真机数据集开源项目 AgiBot World。这一里程碑式的开源项目,旨在构建国际领先的开源技术底座,标志着具身智能领域 「ImageNet 时刻」已到来。AgiBot World 是全球首个基于全域真实场景、全能硬件平台、全程质量把控的大规模机器人数据集。相比于 Google 开源的 Open X-Embodiment 数据集,AgiBot World 的长程数据规模高出 10 倍,场景范围覆盖面扩大 100 倍,数据质量从实验室级上升到工业级标准。AgiBot World 数据集收录了八十余种日常生活中的多样化技能,从抓取、放置、推、拉等基础操作,到搅拌、折叠、熨烫等精细长程、双臂协同复杂交互,几乎涵盖了日常生活所需的绝大多数动作需求。
github 收录
AIS数据集
该研究使用了多个公开的AIS数据集,这些数据集经过过滤、清理和统计分析。数据集涵盖了多种类型的船舶,并提供了关于船舶位置、速度和航向的关键信息。数据集包括来自19,185艘船舶的AIS消息,总计约6.4亿条记录。
github 收录
AISHELL/AISHELL-1
Aishell是一个开源的中文普通话语音语料库,由北京壳壳科技有限公司发布。数据集包含了来自中国不同口音地区的400人的录音,录音在安静的室内环境中使用高保真麦克风进行,并下采样至16kHz。通过专业的语音标注和严格的质量检查,手动转录的准确率超过95%。该数据集免费供学术使用,旨在为语音识别领域的新研究人员提供适量的数据。
hugging_face 收录