AIDataset

github2026-04-09 更新2026-04-10 收录

下载链接：

https://github.com/lyirs/AIDataset

下载链接

链接失效反馈

官方服务：

资源简介：

一个涵盖NLP、计算机视觉、多模态学习、语音和音频理解、时间序列、图学习、推荐系统、检索、LLMs、代理、机器人、嵌入式AI、自动驾驶、遥感、科学AI、医疗AI等相关领域主要研究方向的AI数据集索引。

An AI dataset index covering major research directions across various AI-related fields, including Natural Language Processing (NLP), Computer Vision (CV), Multimodal Learning, Speech and Audio Understanding, Time Series, Graph Learning, Recommender Systems, Retrieval, Large Language Models (LLMs), AI Agents, Robotics, Embedded AI, Autonomous Driving, Remote Sensing, Scientific AI, and Medical AI.

创建时间：

2026-04-09

原始信息汇总

AIDataset 数据集概述

数据集简介

AIDataset 是一个涵盖人工智能主要研究领域的数据集索引，覆盖自然语言处理、计算机视觉、多模态学习、语音与音频理解、时间序列、图学习、推荐系统、检索、大语言模型、智能体、机器人学、具身智能、自动驾驶、遥感、科学人工智能、医疗人工智能及相关领域。

数据集快照

主题目录数量：25个
主要条目数量：456个
链接检查日期：2026-04-10

收录规则

收录对训练、评估或研究导航具有明确价值的公共数据集、基准测试套件或发现门户。
优先收录在顶级会议论文、教程和基线比较表中仍常见的数据集。
信息来源为官方网站、官方GitHub仓库、Hugging Face数据集卡片或受信任的公共门户。
许可证信息按发布方原文记录；若来源不明，表格中标注为Unknown。
部分基准测试和安全资源是注册表或分类法，而非原始可下载数据集，这些在其章节说明中已明确标注。
本仓库是一个索引，而非镜像，不在此重新分发任何数据集文件。

类别索引

类别	中文说明	英文说明	条目数量
NLP	用于命名实体识别、问答、摘要、推理、分类、多语言迁移和语言理解的文本数据集。	Text datasets for NER, QA, summarization, reasoning, classification, multilingual transfer, and language understanding.	29
CV	用于分类、检测、分割、定位、场景理解、RGB-D感知和细粒度识别的图像数据集。	Image datasets for classification, detection, segmentation, grounding, scene understanding, RGB-D perception, and fine-grained recognition.	43
Video-3D	视频、第一人称视角、点云、3D场景和形状数据集。	Video, egocentric, point-cloud, 3D scene, and shape datasets.	14
Autonomous-Driving	驾驶感知、3D检测、跟踪、预测、建图和协同感知数据集。	Driving perception, 3D detection, tracking, forecasting, mapping, and cooperative sensing datasets.	24
Remote-Sensing	卫星、航空、俯视、多光谱、合成孔径雷达和地理空间测绘数据集。	Satellite, aerial, overhead, multispectral, SAR, and geospatial mapping datasets.	23
Multimodal	视觉-语言、视觉问答、图表与OCR基础推理、图文对齐和多模态指令数据集。	Vision-language, VQA, chart and OCR-grounded reasoning, image-text alignment, and multimodal instruction datasets.	24
Speech-Audio	自动语音识别、语音翻译、说话人或语言识别、语音情感和语音生成数据集。	ASR, speech translation, speaker or language ID, speech emotion, and speech generation datasets.	19
Audio-Understanding	声音事件、音频描述、音频-语言学习和音频基础模型评估数据集。	Sound events, audio captioning, audio-language learning, and audio foundation-model evaluation datasets.	13
Time-Series	预测、分类、异常检测、临床时间序列和时空序列数据集。	Forecasting, classification, anomaly detection, clinical time series, and spatiotemporal sequence datasets.	13
Document-AI	光学字符识别、版面分析、表单、收据、表格、图表和文档问答数据集。	OCR, layout analysis, forms, receipts, tables, charts, and document QA datasets.	21
Code	代码生成、修复、执行、仓库理解和软件工程智能体数据集。	Code generation, repair, execution, repository understanding, and software engineering agent datasets.	16
Search-Retrieval	嵌入、检索、重排序、多语言信息检索、检索增强生成基础以及多模态或音频-文本检索数据集。	Embedding, retrieval, reranking, multilingual IR, RAG grounding, and multimodal or audio-text retrieval datasets.	18
Graph-Learning	节点、链接、图级别、分子、知识、异质图和时序图数据集。	Node, link, graph-level, molecular, knowledge, heterogeneous, and temporal graph datasets.	12
Recommender-Systems	协同过滤、排序、点击率预测、新闻、赌博机和工业推荐数据集。	Collaborative filtering, ranking, CTR, news, bandit, and industrial recommendation datasets.	12
LLM	预训练语料库、指令微调、合成监督、偏好数据和对齐数据集。	Pretraining corpora, instruction tuning, synthetic supervision, preference data, and alignment datasets.	12
LLM-Evals	用于大语言模型的指令遵循、推理、真实性、聊天和长上下文基准测试数据集。	Instruction following, reasoning, truthfulness, chat, and long-context benchmark datasets for large language models.	23
Agent	工具使用、浏览器与网络智能体、计算机使用、软件工程智能体和环境交互数据集。	Tool use, browser and web agents, computer use, software engineering agents, and environment interaction datasets.	21
Robotics-RL	离线强化学习、模仿学习、操作、机器人轨迹和以模拟器为中心的机器人学习数据集。	Offline RL, imitation learning, manipulation, robot trajectories, and simulator-centered robot learning datasets.	13
Embodied-AI	具身导航、指令遵循、第一人称感知和语言条件行为数据集。	Embodied navigation, instruction following, egocentric perception, and language-conditioned behavior datasets.	16
Scientific-AI	分子、蛋白质、材料、反应和科学文献数据集。	Molecule, protein, material, reaction, and scientific literature datasets.	18
Medical-AI	临床、生物医学自然语言处理、放射学、病理学、医学影像和医疗保健数据集。	Clinical, biomedical NLP, radiology, pathology, medical imaging, and healthcare datasets.	21
Finance-Legal	金融、监管、法律推理、信息抽取、文件分析、合同理解和合规数据集。	Finance, regulation, legal reasoning, extraction, filing analysis, contract understanding, and compliance datasets.	14
Benchmarks	用于自然语言处理、计算机视觉、多模态系统、检索、代码、智能体和通用平台的跨领域评估套件。	Cross-domain evaluation suites for NLP, CV, multimodal systems, retrieval, code, agents, and general platforms.	19
Data-Portals	人工智能数据和基准测试的数据集注册表、搜索门户和发现中心。	Dataset registries, search portals, and discovery hubs for AI data and benchmarks.	8
Safety-Evals	安全评估套件、风险分类法、红队测试集合和智能体安全资源。	Safety eval suites, risk taxonomies, red-teaming collections, and agent safety resources.	10

来源类型

GitHub：官方组织仓库、任务仓库、基准测试套件和维护者。
公共门户：Hugging Face、OpenML、OpenDataLab、UCI、OpenSLR、NIST 和研究门户。
官方网站：挑战赛主页、数据集着陆页、项目网站和排行榜页面。

搜集汇总

数据集介绍

构建方式

在人工智能研究领域，数据资源的系统化整合对于推动学科发展至关重要。AIDataset的构建遵循一套严谨的纳入规则，旨在创建一个高质量的索引目录。其核心原则是收录具有明确训练、评估或研究导航价值的公开数据集、基准测试套件或发现门户。构建过程优先考虑那些在顶级会议论文、教程和基线比较表中持续出现的主流数据集，确保索引内容的时效性与权威性。所有条目均链接至官方站点、GitHub仓库、Hugging Face数据集卡片或可信的公共门户，并明确标注其发布许可证。值得注意的是，该仓库本身是一个纯粹的索引，并不直接存储或分发任何数据集文件，从而保证了资源的原始性与合规性。

特点

作为人工智能领域的综合性数据集索引，AIDataset展现出鲜明的结构化与广泛性特征。其体系覆盖了自然语言处理、计算机视觉、多模态学习、语音音频理解、时间序列、图学习、推荐系统、检索、大语言模型、智能体、机器人学、具身智能、自动驾驶、遥感、科学人工智能、医疗人工智能等25个核心研究方向，共计456个主要条目，构成了一个全景式的知识图谱。该索引不仅包含可直接下载的原始数据集，也纳入了基准测试资源、安全评估套件以及数据发现门户等多元化的资源类型，为研究者提供了从数据获取到模型评估的一站式导航。这种跨领域的系统性组织，极大地便利了交叉学科的研究探索与资源发现。

使用方法

对于人工智能领域的研究者与开发者而言，AIDataset提供了一个高效的数据资源探索入口。用户可通过其分类索引，快速定位到特定子领域（如NLP、CV）的专门页面，其中以表格形式详细列出了每个数据集的名称、简介、来源链接及许可证信息。该索引特别适用于文献调研、实验基线选择、新任务探索以及跨领域研究启发的场景。使用者应遵循索引中的链接访问原始数据源，并严格遵守各数据集标注的使用许可。鉴于该索引的维护性质，建议用户在关键应用前核实链接的有效性与数据的最新版本，以确保研究工作的可复现性与严谨性。

背景与挑战

背景概述

在人工智能研究领域，数据资源的系统化整合对于推动学科交叉与前沿探索具有关键意义。AIDataset作为一个综合性数据集索引，由开源社区于近年构建，旨在覆盖自然语言处理、计算机视觉、多模态学习、语音理解、时间序列分析、图学习、推荐系统、大语言模型、智能体、机器人学、具身智能、自动驾驶、遥感、科学人工智能及医疗人工智能等二十五个核心研究方向。该索引收录了四百五十六个主流公开数据集与基准测试套件，其筛选标准侧重于在顶级会议论文、教程及基线比较表中广泛引用的高质量资源，并通过官方站点、GitHub仓库及Hugging Face等可信平台提供链接。这一系统性工程不仅为研究者提供了高效的数据导航工具，也促进了跨领域方法论的比较与融合，成为人工智能多学科发展的基础设施之一。

当前挑战

构建综合性数据集索引面临多重挑战。在领域问题层面，人工智能各子领域发展迅速，数据形态与评估标准持续演变，索引需动态涵盖从传统分类任务到新兴的智能体交互、科学发现等复杂场景，同时确保数据集的代表性、时效性与可比性。在构建过程中，挑战主要集中于数据源的可靠性与一致性维护：需持续验证数百个数据集的官方链接有效性，明确其许可协议与使用限制，并区分原始数据与基准测试资源。此外，跨领域数据集的分类与描述需保持精准，避免因范畴重叠或术语差异导致用户检索困难，这对索引的结构设计与元数据标准化提出了较高要求。

常用场景

经典使用场景

在人工智能研究的广阔领域中，数据集索引扮演着至关重要的角色。AIDataset作为一个综合性数据集索引，其经典使用场景在于为研究人员提供跨领域的标准化数据资源导航。通过涵盖自然语言处理、计算机视觉、多模态学习等25个主题目录，该索引使得学者能够高效地定位适用于特定任务的基准数据集，从而加速模型训练、评估与比较的流程，成为学术探索与工程实践中的关键参考工具。

衍生相关工作

围绕AIDataset的索引架构，已衍生出多项经典研究工作。例如，基于其多模态分类构建的跨领域基准测试框架，被广泛用于评估通用人工智能系统的泛化能力。在数据治理方面，部分研究借鉴其收录规则，开发了自动化数据集质量评估工具。此外，索引中强调的安全评估资源，也催生了针对大语言模型风险检测的新型红队测试方法，形成了从数据到评估的完整研究生态。

数据集最近研究