five

The-Stack|编程语言数据集|人工智能数据集

收藏
OpenDataLab2025-04-05 更新2024-05-09 收录
编程语言
人工智能
下载链接:
https://opendatalab.org.cn/OpenDataLab/the-stack
下载链接
链接失效反馈
资源简介:
该堆栈包含超过6TB的许可源代码文件,涵盖358种编程语言。该数据集是作为BigCode项目的一部分创建的,BigCode项目是一个开放的科学合作项目,致力于代码的大型语言模型 (Code LLMs) 的负责任开发。堆栈用作代码llm的预训练数据集,即代码生成AI系统,该系统能够从自然语言描述以及其他代码片段合成程序。
提供机构:
OpenDataLab
创建时间:
2023-10-11
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

BBGRE

The Brain & Body Genetic Resource Exchange (BBGRE) provides a resource for investigating the genetic basis of neurodisability. It combines phenotype information from patients with neurodevelopmental and behavioural problems with clinical genetic data, and displays this information on the human genome map.

国家生物信息中心 收录

学生课堂行为数据集 (SCB-dataset3)

学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。

arXiv 收录

ControlNet/WT-Data-Project

WT-DATA-PROJECT.DATA数据集包含了多个文件,主要涉及时间序列的战斗排名数据、Thunderskill数据、War Thunder Wiki数据以及这些数据的联合数据。时间序列数据包括不同国家的战斗评级、战斗次数、胜率等信息。Thunderskill数据提供了玩家在不同模式下的战斗统计数据。War Thunder Wiki数据则包含了游戏中各种载具的详细信息。联合数据则是将Thunderskill数据和War Thunder Wiki数据进行了整合,以便更好地利用两者的信息。

hugging_face 收录

GTEx (Genotype-Tissue Expression)

GTEx数据集包含了来自多个组织和器官的基因表达数据,旨在研究基因型与组织特异性表达之间的关系。数据集包括基因表达谱、基因型信息、组织样本的详细描述等。

gtexportal.org 收录

DeepReview-13K

DeepReview-13K是由浙江大学工程学院和西湖大学合作创建的一个结构化评审数据集。该数据集包含了原始研究论文、结构化的中间评审步骤和最终评估,旨在解决自动化评审系统中存在的缺乏细粒度专家评估过程的问题。DeepReview-13K数据集包含了13378条有效样本,是从两个ICLR会议周期(2024-2025)的18976篇论文投稿中收集并经过严格质量控制的。

arXiv 收录