five

starcoderdata|编程语言分析数据集|代码数据处理数据集

收藏
OpenDataLab2025-04-05 更新2024-05-09 收录
编程语言分析
代码数据处理
下载链接:
https://opendatalab.org.cn/OpenDataLab/starcoderdata
下载链接
链接失效反馈
资源简介:
这是用于训练StarCoder和StarCoderBase的数据集。它包含86种编程语言的783GB代码,并包括54GB GitHub问题脚本和文本代码对中的13GB Jupyter笔记本,以及32GB GitHub提交,大约250个令牌。
提供机构:
OpenDataLab
创建时间:
2023-10-11
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

The MaizeGDB

The MaizeGDB(Maize Genetics and Genomics Database)是一个专门为玉米(Zea mays)基因组学研究提供数据和工具的在线资源。该数据库包含了玉米的基因组序列、基因注释、遗传图谱、突变体信息、表达数据、以及与玉米相关的文献和研究工具。MaizeGDB旨在支持玉米遗传学和基因组学的研究,为科学家提供了一个集成的平台来访问和分析玉米的遗传和基因组数据。

www.maizegdb.org 收录

lmarena-ai/arena-human-preference-100k

这个数据集包含了2024年6月至2024年8月期间收集的排行榜对话数据。它包括用于开发Arena Explorer的英语人类偏好评价。此外,我们还提供了一个嵌入文件,其中包含了英语对话的预计算嵌入,这些嵌入用于主题建模管道以对这些对话进行分类和分析。

hugging_face 收录

PoLaRIS Dataset

PoLaRIS数据集是由仁荷大学电气与计算机工程系创建的一个用于海上目标检测和跟踪的多模态数据集,基于Pohang Canal数据集。该数据集包含约36万张图像和19万条标注,涵盖了从大到小的多尺度对象标注,特别适用于海上无人船(USV)的安全导航。数据集通过多模态传感器(如RGB、TIR、LiDAR和Radar)获取数据,并提供了详细的障碍物检测和跟踪的地面真实数据。创建过程中采用了半自动标注方法,确保了标注的准确性和效率。该数据集主要应用于复杂海上环境中的自主导航系统,旨在提高海上无人船的障碍物检测和跟踪能力,从而提升海上安全。

arXiv 收录

THCHS-30

“THCHS30是由清华大学语音与语言技术中心(CSLT)发布的开放式汉语语音数据库。原始录音是2002年在清华大学国家重点实验室的朱晓燕教授的指导下,由王东完成的。清华大学计算机科学系智能与系统,原名“TCMSD”,意思是“清华连续普通话语音数据库”,时隔13年出版,由王东博士发起,并得到了教授的支持。朱小燕。我们希望为语音识别领域的新研究人员提供一个玩具数据库。因此,该数据库对学术用户完全免费。整个软件包包含建立中文语音识别所需的全套语音和语言资源系统。”

OpenDataLab 收录

URPC系列数据集, S-URPC2019, UDD

URPC系列数据集包括URPC2017至URPC2020DL,主要用于水下目标的检测和分类。S-URPC2019专注于水下环境的特定检测任务。UDD数据集信息未在README中详细描述。

github 收录