starcoderdata|编程语言分析数据集|代码数据处理数据集
收藏The MaizeGDB
The MaizeGDB(Maize Genetics and Genomics Database)是一个专门为玉米(Zea mays)基因组学研究提供数据和工具的在线资源。该数据库包含了玉米的基因组序列、基因注释、遗传图谱、突变体信息、表达数据、以及与玉米相关的文献和研究工具。MaizeGDB旨在支持玉米遗传学和基因组学的研究,为科学家提供了一个集成的平台来访问和分析玉米的遗传和基因组数据。
www.maizegdb.org 收录
lmarena-ai/arena-human-preference-100k
这个数据集包含了2024年6月至2024年8月期间收集的排行榜对话数据。它包括用于开发Arena Explorer的英语人类偏好评价。此外,我们还提供了一个嵌入文件,其中包含了英语对话的预计算嵌入,这些嵌入用于主题建模管道以对这些对话进行分类和分析。
hugging_face 收录
PoLaRIS Dataset
PoLaRIS数据集是由仁荷大学电气与计算机工程系创建的一个用于海上目标检测和跟踪的多模态数据集,基于Pohang Canal数据集。该数据集包含约36万张图像和19万条标注,涵盖了从大到小的多尺度对象标注,特别适用于海上无人船(USV)的安全导航。数据集通过多模态传感器(如RGB、TIR、LiDAR和Radar)获取数据,并提供了详细的障碍物检测和跟踪的地面真实数据。创建过程中采用了半自动标注方法,确保了标注的准确性和效率。该数据集主要应用于复杂海上环境中的自主导航系统,旨在提高海上无人船的障碍物检测和跟踪能力,从而提升海上安全。
arXiv 收录
THCHS-30
“THCHS30是由清华大学语音与语言技术中心(CSLT)发布的开放式汉语语音数据库。原始录音是2002年在清华大学国家重点实验室的朱晓燕教授的指导下,由王东完成的。清华大学计算机科学系智能与系统,原名“TCMSD”,意思是“清华连续普通话语音数据库”,时隔13年出版,由王东博士发起,并得到了教授的支持。朱小燕。我们希望为语音识别领域的新研究人员提供一个玩具数据库。因此,该数据库对学术用户完全免费。整个软件包包含建立中文语音识别所需的全套语音和语言资源系统。”
OpenDataLab 收录
URPC系列数据集, S-URPC2019, UDD
URPC系列数据集包括URPC2017至URPC2020DL,主要用于水下目标的检测和分类。S-URPC2019专注于水下环境的特定检测任务。UDD数据集信息未在README中详细描述。
github 收录