有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?

O*NET
O*NET(Occupational Information Network)是一个综合性的职业信息数据库,提供了关于各种职业的详细描述,包括技能要求、工作活动、知识领域、工作环境等。该数据集被广泛用于职业分析、教育和劳动力市场研究。
www.onetonline.org 收录
AIS数据集
该研究使用了多个公开的AIS数据集,这些数据集经过过滤、清理和统计分析。数据集涵盖了多种类型的船舶,并提供了关于船舶位置、速度和航向的关键信息。数据集包括来自19,185艘船舶的AIS消息,总计约6.4亿条记录。
github 收录
NIH Chest X-rays
Over 112,000 Chest X-ray images from more than 30,000 unique patients
kaggle 收录
togethercomputer/RedPajama-Data-1T
RedPajama是一个用于文本生成任务的大型数据集,包含2084个jsonl文件,总token数达到1.2万亿。数据集主要使用英语,但也包含多语言的Wikipedia部分。数据集结构包括文本内容、元数据(如URL、时间戳、来源和语言)以及标识数据子集的字段。创建过程涉及从多个源(如Commoncrawl、C4、GitHub等)下载和预处理数据,以尽可能接近LLaMa论文的描述。
hugging_face 收录
CMU-MOSI
CMU-MOSI数据集包括了从93个YouTube的视频中获取的2199个独白类型的短视频片段。每个片段都是一个独立的多模态示例,其中图像、文本和音频占比是均匀的,情感分数取值为[-3,+3],表示从强负向到强正向情感。
DataCite Commons 收录