NatLibFi/Finna-JOKA-images|旧照片数据集|AI/ML应用数据集
收藏数据集概述
数据集名称
Old photographs from Journalistic Picture Archive JOKA
数据集内容
- 图像数量: 4595张
- 图像类型: 老照片(截至1940年)
- 文件格式: JPEG
- 存储位置:
images
目录下
数据集用途
- 用于AI/ML任务,如生成标题或彩色化图像
元数据信息
- 文件:
metadata.jsonl
- 格式: JSON Lines(每行一个JSON记录)
- 包含信息: 描述性标题(主要为芬兰语)、主题关键词、位置、摄影师名称
file_name
字段: 包含JPEG图像文件的相对路径
许可信息
- 许可证: Creative Commons Attribution 4.0 (CC-BY-4.0)
- 使用要求: 必须引用作者和/或摄影师的名称、收藏和组织的名称。使用时需尊重版权和隐私保护,确保数据的正确性。未经许可,禁止在营销和广告中使用肖像。用户需负责获取涉及人物、作品和商标的许可。用户需根据使用目的负责数据处理。
数据集标签
- 新闻学
- 摄影
- 历史
- 博物馆
任务类别
- 图像到文本
- 图像到图像
语言
- 芬兰语
数据集大小
- 1K<n<10K

Yahoo Finance
Dataset About finance related to stock market
kaggle 收录
YOLO Drone Detection Dataset
为了促进无人机检测模型的开发和评估,我们引入了一个新颖且全面的数据集,专门为训练和测试无人机检测算法而设计。该数据集来源于Kaggle上的公开数据集,包含在各种环境和摄像机视角下捕获的多样化的带注释图像。数据集包括无人机实例以及其他常见对象,以实现强大的检测和分类。
github 收录
MedChain
MedChain是由香港城市大学、香港中文大学、深圳大学、阳明交通大学和台北荣民总医院联合创建的临床决策数据集,包含12,163个临床案例,涵盖19个医学专科和156个子类别。数据集通过五个关键阶段模拟临床工作流程,强调个性化、互动性和顺序性。数据来源于中国医疗网站“iiYi”,经过专业医生验证和去识别化处理,确保数据质量和患者隐私。MedChain旨在评估大型语言模型在真实临床场景中的诊断能力,解决现有基准在个性化医疗、互动咨询和顺序决策方面的不足。
arXiv 收录
RadDet
RadDet是一个包含11种雷达类别的数据集,包括6种新的低概率干扰(LPI)多相码(P1, P2, P3, P4, Px, Zadoff-Chu)和一种新的宽带调频连续波(FMCW)。数据集覆盖500 MHz频段,包含40,000个雷达帧,分为训练集、验证集和测试集。数据集在两种不同的雷达环境中提供:稀疏数据集(RadDet-1T)和密集数据集(RadDet-9T)。
github 收录
腾讯词向量(Tencent AI Lab Embedding Corpus for Chinese Words and Phrases)
这些语料库的最新版本提供了100维度和200维度的向量表示形式,也就是嵌入,适用于中文和英文。具体来说,有超过1200万个中文单词和短语以及650万个英语单词和短语,它们是在大规模高质量数据上进行预先培训的。这些向量捕获单词和短语的语义含义,可以广泛应用于许多下游任务 (例如,命名实体识别和文本分类) 以及进一步的研究中。
OpenDataLab 收录