Polyvore Dataset|时尚搭配数据集|数据分析数据集
收藏数据集概述
数据集名称
- Polyvore Dataset
数据集来源
- 源自ACM MM17论文 "Learning Fashion Compatibility with Bidirectional LSTMs"。
数据集内容
- Polyvore outfits: 包含21,889套服装,其中17,316套用于训练,1,497套用于验证,3,076套用于测试。
- JSON文件结构: 每套服装包含名称、浏览次数、服装项目列表、图片URL、喜欢次数、上传日期、URL和描述。
- 服装项目信息: 包括索引、名称、价格、喜欢次数、图片URL和类别ID。
- 图片URL: 已失效,可通过Kaggle页面获取。
- 类别ID映射: 提供类别ID与类别名称的映射文件。
数据集任务
- Fill-in-the-blank Fashion Recommendation: 包含用于评估的任务数据,格式为问题、答案和空白位置。
- Fashion Compatibility Prediction: 包含约7,000套服装,用于评估服装兼容性。
数据集下载
- 可通过Google Drive和Kaggle下载。
数据集版本
- 提供一个清理版本的数据集:Cleaned Maryland。
数据集联系
- 作者: Xintong Han
- 联系方式: xintong@umd.edu
数据集引用
- 引用格式请参考README文件中的引用部分。

中国空气质量数据集(2014-2020年)
数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI,包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台,每日更新。数据集的原始文件为CSV的文本记录,通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。
国家地球系统科学数据中心 收录
CE-CSL
CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集,旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段,涵盖超过70种不同的复杂背景,确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向,通过收集大量真实场景下的手语视频材料,覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域,旨在提高手语识别技术在复杂环境中的准确性和效率,促进聋人与听人社区之间的无障碍沟通。
arXiv 收录
VisDrone2019
VisDrone2019数据集由AISKYEYE团队在天津大学机器学习和数据挖掘实验室收集,包含288个视频片段共261,908帧和10,209张静态图像。数据集覆盖了中国14个不同城市的城市和乡村环境,包括行人、车辆、自行车等多种目标,以及稀疏和拥挤场景。数据集使用不同型号的无人机在各种天气和光照条件下收集,手动标注了超过260万个目标边界框,并提供了场景可见性、对象类别和遮挡等重要属性。
github 收录
Yahoo Finance
Dataset About finance related to stock market
kaggle 收录
MedChain
MedChain是由香港城市大学、香港中文大学、深圳大学、阳明交通大学和台北荣民总医院联合创建的临床决策数据集,包含12,163个临床案例,涵盖19个医学专科和156个子类别。数据集通过五个关键阶段模拟临床工作流程,强调个性化、互动性和顺序性。数据来源于中国医疗网站“iiYi”,经过专业医生验证和去识别化处理,确保数据质量和患者隐私。MedChain旨在评估大型语言模型在真实临床场景中的诊断能力,解决现有基准在个性化医疗、互动咨询和顺序决策方面的不足。
arXiv 收录