Sequential Recommendation Datasets|序列推荐数据集|机器学习数据集
收藏数据集概述
数据集名称
- Sequential Recommendation Datasets
数据集描述
- 该数据集收集了近期研究论文中常用的顺序推荐数据集,并提供了一个工具用于下载、预处理和批量加载这些数据集。预处理方法可以根据任务进行定制,例如短期推荐(包括基于会话的推荐)和长期短期推荐。加载过程有更快的版本,集成了PyTorch的DataLoader。
包含的数据集
- Amazon系列:包括书籍、电子产品、电影、CD、服装、家居、Kindle、体育、手机、健康、玩具、视频游戏、工具、美容、应用、办公、宠物、汽车、杂货、庭院、婴儿、音乐、乐器、即时视频等。
- CiteULike
- FourSquare-NYC
- FourSquare-Tokyo
- Gowalla
- Lastfm1K
- MovieLens20M
- Retailrocket
- TaFeng
- Taobao
- Tmall
- Yelp
数据集下载与处理
- 下载命令:
srdatasets download --dataset=[dataset_name]
- 处理命令:
srdatasets process --dataset=[dataset_name] [--options]
数据集预处理选项
- 分割方法:用户基于和时间基于(默认:用户)
- 测试集比例:测试集对全数据集的比例(默认:0.2)
- 验证集比例:验证集对全训练集的比例(默认:0.1)
- 任务类型:短期或长期短期(默认:短期)
- 输入项数:前项数(默认:5)
- 目标项数:目标项数(默认:1)
- 前会话数:前会话数(默认:10)
- 目标选择:随机或最后选择(默认:随机)
- 会话间隔:会话分割间隔(分钟)(默认:0)
- 最小会话长度:小于此长度的会话将被丢弃(默认:2)
- 最大会话长度:大于此长度的会话将被截断(默认:20)
- 最小频率项:频率小于此的项将被丢弃(默认:5)
- 最小频率用户:频率小于此的用户将被丢弃(默认:5)
- 数据增强:不使用数据增强(默认:False)
- 移除重复项:移除用户序列或用户会话中的重复项(默认:False)
- 评分阈值:评分低于此的交互将被丢弃(Amazon, Movielens, Yelp)(默认:4)
- 项目类型:推荐艺术家或歌曲(Lastfm)(默认:song)
数据加载器(DataLoader)
- 用于加载预处理数据集的类,支持批量数据加载和负采样。
- 参数包括数据集名称、配置ID、批量大小、训练数据加载标志、负样本数、是否包含时间戳等。
- 属性包括训练数据集中的用户总数和项目总数。
免责声明
- 本仓库不托管或分发任何数据集,使用数据集前需确认是否具有使用许可。

HazyDet
HazyDet是由解放军工程大学等机构创建的一个大规模数据集,专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例,收集自自然雾霾环境和正常场景中人工添加的雾霾效果,以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型,确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测,旨在提高无人机在复杂环境中的感知能力。
arXiv 收录
中国裁判文书网
中国裁判文书网是中国最高人民法院设立的官方网站,旨在公开各级法院的裁判文书。该数据集包含了大量的法律文书,如判决书、裁定书、调解书等,涵盖了民事、刑事、行政、知识产权等多个法律领域。
wenshu.court.gov.cn 收录
China Health and Nutrition Survey (CHNS)
China Health and Nutrition Survey(CHNS)是一项由美国北卡罗来纳大学人口中心与中国疾病预防控制中心营养与健康所合作开展的长期开放性队列研究项目,旨在评估国家和地方政府的健康、营养与家庭计划政策对人群健康和营养状况的影响,以及社会经济转型对居民健康行为和健康结果的作用。该调查覆盖中国15个省份和直辖市的约7200户家庭、超过30000名个体,采用多阶段随机抽样方法,收集了家庭、个体以及社区层面的详细数据,包括饮食、健康、经济和社会因素等信息。自2011年起,CHNS不断扩展,新增多个城市和省份,并持续完善纵向数据链接,为研究中国社会经济变化与健康营养的动态关系提供了重要的数据支持。
www.cpc.unc.edu 收录
糖尿病预测数据集
糖尿病相关的医学研究或者健康数据
AI_Studio 收录
Beijing Traffic
The Beijing Traffic Dataset collects traffic speeds at 5-minute granularity for 3126 roadway segments in Beijing between 2022/05/12 and 2022/07/25.
Papers with Code 收录