MicroLens_1M
收藏WWW2025_MMCTR_Challenge数据集概述
数据集基本信息
- 数据集名称:WWW2025_MMCTR_Challenge
- 主办方:WWW 2025 EReL@MIR workshop
- 挑战赛官网:https://www.codabench.org/competitions/5372/
- 详细信息页面:https://erel-mir.github.io/challenge/mmctr-track2/
挑战任务
- 多模态物品嵌入任务
- 目标:开发适用于推荐任务的多模态表示学习和融合方法。
- 多模态CTR预测任务
- 目标:设计有效利用嵌入特征提升推荐准确率的CTR预测模型。
数据集内容
- 数据下载地址:https://recsys.westlake.edu.cn/MicroLens_1M_MMCTR
- 文件结构:
MicroLens_1M_x1/train.parquet
MicroLens_1M_x1/valid.parquet
MicroLens_1M_x1/test.parquet
MicroLens_1M_x1/item_info.parquet
item_feature.parquet
item_emb.parquet
item_seq.parquet
item_images.rar
基准模型
- 基础框架:FuxiCTR (https://github.com/reczoo/FuxiCTR)
- 基准模型配置:
config/DIN_microlens_mmctr_tuner_config_01.yaml
- 最佳验证AUC:0.8655
环境要求
- GPU服务器配置:
- GPU内存:16G
- RAM:750G
- 软件环境:
- Python 3.9
- torch==1.13.1+cu117
- fuxictr==2.3.7
引用文献
- Jieming Zhu等. Open Benchmarking for Click-Through Rate Prediction. CIKM 2021.
改进方向
- 探索DIN模型外的其他CTR预测模型
- 尝试使用新的LLMs/MLLMs进行多模态物品嵌入
- 研究多模态嵌入特征融合的其他方法

PDT Dataset
PDT数据集是由山东计算机科学中心(国家超级计算济南中心)和齐鲁工业大学(山东省科学院)联合开发的无人机目标检测数据集,专门用于检测树木病虫害。该数据集包含高分辨率和低分辨率两种版本,共计5775张图像,涵盖了健康和受病虫害影响的松树图像。数据集的创建过程包括实地采集、数据预处理和人工标注,旨在为无人机在农业中的精准喷洒提供高精度的目标检测支持。PDT数据集的应用领域主要集中在农业无人机技术,旨在提高无人机在植物保护中的目标识别精度,解决传统检测模型在实际应用中的不足。
arXiv 收录
全国 1∶200 000 数字地质图(公开版)空间数据库
As the only one of its kind, China National Digital Geological Map (Public Version at 1∶200 000 scale) Spatial Database (CNDGM-PVSD) is based on China' s former nationwide measured results of regional geological survey at 1∶200 000 scale, and is also one of the nationwide basic geosciences spatial databases jointly accomplished by multiple organizations of China. Spatially, it embraces 1 163 geological map-sheets (at scale 1: 200 000) in both formats of MapGIS and ArcGIS, covering 72% of China's whole territory with a total data volume of 90 GB. Its main sources is from 1∶200 000 regional geological survey reports, geological maps, and mineral resources maps with an original time span from mid-1950s to early 1990s. Approved by the State's related agencies, it meets all the related technical qualification requirements and standards issued by China Geological Survey in data integrity, logic consistency, location acc racy, attribution fineness, and collation precision, and is hence of excellent and reliable quality. The CNDGM-PVSD is an important component of China' s national spatial database categories, serving as a spatial digital platform for the information construction of the State's national economy, and providing informationbackbones to the national and provincial economic planning, geohazard monitoring, geological survey, mineral resources exploration as well as macro decision-making.
DataCite Commons 收录
CMNEE(Chinese Military News Event Extraction dataset)
CMNEE(Chinese Military News Event Extraction dataset)是国防科技大学、东南大学和清华大学联合构建的一个大规模的、基于文档标注的开源中文军事新闻事件抽取数据集。该数据集包含17,000份文档和29,223个事件,所有事件均基于预定义的军事领域模式人工标注,包括8种事件类型和11种论元角色。数据集构建遵循两阶段多轮次标注策略,首先通过权威网站获取军事新闻文本并预处理,然后依据触发词字典进行预标注,经领域专家审核后形成事件模式。随后,通过人工分批、迭代标注并持续修正,直至满足既定质量标准。CMNEE作为首个专注于军事领域文档级事件抽取的数据集,对推动相关研究具有显著意义。
github 收录
AIS数据集
该研究使用了多个公开的AIS数据集,这些数据集经过过滤、清理和统计分析。数据集涵盖了多种类型的船舶,并提供了关于船舶位置、速度和航向的关键信息。数据集包括来自19,185艘船舶的AIS消息,总计约6.4亿条记录。
github 收录
实时天气预报-全国天气预报查询-天气查询-天气api接口-天气预警-天气预报查询-天气预报
天气查询API提供全球城市精准天气数据,支持实时查询及多日预报,返回包括城市、国家、地区、日期、最高/最低温度、天气描述、湿度、风速、风向和降水概率等详细气象信息,采用JSON结构化数据格式,响应快速稳定,适用于各类天气应用、出行规划和数据分析场景。
腾讯云市场 收录