five

MicroLens_1M

收藏
github2025-02-05 更新2025-02-26 收录
下载链接:
https://github.com/reczoo/WWW2025_MMCTR_Challenge
下载链接
链接失效反馈
资源简介:
README中未提供数据集中文描述,需要翻译
创建时间:
2025-01-26
原始信息汇总

WWW2025_MMCTR_Challenge数据集概述

数据集基本信息

  • 数据集名称:WWW2025_MMCTR_Challenge
  • 主办方:WWW 2025 EReL@MIR workshop
  • 挑战赛官网:https://www.codabench.org/competitions/5372/
  • 详细信息页面:https://erel-mir.github.io/challenge/mmctr-track2/

挑战任务

  1. 多模态物品嵌入任务
    • 目标:开发适用于推荐任务的多模态表示学习和融合方法。
  2. 多模态CTR预测任务
    • 目标:设计有效利用嵌入特征提升推荐准确率的CTR预测模型。

数据集内容

  • 数据下载地址:https://recsys.westlake.edu.cn/MicroLens_1M_MMCTR
  • 文件结构:
    • MicroLens_1M_x1/train.parquet
    • MicroLens_1M_x1/valid.parquet
    • MicroLens_1M_x1/test.parquet
    • MicroLens_1M_x1/item_info.parquet
    • item_feature.parquet
    • item_emb.parquet
    • item_seq.parquet
    • item_images.rar

基准模型

  • 基础框架:FuxiCTR (https://github.com/reczoo/FuxiCTR)
  • 基准模型配置:config/DIN_microlens_mmctr_tuner_config_01.yaml
  • 最佳验证AUC:0.8655

环境要求

  • GPU服务器配置:
    • GPU内存:16G
    • RAM:750G
  • 软件环境:
    • Python 3.9
    • torch==1.13.1+cu117
    • fuxictr==2.3.7

引用文献

改进方向

  1. 探索DIN模型外的其他CTR预测模型
  2. 尝试使用新的LLMs/MLLMs进行多模态物品嵌入
  3. 研究多模态嵌入特征融合的其他方法
AI搜集汇总
数据集介绍
main_image_url
构建方式
MicroLens_1M数据集是在WWW2025 MM-CTR挑战的背景下构建的,旨在推动多模态CTR预测模型的发展。该数据集基于FuxiCTR库构建 baseline,该库以其可配置、可调整和可重现的特性被ACM RecSys Conference列为推荐框架。数据集包含用户行为序列、商品信息、文本和图像嵌入等多种模态信息,通过下载、解压数据文件并进行预处理,形成了可用于模型训练和测试的格式。
特点
MicroLens_1M数据集的特点在于其多模态特性,包含了丰富的商品信息和用户行为数据。数据集以Parquet格式存储,便于高效处理和分析。此外,数据集提供了文本和图像的预训练嵌入,有助于减少模型训练的复杂性并提升模型性能。挑战任务分为多模态商品嵌入和多模态CTR预测,旨在推动具有实际应用价值的研究。
使用方法
使用MicroLens_1M数据集首先需要配置适当的环境,包括Python、Torch和FuxiCTR库。训练模型时,可通过调整配置文件中的超参数进行网格搜索以优化模型。完成训练后,模型可在测试集上进行预测,并将结果提交至 leaderboard。数据集的使用涉及数据下载、预处理、模型训练、超参数调整、测试和提交结果等多个步骤,流程清晰且易于上手。
背景与挑战
背景概述
MicroLens_1M数据集是在WWW 2025 EReL@MIR研讨会框架下构建的,旨在推动多模态点击率(CTR)预测领域的研究。该数据集由Jieming Zhu等研究人员创建,并在2021年的ACM国际信息与知识管理会议(CIKM)上发表了相关基准测试论文。数据集的核心研究问题是提升推荐系统的CTR预测准确性,通过多模态项目嵌入和CTR预测两项子任务,为工业应用提供具有实际价值和洞见的解决方案。
当前挑战
该数据集在研究领域中面临的挑战包括:1) 如何有效融合多模态信息,提高CTR预测模型的性能;2) 构建过程中,如何处理大规模多模态数据,并确保模型的可扩展性和效率。具体挑战体现在多模态特征提取、融合策略的选择以及模型优化等方面。
常用场景
经典使用场景
MicroLens_1M数据集作为WWW2025 MM-CTR挑战的组成部分,其经典使用场景主要聚焦于多模态项目嵌入和点击率预测。该数据集通过提供丰富的多模态信息,如文本描述、图像嵌入等,使得研究者能够探索和开发适用于推荐系统的多模态表示学习和融合方法。
实际应用
在实际应用中,MicroLens_1M数据集的应用场景广泛,尤其在电子商务、社交媒体等领域的个性化推荐系统中,能够帮助平台更准确地预测用户对商品或内容的点击概率,从而提升用户体验和内容分发效率。
衍生相关工作
基于MicroLens_1M数据集,已衍生出多项相关工作,包括但不限于探索新的多模态嵌入模型、融合策略以及对比学习等,这些研究进一步拓展了多模态CTR预测的理论和实践边界。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

PDT Dataset

PDT数据集是由山东计算机科学中心(国家超级计算济南中心)和齐鲁工业大学(山东省科学院)联合开发的无人机目标检测数据集,专门用于检测树木病虫害。该数据集包含高分辨率和低分辨率两种版本,共计5775张图像,涵盖了健康和受病虫害影响的松树图像。数据集的创建过程包括实地采集、数据预处理和人工标注,旨在为无人机在农业中的精准喷洒提供高精度的目标检测支持。PDT数据集的应用领域主要集中在农业无人机技术,旨在提高无人机在植物保护中的目标识别精度,解决传统检测模型在实际应用中的不足。

arXiv 收录

全国 1∶200 000 数字地质图(公开版)空间数据库

As the only one of its kind, China National Digital Geological Map (Public Version at 1∶200 000 scale) Spatial Database (CNDGM-PVSD) is based on China' s former nationwide measured results of regional geological survey at 1∶200 000 scale, and is also one of the nationwide basic geosciences spatial databases jointly accomplished by multiple organizations of China. Spatially, it embraces 1 163 geological map-sheets (at scale 1: 200 000) in both formats of MapGIS and ArcGIS, covering 72% of China's whole territory with a total data volume of 90 GB. Its main sources is from 1∶200 000 regional geological survey reports, geological maps, and mineral resources maps with an original time span from mid-1950s to early 1990s. Approved by the State's related agencies, it meets all the related technical qualification requirements and standards issued by China Geological Survey in data integrity, logic consistency, location acc racy, attribution fineness, and collation precision, and is hence of excellent and reliable quality. The CNDGM-PVSD is an important component of China' s national spatial database categories, serving as a spatial digital platform for the information construction of the State's national economy, and providing informationbackbones to the national and provincial economic planning, geohazard monitoring, geological survey, mineral resources exploration as well as macro decision-making.

DataCite Commons 收录

CMNEE(Chinese Military News Event Extraction dataset)

CMNEE(Chinese Military News Event Extraction dataset)是国防科技大学、东南大学和清华大学联合构建的一个大规模的、基于文档标注的开源中文军事新闻事件抽取数据集。该数据集包含17,000份文档和29,223个事件,所有事件均基于预定义的军事领域模式人工标注,包括8种事件类型和11种论元角色。数据集构建遵循两阶段多轮次标注策略,首先通过权威网站获取军事新闻文本并预处理,然后依据触发词字典进行预标注,经领域专家审核后形成事件模式。随后,通过人工分批、迭代标注并持续修正,直至满足既定质量标准。CMNEE作为首个专注于军事领域文档级事件抽取的数据集,对推动相关研究具有显著意义。

github 收录

AIS数据集

该研究使用了多个公开的AIS数据集,这些数据集经过过滤、清理和统计分析。数据集涵盖了多种类型的船舶,并提供了关于船舶位置、速度和航向的关键信息。数据集包括来自19,185艘船舶的AIS消息,总计约6.4亿条记录。

github 收录

实时天气预报-全国天气预报查询-天气查询-天气api接口-天气预警-天气预报查询-天气预报

天气查询API提供全球城市精准天气数据,支持实时查询及多日预报,返回包括城市、国家、地区、日期、最高/最低温度、天气描述、湿度、风速、风向和降水概率等详细气象信息,采用JSON结构化数据格式,响应快速稳定,适用于各类天气应用、出行规划和数据分析场景。

腾讯云市场 收录