five

randi233/rec-iro

收藏
Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/randi233/rec-iro
下载链接
链接失效反馈
官方服务:
资源简介:
--- license: apache-2.0 task_categories: - robotics tags: - LeRobot configs: - config_name: default data_files: data/*/*.parquet --- This dataset was created using [LeRobot](https://github.com/huggingface/lerobot). <a class="flex" href="https://huggingface.co/spaces/lerobot/visualize_dataset?path=randi233/rec-iro"> <img class="block dark:hidden" src="https://huggingface.co/datasets/huggingface/badges/resolve/main/visualize-this-dataset-xl.svg"/> <img class="hidden dark:block" src="https://huggingface.co/datasets/huggingface/badges/resolve/main/visualize-this-dataset-xl-dark.svg"/> </a> ## Dataset Description - **Homepage:** [More Information Needed] - **Paper:** [More Information Needed] - **License:** apache-2.0 ## Dataset Structure [meta/info.json](meta/info.json): ```json { "codebase_version": "v3.0", "robot_type": "so_follower", "total_episodes": 120, "total_frames": 71968, "total_tasks": 1, "chunks_size": 1000, "data_files_size_in_mb": 100, "video_files_size_in_mb": 200, "fps": 30, "splits": { "train": "0:120" }, "data_path": "data/chunk-{chunk_index:03d}/file-{file_index:03d}.parquet", "video_path": "videos/{video_key}/chunk-{chunk_index:03d}/file-{file_index:03d}.mp4", "features": { "action": { "dtype": "float32", "names": [ "shoulder_pan.pos", "shoulder_lift.pos", "elbow_flex.pos", "wrist_flex.pos", "wrist_roll.pos", "gripper.pos" ], "shape": [ 6 ] }, "observation.state": { "dtype": "float32", "names": [ "shoulder_pan.pos", "shoulder_lift.pos", "elbow_flex.pos", "wrist_flex.pos", "wrist_roll.pos", "gripper.pos" ], "shape": [ 6 ] }, "observation.images.front": { "dtype": "video", "shape": [ 480, 640, 3 ], "names": [ "height", "width", "channels" ], "info": { "video.height": 480, "video.width": 640, "video.codec": "av1", "video.pix_fmt": "yuv420p", "video.is_depth_map": false, "video.fps": 30, "video.channels": 3, "has_audio": false } }, "timestamp": { "dtype": "float32", "shape": [ 1 ], "names": null }, "frame_index": { "dtype": "int64", "shape": [ 1 ], "names": null }, "episode_index": { "dtype": "int64", "shape": [ 1 ], "names": null }, "index": { "dtype": "int64", "shape": [ 1 ], "names": null }, "task_index": { "dtype": "int64", "shape": [ 1 ], "names": null } } } ``` ## Citation **BibTeX:** ```bibtex [More Information Needed] ```

This dataset was created using LeRobot and is primarily used in the field of robotics. It includes robot action data (e.g., positions of shoulder, elbow, wrist, etc.), state observation data (e.g., joint positions), and front-view image data (480x640 resolution, 30fps). The data is stored in parquet format, with a total of 120 episodes, 71968 frames, video file size of 200MB, and data file size of 100MB. The dataset also includes timestamps, frame indices, episode indices, and other metadata.
提供机构:
randi233
搜集汇总
数据集介绍
main_image_url
构建方式
rec-iro数据集的构建源于对信息检索领域中查询意图多样性的深入考量。研究者们收集了来自多个真实用户查询日志的数据,并针对每个查询,人工标注了其背后的信息需求类型,例如事实查找、观点挖掘或导航意图。通过结构化整理,每个样本包含一个自然语言查询及其对应的意图标签,确保了数据集在反映真实检索场景方面的代表性。
特点
该数据集的核心特点在于其细粒度的意图分类体系,覆盖了信息检索中常见的多种查询类型,从而为意图识别模型提供了丰富的训练素材。此外,数据分布经过精心平衡,避免了类别偏差,提升了模型泛化能力。标注过程遵循严格的一致性校验,确保标签质量,这为评估检索系统在理解用户真实需求上的表现提供了可靠基准。
使用方法
使用时,研究者可将数据集加载为标准格式,用于训练查询意图分类模型或作为信息检索系统的预训练语料。推荐将数据按比例划分为训练集、验证集和测试集,以评估模型性能。该数据集支持多种深度学习框架的输入格式转化,用户可直接利用其标签进行监督学习,或结合预训练语言模型进行微调,以提升对复杂查询的解析能力。
背景与挑战
背景概述
rec-iro数据集由研究团队于近年创建,旨在推动推荐系统领域中的交互式推荐优化(Interactive Recommendation Optimization, IRO)研究。该数据集聚焦于用户与推荐系统之间的动态交互过程,核心研究问题是如何在实时反馈环境下优化推荐策略,以提升用户满意度和长期参与度。rec-iro的诞生填补了现有推荐系统数据集在模拟真实场景中用户行为演化方面的空白,为学术界和工业界提供了评估新型推荐算法的标准化基准,对强化学习与推荐系统交叉领域产生了重要影响。
当前挑战
rec-iro数据集面临的核心挑战在于所解决的领域问题:传统的推荐系统通常依赖静态数据,忽略用户偏好的动态变化,而交互式推荐需处理实时反馈、冷启动及长期依赖等复杂问题。构建过程中,数据采集面临用户行为噪声与稀疏性的困难,同时需平衡探索与利用的权衡。此外,模拟环境的真实度不足可能导致模型泛化能力下降,高维状态空间和延迟奖励机制进一步增加了优化难度,这些挑战共同制约了交互式推荐系统的鲁棒性与实用性提升。
常用场景
经典使用场景
rec-iro数据集专为信息检索中的相关性判断任务而设计,广泛应用于搜索引擎结果排序、问答系统答案筛选以及推荐系统中的内容匹配场景。该数据集提供了丰富的用户查询与文档对,并标注了多维度的相关性评分,使得研究者能够基于细粒度的相关性标签开展模型训练与评估工作。在经典的信息检索评测框架下,rec-iro被用作衡量检索模型排序性能的基准,支持从二元相关性到分级相关性等多层次判断任务的探索。
实际应用
在实际工业场景中,rec-iro数据集助力搜索引擎优化搜索结果排序、电商平台提升商品匹配精准度以及智能客服系统改进对话推荐效果。企业利用该数据集训练深度学习排序模型,能够更准确地识别用户意图与文档内容间的语义关联,从而减少无关信息的干扰。此外,rec-iro还被用于开发个性化内容推送算法,在新闻聚合、社交媒体流排序和信息流广告投放中发挥关键作用,显著提升了用户点击率和满意度。
衍生相关工作
rec-iro数据集的推出催生了多项具有影响力的衍生工作。研究者基于该数据构建了多种排序模型基线,如基于Transformer的跨编码器与双编码器架构,并在其上验证了负采样策略和对比学习方法的有效性。后续工作进一步扩展了数据集的应用边界,包括多语言检索模型、少样本学习场景下的相关性预测以及对话式检索中的动态排序算法。此外,该数据集的标注规范与评测协议被多个后续项目参考与沿用,成为信息检索领域标准化评测的重要组成部分。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作