five

BrowserAgent-Data

收藏
魔搭社区2025-12-05 更新2025-11-03 收录
下载链接:
https://modelscope.cn/datasets/TIGER-Lab/BrowserAgent-Data
下载链接
链接失效反馈
官方服务:
资源简介:
# BrowserAgent ChatML Dataset (SFT/RFT) This dataset contains ChatML-style multi-turn dialogues for a browser agent task. The data is prepared as JSON Lines so it can be previewed directly with the Hugging Face Hub Data Visualizer and loaded with the `datasets` library. ## Links [Paper](https://arxiv.org/abs/2510.10666) [Github](https://github.com/TIGER-AI-Lab/BrowserAgent?tab=readme-ov-file) ## Files - sft.jsonl — SFT split (one JSON object per line) - rft.jsonl — RFT split (one JSON object per line) ## Schema Each record is a JSON object containing: - messages: list[object] - role: string ∈ {system, user, assistant} - content: string - subset: string (the source filename without extension) - stage: string ∈ {sft, rft} ## Load with datasets ```python from datasets import load_dataset ds = load_dataset( "json", data_files={ "sft": "sft.jsonl", "rft": "rft.jsonl", }, ) print(ds) print(ds["sft"][0]["messages"][0]) print(ds["sft"][0]["subset"]) # for filtering/grouping print(ds["sft"][0]["stage"]) # sft or rft ``` ## Notes - Files are standard JSON Lines (.jsonl); the Hub Data Visualizer will display nested `messages` as JSON cells. - The `subset` field helps trace each example back to its original source file. ## Citation ``` @misc{yu2025browseragentbuildingwebagents, title={BrowserAgent: Building Web Agents with Human-Inspired Web Browsing Actions}, author={Tao Yu and Zhengbo Zhang and Zhiheng Lyu and Junhao Gong and Hongzhu Yi and Xinming Wang and Yuxuan Zhou and Jiabing Yang and Ping Nie and Yan Huang and Wenhu Chen}, year={2025}, eprint={2510.10666}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2510.10666}, } ```

# BrowserAgent ChatML 数据集(SFT/RFT) 本数据集包含面向浏览器智能体任务的ChatML格式多轮对话数据,采用JSON Lines格式组织,可直接通过Hugging Face Hub数据可视化工具预览,亦可通过`datasets`库加载。 ## 链接 [论文](https://arxiv.org/abs/2510.10666) [Github仓库](https://github.com/TIGER-AI-Lab/BrowserAgent?tab=readme-ov-file) ## 数据集文件 - `sft.jsonl`:SFT拆分集(每行对应一个JSON对象) - `rft.jsonl`:RFT拆分集(每行对应一个JSON对象) ## 数据结构规范 每条记录为一个JSON对象,包含以下字段: - `messages`: 对象列表 - `role`: 字符串,取值范围为{system, user, assistant} - `content`: 字符串 - `subset`: 字符串,用于标记示例的原始来源文件名(不含扩展名) - `stage`: 字符串,取值范围为{sft, rft} ## 数据集加载示例 使用`datasets`库加载该数据集的代码如下: python from datasets import load_dataset ds = load_dataset( "json", data_files={ "sft": "sft.jsonl", "rft": "rft.jsonl", }, ) print(ds) print(ds["sft"][0]["messages"][0]) print(ds["sft"][0]["subset"]) # 用于筛选/分组 print(ds["sft"][0]["stage"]) # 取值为sft或rft ## 补充说明 - 所有文件均为标准JSON Lines(.jsonl)格式,Hugging Face Hub数据可视化工具会将嵌套的`messages`字段以JSON单元格形式展示。 - `subset`字段可用于回溯每条示例的原始来源文件,便于后续筛选与分组操作。 ## 引用格式 @misc{yu2025browseragentbuildingwebagents, title={BrowserAgent: Building Web Agents with Human-Inspired Web Browsing Actions}, author={Tao Yu and Zhengbo Zhang and Zhiheng Lyu and Junhao Gong and Hongzhu Yi and Xinming Wang and Yuxuan Zhou and Jiabing Yang and Ping Nie and Yan Huang and Wenhu Chen}, year={2025}, eprint={2510.10666}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2510.10666}, }
提供机构:
maas
创建时间:
2025-10-17
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作