five

X-LANCE/WikiHow-taskset

收藏
Hugging Face2025-09-02 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/X-LANCE/WikiHow-taskset
下载链接
链接失效反馈
官方服务:
资源简介:
WikiHow任务集是一个基于Mobile-Env的信息用户界面(InfoUI)交互任务集,用于评估交互式代理在LLM时代的性能。该数据集从WikiHow网站爬取了107,448个页面,总数据量约为88 GiB。任务集通过Mobile-Env中的模板工具包实例化,包含577个任务,其中150个任务经过LLM代理测试。数据集还提供了重放脚本、证书解绑计划、人工重写指令等工具和资源,支持用户进行任务重放和交互测试。
提供机构:
X-LANCE
原始信息汇总

WikiHow Task Set

概述

WikiHow任务集是一个基于Mobile-Env的InfoUI交互任务集。该任务集基于WikiHow网站构建,该网站包含超过340,000篇关于各种生活技巧的文章。为了构建任务集,爬取了107,448个页面,数据总量约为88 GiB。

任务定义

根据WikiHow应用的功能设计了多个任务定义模板,并通过Mobile-Env中的模板工具包实例化任务定义。从扩展集中采样了577个任务,命名为规范集wikihow-canonical.tar.xz)。由于预算限制,仅对150个任务使用基于LLM的代理进行测试,这些任务包含在wikihow-microcanon.tar.xz中,称为规范子集微规范集

网站数据重放

提供了用于mitmproxy的重放脚本replay_url.py,需要Pyserini信息检索工具。脚本中需要指定的参数包括:

  • WikiHow网站的爬取数据(dumps in wikihow.data.tar.xz
  • 用于模拟搜索结果页的HTML模板(templates in wikihow.data.tar.xz
  • 基于Pyserini的搜索引擎索引(indices-t/indices in wikihow.data.tar.xz
  • 爬取文章的元数据(indices-t/docs/doc_meta.csv in wikihow.data.tar.xz

所有所需数据均在wikihow.data.tar.xz中提供,该文件约为78 GiB,解压后数据约为88 GiB。文件被分割为两部分(wikihow.data.tar.xz.00wikihow.data.tar.xz.01),可以使用cat命令合并。

证书解绑计划

syscert计划适用于WikiHow应用,可根据Mobile-Env指南完成配置。提供了来自APKCombo的可用APK包,建议使用Android 11.0(API Level 30)的AVD镜像以获得最佳兼容性和启用root的ADBD。

人工重写指令

规范集提供了人工重写指令,位于instruction_rewriting/目录下。提供了AndroidEnv包装器InstructionRewritingWrapper,用于加载重写指令(merged_doccano.json)和公共模式(pattern-*.txt)。注释通过doccano收集,模式通过sentence_pattern.py解析。

子任务详情

WikiHow任务由16种类型子任务构成,包括:

  • home2search:从主页搜索文章
  • search2articleauthor2articlecategory2article:从搜索结果页、作者信息页、分类内容页访问文章
  • article2about:从文章页访问关于页面
  • article2author:从文章页访问作者信息页
  • article2category:从文章页访问分类内容页
  • article2reference:在文章页查看参考列表
  • article2rate_no:对文章评分“否”
  • article2rate_yes:对文章评分“是”
  • article2share:分享文章
  • article2bookmark:收藏文章并查看收藏
  • article2steps:从wikihow-lists中的stepped_summary问题构建
  • article2ingredientes:从wikihow-lists中的ingredients问题构建
  • article2needed_items:从wikihow-lists中的needed_items问题构建
  • article2summary:从WikiHowNFQA任务构建

每个子任务都有一个模板,包含一组期望的关键词(如文章标题、作者名、问题和正确答案)。这些关键词从爬取的应用数据或两个QA数据集中采样,以实例化模板。实例化的模板被拼接成多阶段任务定义,最终得到包含150个多阶段任务的任务集,平均每个任务包含2.68个单阶段子任务。

多阶段任务后缀

多阶段任务根据包含的不同子任务添加不同后缀,后缀及其含义和微规范集中的任务数量如下表所示:

后缀 子任务 任务数量
0 home-search-article-about 18
1 home-search-article-rate_no 6
2 home-search-article-rate_yes 10
3 home-search-article-share 11
4 home-search-article-author[-article] 7
5 home-search-article-bookmark 13
6 home-search-article-category[-article] 9
7 home-search-article-reference 11
8 home-search-article 25
9 home-search-steps 15
10 home-search-needed_items 10
11 home-search-ingredients 5
12 home-search-summary 10
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作