LangAGI-Lab/Mind2Web-axtree
收藏Hugging Face2024-09-09 更新2025-04-12 收录
下载链接:
https://hf-mirror.com/datasets/LangAGI-Lab/Mind2Web-axtree
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: action_uid
dtype: string
- name: raw_html
dtype: string
- name: cleaned_html
dtype: string
- name: operation
dtype: string
- name: pos_candidates
sequence: string
- name: neg_candidates
sequence: string
- name: website
dtype: string
- name: domain
dtype: string
- name: subdomain
dtype: string
- name: annotation_id
dtype: string
- name: confirmed_task
dtype: string
- name: action_reprs
sequence: string
- name: target_action_index
dtype: string
- name: target_action_reprs
dtype: string
- name: accessibility_tree
dtype: string
- name: action
dtype: string
- name: original_action_repr
dtype: string
- name: original_pos_candidate
struct:
- name: attributes
struct:
- name: alt
dtype: string
- name: aria_description
dtype: string
- name: aria_label
dtype: string
- name: backend_node_id
dtype: string
- name: bounding_box_rect
dtype: string
- name: class
dtype: string
- name: data_pw_testid_buckeye_candidate
dtype: string
- name: id
dtype: string
- name: input_checked
dtype: string
- name: input_value
dtype: string
- name: is_clickable
dtype: string
- name: label
dtype: string
- name: name
dtype: string
- name: placeholder
dtype: string
- name: role
dtype: string
- name: text_value
dtype: string
- name: title
dtype: string
- name: type
dtype: string
- name: value
dtype: string
- name: backend_node_id
dtype: string
- name: is_original_target
dtype: bool
- name: is_top_level_target
dtype: bool
- name: tag
dtype: string
- name: match_type
dtype: string
splits:
- name: train
num_bytes: 6056563263
num_examples: 7775
download_size: 961678596
dataset_size: 6056563263
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
---
数据集信息:
特征:
- 名称: 操作唯一标识符(action_uid)
数据类型: 字符串
- 名称: 原始HTML(raw_html)
数据类型: 字符串
- 名称: 清洗后的HTML(cleaned_html)
数据类型: 字符串
- 名称: 操作(operation)
数据类型: 字符串
- 名称: 正样本候选集(pos_candidates)
序列类型: 字符串
- 名称: 负样本候选集(neg_candidates)
序列类型: 字符串
- 名称: 网站(website)
数据类型: 字符串
- 名称: 域名(domain)
数据类型: 字符串
- 名称: 子域名(subdomain)
数据类型: 字符串
- 名称: 标注唯一标识符(annotation_id)
数据类型: 字符串
- 名称: 确认的任务(confirmed_task)
数据类型: 字符串
- 名称: 操作表示序列(action_reprs)
序列类型: 字符串
- 名称: 目标操作索引(target_action_index)
数据类型: 字符串
- 名称: 目标操作表示(target_action_reprs)
数据类型: 字符串
- 名称: 可访问性树(accessibility_tree)
数据类型: 字符串
- 名称: 操作(action)
数据类型: 字符串
- 名称: 原始操作表示(original_action_repr)
数据类型: 字符串
- 名称: 原始正样本候选(original_pos_candidate)
结构:
- 名称: 属性(attributes)
结构:
- 名称: 替代文本(alt)
数据类型: 字符串
- 名称: ARIA描述(aria_description)
数据类型: 字符串
- 名称: ARIA标签(aria_label)
数据类型: 字符串
- 名称: 后端节点ID(backend_node_id)
数据类型: 字符串
- 名称: 边界框矩形(bounding_box_rect)
数据类型: 字符串
- 名称: 类名(class)
数据类型: 字符串
- 名称: data_pw_testid_buckeye_candidate
数据类型: 字符串
- 名称: ID(id)
数据类型: 字符串
- 名称: 输入框选中状态(input_checked)
数据类型: 字符串
- 名称: 输入框值(input_value)
数据类型: 字符串
- 名称: 是否可点击(is_clickable)
数据类型: 字符串
- 名称: 标签(label)
数据类型: 字符串
- 名称: 名称(name)
数据类型: 字符串
- 名称: 占位符(placeholder)
数据类型: 字符串
- 名称: 角色(role)
数据类型: 字符串
- 名称: 文本值(text_value)
数据类型: 字符串
- 名称: 标题(title)
数据类型: 字符串
- 名称: 类型(type)
数据类型: 字符串
- 名称: 值(value)
数据类型: 字符串
- 名称: 后端节点ID(backend_node_id)
数据类型: 字符串
- 名称: 是否为原始目标(is_original_target)
数据类型: 布尔值
- 名称: 是否为顶级目标(is_top_level_target)
数据类型: 布尔值
- 名称: 标签(tag)
数据类型: 字符串
- 名称: 匹配类型(match_type)
数据类型: 字符串
拆分:
- 名称: 训练集(train)
字节数: 6056563263
样本数: 7775
下载大小: 961678596
数据集大小: 6056563263
配置:
- 配置名称: 默认(default)
数据文件:
- 拆分: 训练集
路径: data/train-*
提供机构:
LangAGI-Lab



