abhi26/VISA-QnA-CoT-Subset-50pct
收藏Hugging Face2026-04-19 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/abhi26/VISA-QnA-CoT-Subset-50pct
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: id
dtype: string
- name: Question
dtype: string
- name: Complex_CoT
dtype: string
- name: Response
dtype: string
- name: type
dtype: string
- name: category
dtype: string
- name: difficulty
dtype: string
- name: from_country
dtype: string
- name: to_countries
list: string
- name: is_procedural
dtype: bool
- name: metadata
struct:
- name: batch
dtype: string
- name: has_uncertainty
dtype: bool
- name: is_negative_example
dtype: bool
- name: last_updated
dtype: string
- name: segment
dtype: string
- name: source
dtype: string
- name: tier
dtype: int64
- name: ground_truth
struct:
- name: reasoning_steps
list: string
- name: visa_entries
list:
- name: allowed_stay
dtype: string
- name: cost
dtype: string
- name: data_quality
struct:
- name: cost_source
dtype: string
- name: processing_time_source
dtype: string
- name: from_country
dtype: string
- name: notes
dtype: string
- name: processing_time
dtype: string
- name: to_country
dtype: string
- name: visa_required
dtype: bool
- name: visa_type
dtype: string
splits:
- name: train
num_bytes: 23595580
num_examples: 15312
- name: validation
num_bytes: 2784029
num_examples: 1814
download_size: 13587354
dataset_size: 26379609
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
- split: validation
path: data/validation-*
---
数据集信息:
特征字段:
- 字段名:id(标识符),数据类型:字符串
- 字段名:Question(问题),数据类型:字符串
- 字段名:Complex_CoT(复杂思维链),数据类型:字符串
- 字段名:Response(响应),数据类型:字符串
- 字段名:type(样本类型),数据类型:字符串
- 字段名:category(类别),数据类型:字符串
- 字段名:difficulty(难度等级),数据类型:字符串
- 字段名:from_country(出发国),数据类型:字符串
- 字段名:to_countries(目标国家列表),数据类型:字符串列表
- 字段名:is_procedural(是否为流程型样本),数据类型:布尔值
- 字段名:metadata(元数据),数据类型为结构体,包含以下子字段:
- 字段名:batch(批次),数据类型:字符串
- 字段名:has_uncertainty(存在不确定性),数据类型:布尔值
- 字段名:is_negative_example(是否为负样本),数据类型:布尔值
- 字段名:last_updated(最后更新时间),数据类型:字符串
- 字段名:segment(分段标识),数据类型:字符串
- 字段名:source(数据来源),数据类型:字符串
- 字段名:tier(层级),数据类型:整数
- 字段名:ground_truth(真实标注),数据类型为结构体,包含以下子字段:
- 字段名:reasoning_steps(推理步骤),数据类型:字符串列表
- 字段名:visa_entries(签证条目列表),数据类型为结构体列表,每个结构体包含以下子字段:
- 字段名:allowed_stay(允许停留时长),数据类型:字符串
- 字段名:cost(办理费用),数据类型:字符串
- 字段名:data_quality(数据质量),数据类型为结构体,包含以下子字段:
- 字段名:cost_source(费用数据来源),数据类型:字符串
- 字段名:processing_time_source(办理时长数据来源),数据类型:字符串
- 字段名:from_country(出发国),数据类型:字符串
- 字段名:notes(备注信息),数据类型:字符串
- 字段名:processing_time(签证办理时长),数据类型:字符串
- 字段名:to_country(目标国家),数据类型:字符串
- 字段名:visa_required(是否需要签证),数据类型:布尔值
- 字段名:visa_type(签证类型),数据类型:字符串
数据集划分:
- 划分名称:train(训练集),字节数:23595580,样本数量:15312
- 划分名称:validation(验证集),字节数:2784029,样本数量:1814
下载总大小:13587354,数据集总字节数:26379609
配置项:
- 配置名称:default(默认配置),数据文件:
- 训练集划分:对应路径 data/train-*
- 验证集划分:对应路径 data/validation-*
提供机构:
abhi26



