bigcode/bigcodearena-raw-14k
收藏Hugging Face2025-10-13 更新2026-02-07 收录
下载链接:
https://hf-mirror.com/datasets/bigcode/bigcodearena-raw-14k
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: date
dtype: string
- name: mode
dtype: string
- name: conv_id
dtype: string
- name: model
dtype: string
- name: sandbox_enabled_round
dtype: int64
- name: sandbox_run_round
dtype: int64
- name: conversation_messages
dtype: string
- name: system_message
dtype: string
- name: template_name
dtype: string
- name: chat_mode
dtype: string
- name: offset
dtype: int64
- name: chat_session_id
dtype: string
- name: chat_start_time
dtype: string
- name: model_name
dtype: string
- name: raw_state
dtype: string
- name: sandbox_environment
dtype: string
- name: auto_selected_sandbox_environment
dtype: string
- name: code_language
dtype: string
- name: has_screenshot
dtype: bool
- name: sandbox_id
dtype: string
- name: code_dependencies
dtype: string
- name: raw_sandbox_state
dtype: string
- name: temperature
dtype: float64
- name: top_p
dtype: float64
- name: max_new_tokens
dtype: int64
- name: raw_gen_params
dtype: string
splits:
- name: train
num_bytes: 450668933
num_examples: 14123
download_size: 119570371
dataset_size: 450668933
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
license: bigcode-openrail-m
---
Paper: https://arxiv.org/abs/2510.08697
数据集信息:
特征项:
- 名称:日期(date),数据类型:字符串
- 名称:模式(mode),数据类型:字符串
- 名称:对话ID(conv_id),数据类型:字符串
- 名称:模型(model),数据类型:字符串
- 名称:沙箱启用轮次(sandbox_enabled_round),数据类型:64位整数
- 名称:沙箱运行轮次(sandbox_run_round),数据类型:64位整数
- 名称:对话消息(conversation_messages),数据类型:字符串
- 名称:系统提示消息(system_message),数据类型:字符串
- 名称:模板名称(template_name),数据类型:字符串
- 名称:聊天模式(chat_mode),数据类型:字符串
- 名称:偏移量(offset),数据类型:64位整数
- 名称:对话会话ID(chat_session_id),数据类型:字符串
- 名称:对话开始时间(chat_start_time),数据类型:字符串
- 名称:模型名称(model_name),数据类型:字符串
- 名称:原始状态(raw_state),数据类型:字符串
- 名称:沙箱环境(sandbox_environment),数据类型:字符串
- 名称:自动选择沙箱环境(auto_selected_sandbox_environment),数据类型:字符串
- 名称:代码语言(code_language),数据类型:字符串
- 名称:是否包含截图(has_screenshot),数据类型:布尔型
- 名称:沙箱ID(sandbox_id),数据类型:字符串
- 名称:代码依赖项(code_dependencies),数据类型:字符串
- 名称:沙箱原始状态(raw_sandbox_state),数据类型:字符串
- 名称:温度参数(temperature),数据类型:64位浮点型
- 名称:Top-P采样参数(top_p),数据类型:64位浮点型
- 名称:最大新Token数(max_new_tokens),数据类型:64位整数
- 名称:原始生成参数(raw_gen_params),数据类型:字符串
数据划分:
- 名称:训练集(train),字节数:450668933,样本数:14123
下载大小:119570371
数据集大小:450668933
配置项:
- 配置名称:默认配置(default),数据文件:
- 划分集:训练集(train),路径:data/train-*
许可证:bigcode-openrail-m
---
论文:https://arxiv.org/abs/2510.08697
提供机构:
bigcode



