MatrixStudio/Codeforces-Python-Submissions-SFT
收藏Hugging Face2024-04-19 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/MatrixStudio/Codeforces-Python-Submissions-SFT
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: contestId
dtype: int64
- name: index
dtype: string
- name: name
dtype: string
- name: type
dtype: string
- name: rating
dtype: int64
- name: tags
sequence: string
- name: title
dtype: string
- name: time-limit
dtype: string
- name: memory-limit
dtype: string
- name: problem-description
dtype: string
- name: input-specification
dtype: string
- name: output-specification
dtype: string
- name: demo-input
sequence: string
- name: demo-output
sequence: string
- name: note
dtype: string
- name: points
dtype: float64
- name: test_cases
list:
- name: input
dtype: string
- name: output
dtype: string
- name: creationTimeSeconds
dtype: int64
- name: relativeTimeSeconds
dtype: int64
- name: programmingLanguage
dtype: string
- name: verdict
dtype: string
- name: testset
dtype: string
- name: passedTestCount
dtype: int64
- name: timeConsumedMillis
dtype: int64
- name: memoryConsumedBytes
dtype: int64
- name: code
dtype: string
- name: prompt
dtype: string
- name: response
dtype: string
- name: score
dtype: float64
splits:
- name: train
num_bytes: 381734535.15903926
num_examples: 56022
- name: test
num_bytes: 41639898.79338065
num_examples: 6115
download_size: 55717659
dataset_size: 423374433.9524199
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
- split: test
path: data/test-*
---
数据集信息:
特征:
- 竞赛编号(contestId):数据类型为64位整数
- 索引(index):数据类型为字符串
- 名称(name):数据类型为字符串
- 类型(type):数据类型为字符串
- 评分(rating):数据类型为64位整数
- 标签(tags):字符串序列类型
- 标题(title):数据类型为字符串
- 时间限制(time-limit):数据类型为字符串
- 内存限制(memory-limit):数据类型为字符串
- 问题描述(problem-description):数据类型为字符串
- 输入规范(input-specification):数据类型为字符串
- 输出规范(output-specification):数据类型为字符串
- 示例输入(demo-input):字符串序列类型
- 示例输出(demo-output):字符串序列类型
- 备注(note):数据类型为字符串
- 分值(points):数据类型为双精度浮点数
- 测试用例(test_cases):列表类型,列表内元素包含以下子特征:
- 输入(input):数据类型为字符串
- 输出(output):数据类型为字符串
- 创建时间秒数(creationTimeSeconds):数据类型为64位整数
- 相对时间秒数(relativeTimeSeconds):数据类型为64位整数
- 编程语言(programmingLanguage):数据类型为字符串
- 判定结果(verdict):数据类型为字符串
- 测试集(testset):数据类型为字符串
- 通过测试用例数(passedTestCount):数据类型为64位整数
- 耗时毫秒(timeConsumedMillis):数据类型为64位整数
- 内存消耗字节数(memoryConsumedBytes):数据类型为64位整数
- 代码(code):数据类型为字符串
- 提示词(prompt):数据类型为字符串
- 响应内容(response):数据类型为字符串
- 得分(score):数据类型为双精度浮点数
数据集拆分:
- 训练集(train):字节数381734535.15903926,样本量56022
- 测试集(test):字节数41639898.79338065,样本量6115
下载体积:55717659字节
数据集总体积:423374433.9524199字节
配置项:
- 默认配置(default):数据文件配置如下:
- 训练集拆分:路径为data/train-*
- 测试集拆分:路径为data/test-*
提供机构:
MatrixStudio
原始信息汇总
数据集概述
数据集特征
- contestId: 数据类型为
int64 - index: 数据类型为
string - name: 数据类型为
string - type: 数据类型为
string - rating: 数据类型为
int64 - tags: 数据类型为
string的序列 - title: 数据类型为
string - time-limit: 数据类型为
string - memory-limit: 数据类型为
string - problem-description: 数据类型为
string - input-specification: 数据类型为
string - output-specification: 数据类型为
string - demo-input: 数据类型为
string的序列 - demo-output: 数据类型为
string的序列 - note: 数据类型为
string - points: 数据类型为
float64 - test_cases: 包含以下字段
- input: 数据类型为
string - output: 数据类型为
string
- input: 数据类型为
- creationTimeSeconds: 数据类型为
int64 - relativeTimeSeconds: 数据类型为
int64 - programmingLanguage: 数据类型为
string - verdict: 数据类型为
string - testset: 数据类型为
string - passedTestCount: 数据类型为
int64 - timeConsumedMillis: 数据类型为
int64 - memoryConsumedBytes: 数据类型为
int64 - code: 数据类型为
string - prompt: 数据类型为
string - response: 数据类型为
string - score: 数据类型为
float64
数据集分割
- train: 包含 56022 个样本,总字节数为 381734535.15903926
- test: 包含 6115 个样本,总字节数为 41639898.79338065
数据集大小
- 下载大小: 55717659 字节
- 数据集大小: 423374433.9524199 字节
配置
- default 配置包含以下数据文件
- train: 路径为
data/train-* - test: 路径为
data/test-*
- train: 路径为
搜集汇总
数据集介绍

以上内容由遇见数据集搜集并总结生成



