Coder-Stat
收藏魔搭社区2025-11-07 更新2025-01-25 收录
下载链接:
https://modelscope.cn/datasets/prithivMLmods/Coder-Stat
下载链接
链接失效反馈官方服务:
资源简介:
# Coder-Stat Dataset
## Overview
The Coder-Stat dataset is a collection of programming-related data, including problem IDs, programming languages, original statuses, and source code snippets. This dataset is designed to assist in the analysis of coding patterns, error types, and performance metrics.
## Dataset Details
### Modalities
- **Tabular**: The dataset is structured in a tabular format.
- **Text**: Contains text data, including source code snippets.
### Formats
- **JSON**: The dataset is available in JSON format.
### Size
- The dataset contains between 10,000 to 100,000 entries.
### Libraries
- **Datasets**: The dataset is compatible with the Hugging Face Datasets library.
- **Pandas**: Can be easily loaded and manipulated using Pandas.
- **Croissant**: Additional support for Croissant format.
## Dataset Structure
### Columns
- **problem_id**: A unique identifier for each problem.
- **language**: The programming language used.
- **original_status**: The original status of the code (e.g., Runtime Error, Time Limit Exceeded).
- **original_sre**: The original source code.
- **changed_sre**: The modified or corrected source code.
### Splits
- **train**: Contains 41,900 rows of training data.
## Usage
### Loading the Dataset
You can load the dataset using the Hugging Face Datasets library:
```python
from datasets import load_dataset
dataset = load_dataset("prithivMLmods/Coder-Stat")
```
### Example
Here’s an example of how to access the data:
```python
import pandas as pd
# Load the dataset
dataset = load_dataset("prithivMLmods/Coder-Stat")
# Convert to Pandas DataFrame
df = pd.DataFrame(dataset['train'])
# Display the first few rows
print(df.head())
```
# Coder-Stat 数据集
## 概述
Coder-Stat 数据集是一类编程相关数据的集合,涵盖题目唯一标识符、编程语言、代码原始状态以及源代码片段。本数据集旨在助力编码模式、错误类型与性能指标的分析研究。
## 数据集详情
### 数据模态
- **表格型(Tabular)**:数据集采用表格结构化格式。
- **文本型(Text)**:包含文本数据,其中涵盖源代码片段。
### 数据格式
- **JSON**:该数据集以JSON格式提供。
### 数据规模
- 数据集包含10,000至100,000条数据条目。
### 兼容库
- **Datasets**:兼容Hugging Face Datasets库。
- **Pandas**:可通过Pandas库轻松加载并进行操作。
- **Croissant**:额外支持Croissant格式。
## 数据集结构
### 字段列
- **problem_id**:每个编程题目的唯一标识符。
- **language**:所使用的编程语言。
- **original_status**:代码的原始运行状态(例如:运行时错误、超时)。
- **original_sre**:原始源代码。
- **changed_sre**:经过修改或修正后的源代码。
### 数据划分
- **train**:包含41,900条训练数据行。
## 使用方法
### 加载数据集
可通过Hugging Face Datasets库加载该数据集:
python
from datasets import load_dataset
dataset = load_dataset("prithivMLmods/Coder-Stat")
### 示例
以下为访问数据的示例代码:
python
import pandas as pd
# 加载数据集
dataset = load_dataset("prithivMLmods/Coder-Stat")
# 转换为Pandas DataFrame
df = pd.DataFrame(dataset['train'])
# 展示前若干行数据
print(df.head())
提供机构:
maas
创建时间:
2025-01-18



