five

Coder-Stat

收藏
魔搭社区2025-11-07 更新2025-01-25 收录
下载链接:
https://modelscope.cn/datasets/prithivMLmods/Coder-Stat
下载链接
链接失效反馈
官方服务:
资源简介:
# Coder-Stat Dataset ## Overview The Coder-Stat dataset is a collection of programming-related data, including problem IDs, programming languages, original statuses, and source code snippets. This dataset is designed to assist in the analysis of coding patterns, error types, and performance metrics. ## Dataset Details ### Modalities - **Tabular**: The dataset is structured in a tabular format. - **Text**: Contains text data, including source code snippets. ### Formats - **JSON**: The dataset is available in JSON format. ### Size - The dataset contains between 10,000 to 100,000 entries. ### Libraries - **Datasets**: The dataset is compatible with the Hugging Face Datasets library. - **Pandas**: Can be easily loaded and manipulated using Pandas. - **Croissant**: Additional support for Croissant format. ## Dataset Structure ### Columns - **problem_id**: A unique identifier for each problem. - **language**: The programming language used. - **original_status**: The original status of the code (e.g., Runtime Error, Time Limit Exceeded). - **original_sre**: The original source code. - **changed_sre**: The modified or corrected source code. ### Splits - **train**: Contains 41,900 rows of training data. ## Usage ### Loading the Dataset You can load the dataset using the Hugging Face Datasets library: ```python from datasets import load_dataset dataset = load_dataset("prithivMLmods/Coder-Stat") ``` ### Example Here’s an example of how to access the data: ```python import pandas as pd # Load the dataset dataset = load_dataset("prithivMLmods/Coder-Stat") # Convert to Pandas DataFrame df = pd.DataFrame(dataset['train']) # Display the first few rows print(df.head()) ```

# Coder-Stat 数据集 ## 概述 Coder-Stat 数据集是一类编程相关数据的集合,涵盖题目唯一标识符、编程语言、代码原始状态以及源代码片段。本数据集旨在助力编码模式、错误类型与性能指标的分析研究。 ## 数据集详情 ### 数据模态 - **表格型(Tabular)**:数据集采用表格结构化格式。 - **文本型(Text)**:包含文本数据,其中涵盖源代码片段。 ### 数据格式 - **JSON**:该数据集以JSON格式提供。 ### 数据规模 - 数据集包含10,000至100,000条数据条目。 ### 兼容库 - **Datasets**:兼容Hugging Face Datasets库。 - **Pandas**:可通过Pandas库轻松加载并进行操作。 - **Croissant**:额外支持Croissant格式。 ## 数据集结构 ### 字段列 - **problem_id**:每个编程题目的唯一标识符。 - **language**:所使用的编程语言。 - **original_status**:代码的原始运行状态(例如:运行时错误、超时)。 - **original_sre**:原始源代码。 - **changed_sre**:经过修改或修正后的源代码。 ### 数据划分 - **train**:包含41,900条训练数据行。 ## 使用方法 ### 加载数据集 可通过Hugging Face Datasets库加载该数据集: python from datasets import load_dataset dataset = load_dataset("prithivMLmods/Coder-Stat") ### 示例 以下为访问数据的示例代码: python import pandas as pd # 加载数据集 dataset = load_dataset("prithivMLmods/Coder-Stat") # 转换为Pandas DataFrame df = pd.DataFrame(dataset['train']) # 展示前若干行数据 print(df.head())
提供机构:
maas
创建时间:
2025-01-18
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作