TaskComplexity

Name: TaskComplexity
Creator: 信息工程学院，阿尔-纳赫兰大学，巴格达，伊拉克
Published: 2024-09-30 19:04:56
License: 暂无描述

arXiv2024-09-30 更新2024-10-02 收录

下载链接：

https://github.com/AREEG94FAHAD/TaskComplexityEval-24

下载链接

链接失效反馈

官方服务：

资源简介：

TaskComplexity数据集由阿尔-纳赫兰大学信息工程学院创建，包含4112个编程任务，旨在解决编程任务分类和复杂度预测的问题。数据集通过网络爬虫技术从多个编程网站（如Kattis、LeetCode等）收集，任务详细信息包括标题、描述、输入输出限制、示例、任务类别和复杂度评分。数据集的创建过程涉及HTML标签的跟踪和数据提取，最终以JSON格式存储。该数据集主要应用于编程任务的自动分类、资源分配优化、推荐系统和教育支持等领域。

The TaskComplexity dataset was developed by the School of Information Engineering, Al-Nahrain University, and consists of 4112 programming tasks. It is targeted at addressing the challenges of programming task classification and complexity prediction. Collected via web crawling technologies from multiple programming platforms including Kattis, LeetCode, and other similar websites, the dataset contains detailed information for each task, such as title, description, input and output constraints, sample cases, task category, and complexity score. The dataset creation process involves tracking HTML tags and extracting targeted data, and it is finally stored in JSON format. This dataset is mainly applied in the fields of automatic programming task classification, resource allocation optimization, recommendation systems, and educational support.

提供机构：

信息工程学院，阿尔-纳赫兰大学，巴格达，伊拉克

创建时间：

2024-09-30

原始信息汇总

TaskComplexity

数据集概述

名称: TaskComplexity
描述: 该数据集的README文件中未提供详细描述信息。

数据集详情

文件结构:
- README文件中未提供数据集的文件结构信息。
数据内容:
- README文件中未提供数据集的具体内容信息。
数据格式:
- README文件中未提供数据集的格式信息。

数据集来源

来源:
- README文件中未提供数据集的来源信息。

数据集用途

用途:
- README文件中未提供数据集的用途信息。

数据集更新

更新历史:
- README文件中未提供数据集的更新历史信息。

搜集汇总

数据集介绍

构建方式

TaskComplexity数据集的构建过程始于对多个编程任务网站的系统性网络爬取。通过追踪特定的HTML标签，研究团队成功提取了包括任务标题、描述、输入输出限制、示例、问题类别和复杂度评分在内的关键元素。最终，从Kattis、LeetCode、HackerRank和Topcoder等平台收集了4,112个编程任务，这些任务被分类为简单、中等和困难三个级别，复杂度评分范围从1到9.7。

特点

TaskComplexity数据集的显著特点在于其多样性和详尽性。该数据集不仅涵盖了广泛的编程任务，还详细记录了每个任务的复杂度评分，这为研究任务复杂度分类提供了丰富的资源。此外，数据集的构建过程中采用了严格的分类标准，确保了任务分类的准确性和一致性。

使用方法

TaskComplexity数据集可用于多种机器学习任务，特别是任务复杂度分类和资源分配优化。研究者可以通过微调FLAN-T5模型或使用GPT-4o-mini进行上下文学习来评估数据集的有效性。此外，该数据集还可用于开发推荐系统和教育支持工具，帮助教师和学生根据任务复杂度进行更有效的学习和教学。

背景与挑战

背景概述

近年来，人工智能技术在多个领域中得到了广泛应用，特别是在自然语言处理（NLP）领域。NLP技术在文本分类、文本生成、问答系统等任务中展现了其强大的能力。编程技能作为许多公司所需的核心技能之一，其任务的分类和分配通常需要大量的时间和成本。为了解决这一问题，TaskComplexity数据集应运而生。该数据集由Al-Nahrain大学、Al-Rasheed大学学院和Luleå理工大学的研究人员共同创建，包含了从多个编程任务网站（如Kattis、LeetCode、HackerRank和Topcoder）中提取的4,112个编程任务。通过使用网络爬虫技术，研究人员系统地收集了这些任务，并对其进行了详细的分类和复杂度评分。该数据集的创建旨在为编程任务的自动分类和分配提供一个有效的工具，从而优化资源分配、推荐系统和教育支持。

当前挑战

TaskComplexity数据集在构建过程中面临了多个挑战。首先，从不同网站收集编程任务需要克服网站的访问限制和数据结构差异，这增加了数据收集的复杂性。其次，编程任务的多样性和复杂性使得任务分类变得困难，每个任务即使属于同一类别，也可能具有不同的结构和含义，这给模型的训练和评估带来了挑战。此外，尽管使用FLAN-T5和GPT-4o-mini模型进行了评估，但结果显示模型的分类性能仍有提升空间，特别是在处理高度多样化的编程任务时。未来的研究需要探索更强大的模型和更大规模的数据集，以进一步提高分类准确性。

常用场景

经典使用场景

TaskComplexity数据集的经典使用场景在于编程任务的复杂度分类。通过提取自多个编程网站的任务数据，该数据集为研究人员提供了一个丰富的资源，用于训练和评估自然语言处理模型在编程任务分类中的表现。具体而言，该数据集可用于微调大型语言模型如FLAN-T5，或通过上下文学习方法如GPT-4o-mini进行任务分类，从而实现对编程任务复杂度的自动评估和分类。

解决学术问题

TaskComplexity数据集解决了编程任务分类中的一个关键学术问题，即如何高效且准确地对编程任务进行分类和复杂度评估。传统的编程任务分类方法通常依赖于人工标注，耗时且成本高昂。该数据集通过系统化的数据收集和标注，为研究人员提供了一个标准化的基准，有助于推动自动编程任务分类技术的发展，从而在资源分配、推荐系统和教育支持等领域产生深远影响。

衍生相关工作

TaskComplexity数据集的发布激发了大量相关研究工作。例如，研究人员利用该数据集对FLAN-T5和GPT-4o-mini模型进行了深入的性能评估，揭示了上下文学习在编程任务分类中的优势。此外，该数据集还促进了其他大型语言模型如LLaMA-3和ChatGPT-4的研究，推动了模型在编程任务分类中的应用。未来，随着更多样本的收集和更大规模数据集的构建，预计将进一步推动编程任务分类技术的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集