pharaouk/algorithmic-reasoning-seed

Name: pharaouk/algorithmic-reasoning-seed
Creator: pharaouk
Published: 2024-04-10 11:23:00
License: 暂无描述

Hugging Face2024-04-10 更新2024-06-15 收录

下载链接：

https://hf-mirror.com/datasets/pharaouk/algorithmic-reasoning-seed

下载链接

链接失效反馈

官方服务：

资源简介：

Algorithmic Reasoning (seed)数据集旨在帮助大型语言模型（LLM）学习如何通过观察人类示范来推理代码，特别是算法任务。数据集包含的问题涉及计算机科学、数学等领域，并且针对现有开源LLM的已知弱点。数据集由个人手动创建，问题以对话形式提出，适合人类评估而非自动化评估。数据集目前处于开发中，大多数问题的答案部分为空或不完整。

提供机构：

pharaouk

原始信息汇总

数据集卡片：算法推理（种子）

数据集描述

数据集概述

该数据集旨在帮助大型语言模型（LLM）学习如何通过观察人类演示来推理代码，特别是在算法任务上。

支持的任务和排行榜

[更多信息需补充]

语言

[更多信息需补充]

数据集结构

数据实例

[更多信息需补充]

数据字段

问题标题
问题
思考 - 内部思考过程，以有序的方式逐步推理
向用户展示的答案（证明或代码） - 必要时附带解释

数据分割

目前所有数据都在训练部分，没有分割。

数据集创建

数据筛选理由

[更多信息需补充]

源数据

初始数据收集和规范化

问题选自个人职业生涯中记得的问题，基于以下标准：

有趣
涉及计算机科学、数学或类似知识
针对现有开源/源可用LLM的已知弱点（例如索引符号处理）
实用/可能出现在生产工作环境中

源语言生产者

[更多信息需补充]

注释

注释过程

完全由我个人手动创建，详细程度超过通常在互联网上出现的（如训练营/FANNG面试准备/LeetCode风格训练网站等），以帮助AI/LLM获取可能对人类来说太明显而未写下的知识。

注释者

[更多信息需补充]

个人和敏感信息

没有个人和敏感信息，都是一般的、客观的知识。

数据使用考虑

数据集的社会影响

尽管该数据集能否实际工作存疑，但如果确实有效，可能会增强LLM的编码能力（这是预期的），但这可能会因LLM能力的增强而产生下游效应。

偏见讨论

由于问题部分基于我的个人喜好选择，我可能不感兴趣的CS领域可能会被低估。

其他已知限制

虽然我尝试涵盖各种主流编程语言，但每个问题仅针对一种特定语言。
目前是自由格式的Markdown文件。可能可以编写脚本转换为更结构化的格式。
问题以对话语气提出，而不是LeetCode风格的严格I/O规范，因此可能更适合人类评估而不是自动化评估（例如在沙箱中自动提取并运行代码输出以针对测试用例）。
由于数据集完全由单个人手动创建，数据集大小非常小。

附加信息

数据集策展人

[更多信息需补充]

许可信息

MIT

引用信息

[更多信息需补充]

贡献

[更多信息需补充]

5,000+

优质数据集

54 个

任务类型

进入经典数据集