lemonteaa/algorithmic-reasoning-seed
收藏Hugging Face2023-05-30 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/lemonteaa/algorithmic-reasoning-seed
下载链接
链接失效反馈官方服务:
资源简介:
该数据集名为Algorithmic Reasoning (seed),旨在帮助大型语言模型(LLM)通过观察人类演示来学习如何推理代码,特别是在算法任务上。数据集包含的问题涉及计算机科学、数学等知识领域,并且针对现有开源LLM的已知弱点进行设计。数据集目前处于开发中,大多数问题的答案部分为空或不完整。数据集的结构包括问题标题、问题、思考过程和答案(证明或代码),并且所有数据目前都在训练部分。数据集的创建过程完全由个人手动完成,问题的选择基于个人兴趣和实际工作场景中的可能性。
该数据集名为Algorithmic Reasoning (seed),旨在帮助大型语言模型(LLM)通过观察人类演示来学习如何推理代码,特别是在算法任务上。数据集包含的问题涉及计算机科学、数学等知识领域,并且针对现有开源LLM的已知弱点进行设计。数据集目前处于开发中,大多数问题的答案部分为空或不完整。数据集的结构包括问题标题、问题、思考过程和答案(证明或代码),并且所有数据目前都在训练部分。数据集的创建过程完全由个人手动完成,问题的选择基于个人兴趣和实际工作场景中的可能性。
提供机构:
lemonteaa
原始信息汇总
数据集概述
基本信息
- 名称: Algorithmic Reasoning (seed)
- 许可证: MIT
- 任务类别:
- 文本生成
- 问答
- 语言: 英语
- 标签: 代码
- 数据集大小: 小于1K
数据集描述
- 目的: 帮助大型语言模型(LLM)学习如何通过人类演示来推理代码,特别是在算法任务上。
数据集结构
- 数据字段:
- 问题标题
- 问题描述
- 思考过程 - 有组织的逐步推理
- 用户答案(证明或代码)- 必要时附带解释
- 数据分割: 目前未分割,所有数据均在训练部分。
数据集创建
- 数据收集: 基于个人职业生涯中记忆的问题,选择标准包括:
- 有趣
- 涉及计算机科学、数学或类似知识
- 针对现有开源/源可用LLM的特定已知弱点(例如索引表示法处理)
- 实用/可能在生产工作环境中出现
- 注释过程: 完全由创建者手动创建,详细程度超过通常在互联网上出现的(如训练营/FANNG面试准备/LeetCode风格训练网站等),以帮助AI/LLM访问可能对人类来说过于明显而未写下的知识。
使用数据集的考虑
- 社会影响: 可能增强LLM的编码能力,从而可能产生下游效应。
- 偏见: 由于问题选择部分基于个人兴趣,计算机科学中不感兴趣的领域可能代表性不足。
- 其他限制:
- 每个问题仅针对一种特定编程语言。
- 当前以自由风格的Markdown文件形式存在,可能需要转换为更结构化的格式。
- 问题以对话式语气提出,可能更适合人类评估而非自动化评估。
- 由于数据集完全由单个人手动创建,数据集规模极小。



