lemonteaa/algorithmic-reasoning-seed

Name: lemonteaa/algorithmic-reasoning-seed
Creator: lemonteaa
Published: 2023-05-30 21:14:39
License: 暂无描述

Hugging Face2023-05-30 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/lemonteaa/algorithmic-reasoning-seed

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集名为Algorithmic Reasoning (seed)，旨在帮助大型语言模型（LLM）通过观察人类演示来学习如何推理代码，特别是在算法任务上。数据集包含的问题涉及计算机科学、数学等知识领域，并且针对现有开源LLM的已知弱点进行设计。数据集目前处于开发中，大多数问题的答案部分为空或不完整。数据集的结构包括问题标题、问题、思考过程和答案（证明或代码），并且所有数据目前都在训练部分。数据集的创建过程完全由个人手动完成，问题的选择基于个人兴趣和实际工作场景中的可能性。

提供机构：

lemonteaa

原始信息汇总

数据集概述

基本信息

名称: Algorithmic Reasoning (seed)
许可证: MIT
任务类别:
- 文本生成
- 问答
语言: 英语
标签: 代码
数据集大小: 小于1K

数据集描述

目的: 帮助大型语言模型（LLM）学习如何通过人类演示来推理代码，特别是在算法任务上。

数据集结构

数据字段:
- 问题标题
- 问题描述
- 思考过程 - 有组织的逐步推理
- 用户答案（证明或代码）- 必要时附带解释
数据分割: 目前未分割，所有数据均在训练部分。

数据集创建

数据收集: 基于个人职业生涯中记忆的问题，选择标准包括：
- 有趣
- 涉及计算机科学、数学或类似知识
- 针对现有开源/源可用LLM的特定已知弱点（例如索引表示法处理）
- 实用/可能在生产工作环境中出现
注释过程: 完全由创建者手动创建，详细程度超过通常在互联网上出现的（如训练营/FANNG面试准备/LeetCode风格训练网站等），以帮助AI/LLM访问可能对人类来说过于明显而未写下的知识。

使用数据集的考虑

社会影响: 可能增强LLM的编码能力，从而可能产生下游效应。
偏见: 由于问题选择部分基于个人兴趣，计算机科学中不感兴趣的领域可能代表性不足。
其他限制:
- 每个问题仅针对一种特定编程语言。
- 当前以自由风格的Markdown文件形式存在，可能需要转换为更结构化的格式。
- 问题以对话式语气提出，可能更适合人类评估而非自动化评估。
- 由于数据集完全由单个人手动创建，数据集规模极小。

5,000+

优质数据集

54 个

任务类型

进入经典数据集