five

lemonteaa/algorithmic-reasoning-seed

收藏
Hugging Face2023-05-30 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/lemonteaa/algorithmic-reasoning-seed
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集名为Algorithmic Reasoning (seed),旨在帮助大型语言模型(LLM)通过观察人类演示来学习如何推理代码,特别是在算法任务上。数据集包含的问题涉及计算机科学、数学等知识领域,并且针对现有开源LLM的已知弱点进行设计。数据集目前处于开发中,大多数问题的答案部分为空或不完整。数据集的结构包括问题标题、问题、思考过程和答案(证明或代码),并且所有数据目前都在训练部分。数据集的创建过程完全由个人手动完成,问题的选择基于个人兴趣和实际工作场景中的可能性。

该数据集名为Algorithmic Reasoning (seed),旨在帮助大型语言模型(LLM)通过观察人类演示来学习如何推理代码,特别是在算法任务上。数据集包含的问题涉及计算机科学、数学等知识领域,并且针对现有开源LLM的已知弱点进行设计。数据集目前处于开发中,大多数问题的答案部分为空或不完整。数据集的结构包括问题标题、问题、思考过程和答案(证明或代码),并且所有数据目前都在训练部分。数据集的创建过程完全由个人手动完成,问题的选择基于个人兴趣和实际工作场景中的可能性。
提供机构:
lemonteaa
原始信息汇总

数据集概述

基本信息

  • 名称: Algorithmic Reasoning (seed)
  • 许可证: MIT
  • 任务类别:
    • 文本生成
    • 问答
  • 语言: 英语
  • 标签: 代码
  • 数据集大小: 小于1K

数据集描述

  • 目的: 帮助大型语言模型(LLM)学习如何通过人类演示来推理代码,特别是在算法任务上。

数据集结构

  • 数据字段:
    • 问题标题
    • 问题描述
    • 思考过程 - 有组织的逐步推理
    • 用户答案(证明或代码)- 必要时附带解释
  • 数据分割: 目前未分割,所有数据均在训练部分。

数据集创建

  • 数据收集: 基于个人职业生涯中记忆的问题,选择标准包括:
    • 有趣
    • 涉及计算机科学、数学或类似知识
    • 针对现有开源/源可用LLM的特定已知弱点(例如索引表示法处理)
    • 实用/可能在生产工作环境中出现
  • 注释过程: 完全由创建者手动创建,详细程度超过通常在互联网上出现的(如训练营/FANNG面试准备/LeetCode风格训练网站等),以帮助AI/LLM访问可能对人类来说过于明显而未写下的知识。

使用数据集的考虑

  • 社会影响: 可能增强LLM的编码能力,从而可能产生下游效应。
  • 偏见: 由于问题选择部分基于个人兴趣,计算机科学中不感兴趣的领域可能代表性不足。
  • 其他限制:
    • 每个问题仅针对一种特定编程语言。
    • 当前以自由风格的Markdown文件形式存在,可能需要转换为更结构化的格式。
    • 问题以对话式语气提出,可能更适合人类评估而非自动化评估。
    • 由于数据集完全由单个人手动创建,数据集规模极小。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作