five

pharaouk/algorithmic-reasoning-seed

收藏
Hugging Face2024-04-10 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/pharaouk/algorithmic-reasoning-seed
下载链接
链接失效反馈
官方服务:
资源简介:
Algorithmic Reasoning (seed)数据集旨在帮助大型语言模型(LLM)学习如何通过观察人类示范来推理代码,特别是算法任务。数据集包含的问题涉及计算机科学、数学等领域,并且针对现有开源LLM的已知弱点。数据集由个人手动创建,问题以对话形式提出,适合人类评估而非自动化评估。数据集目前处于开发中,大多数问题的答案部分为空或不完整。
提供机构:
pharaouk
原始信息汇总

数据集卡片:算法推理(种子)

数据集描述

数据集概述

该数据集旨在帮助大型语言模型(LLM)学习如何通过观察人类演示来推理代码,特别是在算法任务上。

支持的任务和排行榜

[更多信息需补充]

语言

[更多信息需补充]

数据集结构

数据实例

[更多信息需补充]

数据字段

  • 问题标题
  • 问题
  • 思考 - 内部思考过程,以有序的方式逐步推理
  • 向用户展示的答案(证明或代码) - 必要时附带解释

数据分割

目前所有数据都在训练部分,没有分割。

数据集创建

数据筛选理由

[更多信息需补充]

源数据

初始数据收集和规范化

问题选自个人职业生涯中记得的问题,基于以下标准:

  • 有趣
  • 涉及计算机科学、数学或类似知识
  • 针对现有开源/源可用LLM的已知弱点(例如索引符号处理)
  • 实用/可能出现在生产工作环境中

源语言生产者

[更多信息需补充]

注释

注释过程

完全由我个人手动创建,详细程度超过通常在互联网上出现的(如训练营/FANNG面试准备/LeetCode风格训练网站等),以帮助AI/LLM获取可能对人类来说太明显而未写下的知识。

注释者

[更多信息需补充]

个人和敏感信息

没有个人和敏感信息,都是一般的、客观的知识。

数据使用考虑

数据集的社会影响

尽管该数据集能否实际工作存疑,但如果确实有效,可能会增强LLM的编码能力(这是预期的),但这可能会因LLM能力的增强而产生下游效应。

偏见讨论

由于问题部分基于我的个人喜好选择,我可能不感兴趣的CS领域可能会被低估。

其他已知限制

  • 虽然我尝试涵盖各种主流编程语言,但每个问题仅针对一种特定语言。
  • 目前是自由格式的Markdown文件。可能可以编写脚本转换为更结构化的格式。
  • 问题以对话语气提出,而不是LeetCode风格的严格I/O规范,因此可能更适合人类评估而不是自动化评估(例如在沙箱中自动提取并运行代码输出以针对测试用例)。
  • 由于数据集完全由单个人手动创建,数据集大小非常小。

附加信息

数据集策展人

[更多信息需补充]

许可信息

MIT

引用信息

[更多信息需补充]

贡献

[更多信息需补充]

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作