five

hivaze/LOGIC-701

收藏
Hugging Face2024-02-03 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/hivaze/LOGIC-701
下载链接
链接失效反馈
官方服务:
资源简介:
LOGIC-701 Benchmark是一个专门设计来测试大型语言模型逻辑推理能力的合成和过滤数据集。该数据集包含701个涉及10个不同主题的中等和困难逻辑谜题。每个谜题提供5个答案选项,旨在测试模型的逻辑和推理能力,而不依赖于外部知识。数据集分为英语和俄语两个版本,以评估模型在不同语言环境下的推理性能。

LOGIC-701 Benchmark是一个专门设计来测试大型语言模型逻辑推理能力的合成和过滤数据集。该数据集包含701个涉及10个不同主题的中等和困难逻辑谜题。每个谜题提供5个答案选项,旨在测试模型的逻辑和推理能力,而不依赖于外部知识。数据集分为英语和俄语两个版本,以评估模型在不同语言环境下的推理性能。
提供机构:
hivaze
原始信息汇总

数据集概述

基本信息

  • 语言: 英语 (en) 和 俄语 (ru)
  • 许可证: Apache 2.0
  • 数据集大小分类: n<1K

数据集配置

  • 配置名称: en

    • 特征:
      • topic: 字符串
      • problem_statement: 字符串
      • solution: 字符串
      • answer_option_1: 字符串
      • answer_option_2: 字符串
      • answer_option_3: 字符串
      • answer_option_4: 字符串
      • answer_option_5: 字符串
      • correct_option_number: 整数 (int64)
    • 分割:
      • train: 687953 字节, 701 个样本
    • 下载大小: 372910 字节
    • 数据集大小: 687953 字节
  • 配置名称: ru

    • 特征:
      • topic: 字符串
      • problem_statement: 字符串
      • solution: 字符串
      • answer_option_1: 字符串
      • answer_option_2: 字符串
      • answer_option_3: 字符串
      • answer_option_4: 字符串
      • answer_option_5: 字符串
      • correct_option_number: 整数 (int64)
    • 分割:
      • train: 1211167 字节, 701 个样本
    • 下载大小: 559700 字节
    • 数据集大小: 1211167 字节

数据文件

  • 配置名称: en
    • 数据文件:
      • train: en/train-*
  • 配置名称: ru
    • 数据文件:
      • train: ru/train-*

标签

  • benchmark
  • logic
  • instruct
  • reasoning

数据集详情

数据集描述

  • 类型: 合成和筛选的数据集
  • 目的: 用于基准测试大型语言模型 (LLMs)
  • 内容: 包含 701 个中等和困难的逻辑谜题,涉及 10 个不同主题
  • 特点: 测试逻辑/推理能力,提供 5 个答案选项,不涉及或极少涉及外部知识

语言

  • 多语言: 数据集在英语基础上翻译成俄语,保留原意

创建过程

  1. 使用 gpt-4-1106-preview 生成大量英语任务和答案选项
  2. 使用 intfloat/e5-large-v2 进行去重和条件筛选
  3. 进行 4 次独立的 gpt-4-1106-preview 运行以确定最佳答案
  4. 移除 gpt-4-1106-preview 在 4 次独立生成中答案不一致的任务
  5. 使用 gpt-4-1106-preview 将问题翻译成俄语

逻辑谜题主题

主题 数量
概率与统计 120
空间推理 118
行动和规划的优化 104
机制操作 80
序列解决 77
数学问题 51
函数和算法 50
横向思维 44
经典谜题 41
逻辑陷阱 16

正确答案选项分布

正确选项编号 数量
2 201
3 164
1 143
5 140
4 53

作者

  • Sergei Bratchikov (Tochka Bank) - @hivaze
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作