hivaze/LOGIC-701
收藏Hugging Face2024-02-03 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/hivaze/LOGIC-701
下载链接
链接失效反馈官方服务:
资源简介:
LOGIC-701 Benchmark是一个专门设计来测试大型语言模型逻辑推理能力的合成和过滤数据集。该数据集包含701个涉及10个不同主题的中等和困难逻辑谜题。每个谜题提供5个答案选项,旨在测试模型的逻辑和推理能力,而不依赖于外部知识。数据集分为英语和俄语两个版本,以评估模型在不同语言环境下的推理性能。
LOGIC-701 Benchmark是一个专门设计来测试大型语言模型逻辑推理能力的合成和过滤数据集。该数据集包含701个涉及10个不同主题的中等和困难逻辑谜题。每个谜题提供5个答案选项,旨在测试模型的逻辑和推理能力,而不依赖于外部知识。数据集分为英语和俄语两个版本,以评估模型在不同语言环境下的推理性能。
提供机构:
hivaze
原始信息汇总
数据集概述
基本信息
- 语言: 英语 (en) 和 俄语 (ru)
- 许可证: Apache 2.0
- 数据集大小分类: n<1K
数据集配置
-
配置名称: en
- 特征:
- topic: 字符串
- problem_statement: 字符串
- solution: 字符串
- answer_option_1: 字符串
- answer_option_2: 字符串
- answer_option_3: 字符串
- answer_option_4: 字符串
- answer_option_5: 字符串
- correct_option_number: 整数 (int64)
- 分割:
- train: 687953 字节, 701 个样本
- 下载大小: 372910 字节
- 数据集大小: 687953 字节
- 特征:
-
配置名称: ru
- 特征:
- topic: 字符串
- problem_statement: 字符串
- solution: 字符串
- answer_option_1: 字符串
- answer_option_2: 字符串
- answer_option_3: 字符串
- answer_option_4: 字符串
- answer_option_5: 字符串
- correct_option_number: 整数 (int64)
- 分割:
- train: 1211167 字节, 701 个样本
- 下载大小: 559700 字节
- 数据集大小: 1211167 字节
- 特征:
数据文件
- 配置名称: en
- 数据文件:
- train: en/train-*
- 数据文件:
- 配置名称: ru
- 数据文件:
- train: ru/train-*
- 数据文件:
标签
- benchmark
- logic
- instruct
- reasoning
数据集详情
数据集描述
- 类型: 合成和筛选的数据集
- 目的: 用于基准测试大型语言模型 (LLMs)
- 内容: 包含 701 个中等和困难的逻辑谜题,涉及 10 个不同主题
- 特点: 测试逻辑/推理能力,提供 5 个答案选项,不涉及或极少涉及外部知识
语言
- 多语言: 数据集在英语基础上翻译成俄语,保留原意
创建过程
- 使用 gpt-4-1106-preview 生成大量英语任务和答案选项
- 使用 intfloat/e5-large-v2 进行去重和条件筛选
- 进行 4 次独立的 gpt-4-1106-preview 运行以确定最佳答案
- 移除 gpt-4-1106-preview 在 4 次独立生成中答案不一致的任务
- 使用 gpt-4-1106-preview 将问题翻译成俄语
逻辑谜题主题
| 主题 | 数量 |
|---|---|
| 概率与统计 | 120 |
| 空间推理 | 118 |
| 行动和规划的优化 | 104 |
| 机制操作 | 80 |
| 序列解决 | 77 |
| 数学问题 | 51 |
| 函数和算法 | 50 |
| 横向思维 | 44 |
| 经典谜题 | 41 |
| 逻辑陷阱 | 16 |
正确答案选项分布
| 正确选项编号 | 数量 |
|---|---|
| 2 | 201 |
| 3 | 164 |
| 1 | 143 |
| 5 | 140 |
| 4 | 53 |
作者
- Sergei Bratchikov (Tochka Bank) - @hivaze



