five

jiacheng-ye/logiqa-zh|逻辑推理数据集|中文问答数据集

收藏
hugging_face2023-04-21 更新2024-03-04 收录
逻辑推理
中文问答
下载链接:
https://hf-mirror.com/datasets/jiacheng-ye/logiqa-zh
下载链接
链接失效反馈
资源简介:
LogiQA-zh数据集是从中国国家公务员考试的逻辑理解问题中构建的,专门用于测试公务员候选人的批判性思维和问题解决能力。该数据集仅包含中文版本,包含上下文、问题、选项和正确答案四个主要特征,分为训练集、验证集和测试集,分别有7376、651和651个样本。
提供机构:
jiacheng-ye
原始信息汇总

数据集概述

  • 名称: LogiQA-zh
  • 任务类别: 问答(question-answering)
  • 语言: 中文(zh)
  • 大小: 1K<n<10K
  • 论文代码ID: logiqa

数据集结构

数据实例

  • 字段:
    • context: 字符串类型
    • query: 字符串类型
    • options: 字符串序列
    • correct_option: 字符串类型

数据分割

分割 示例数量
train 7376
validation 651
test 651

数据集来源

  • 来源: 中国国家公务员考试公开题目
  • 目的: 测试公务员候选人的批判性思维和问题解决能力

贡献者

AI搜集汇总
数据集介绍
main_image_url
构建方式
LogiQA-zh数据集的构建,旨在从中国公务员考试的逻辑推理问题中,提炼出符合逻辑理解测试的题目。该数据集的构建,精选自公开的考试题目,并经过严格的数据清洗与格式化处理,形成了包含上下文、问题、选项及正确答案的结构化数据实例。
特点
LogiQA-zh数据集的特点在于,其内容均源于具有实际应用背景的公务员考试逻辑题,具备较高的实用性和挑战性。数据集涵盖了训练集、验证集和测试集,每个数据实例都包括一个上下文、一个问题、一组选项以及一个正确选项,适合用于评估机器在逻辑推理方面的理解和处理能力。
使用方法
使用LogiQA-zh数据集,用户可以根据数据集提供的 splits 进行模型的训练、验证和测试。数据集以JSON格式存储,其中每个实例均为一个包含上下文、问题、选项及正确答案的字典结构,便于直接加载和应用至机器阅读理解与逻辑推理相关的任务中。
背景与挑战
背景概述
LogiQA-zh数据集,源于我国公务员考试的逻辑推理题目,由刘建等研究人员于2020年构建,旨在评估候选人的批判性思维与问题解决能力。该数据集专注于中文逻辑理解问题,为自然语言处理领域中的机器阅读理解任务提供了重要的研究资源,对提升模型的逻辑推理能力具有显著影响力。
当前挑战
该数据集的挑战主要体现在两个方面:一是逻辑推理问题的多样性和复杂性,对模型的推理能力提出了高要求;二是构建过程中,确保问题和答案的准确性以及数据集的平衡性是一大难题。此外,跨领域知识的缺乏也使得模型在处理非标准化问题时面临挑战。
常用场景
经典使用场景
在自然语言处理领域,LogiQA-zh数据集的经典使用场景在于评估机器在处理逻辑推理型问题时的理解能力。该数据集模拟了公务员考试中的逻辑推理题目,通过提供一段描述性文字(context)、一个问题(query)以及多个选项(options),要求模型判断哪个选项是正确的(correct_option)。
实际应用
在实际应用中,LogiQA-zh数据集的应用场景广泛,例如在智能客服系统中,模型可以利用该数据集训练出的逻辑推理能力来更准确地理解和回应客户的咨询;在在线教育平台中,可以帮助设计智能辅导系统,评估学生对逻辑推理问题的掌握程度。
衍生相关工作
基于LogiQA-zh数据集,学术界衍生出了许多相关的工作,包括但不限于对逻辑推理模型的改进、跨语言逻辑推理任务的研究以及结合知识图谱的推理方法探索,这些研究进一步扩展了LogiQA-zh数据集的应用范围,并推动了相关领域的学术进展。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国气象数据

本数据集包含了中国2023年1月至11月的气象数据,包括日照时间、降雨量、温度、风速等关键数据。通过这些数据,可以深入了解气象现象对不同地区的影响,并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。

github 收录

GME Data

关于2021年GameStop股票活动的数据,包括每日合并的GME短期成交量数据、每日失败交付数据、可借股数、期权链数据以及不同时间框架的开盘/最高/最低/收盘/成交量条形图。

github 收录

Fruits-360

一个高质量的水果图像数据集,包含多种水果的图像,如苹果、香蕉、樱桃等,总计42345张图片,分为训练集和验证集,共有64个水果类别。

github 收录

中亚主要国家的原油资源的储量、产量、消费量及其占世界比重(1985-2016)

中亚五国中,石油资源主要分布在哈萨克斯坦、乌兹别克斯坦、土库曼斯坦三个国家。根据BP世界能源统计年鉴,经整理、抽取、计算和汇总后,形成中亚主要国家(哈萨克斯坦、乌兹别克斯坦、土库曼斯坦)原油资源的储量、产量、消费量及其占世界比重的统计表。 主要指标包括: (1)储量,1991-2016年,单位:百万吨 (2)产量,1985-2016年,单位:百万吨 (3)储产比,1991-2016年,单位:百万吨 (4)消费量,1985-2016年,单位:百万吨 (5)产消差额,1985-2016年,单位:百万吨 此外,以上数据均包括中亚地区的哈萨克斯坦、乌兹别克斯坦、土库曼斯坦、三国汇总以及世界总量的情况。

地球大数据科学工程 收录

中国省级灾害统计空间分布数据集(1999-2020年)

该数据集为中国省级灾害统计空间分布数据集,时间为1999-2020年。该数据集包含中国各省自然灾害、地质灾害、地震灾害、森林火灾、森林病虫鼠害、草原灾害六类灾害的详细数据。数据量为206MB,数据格式为excel。

国家地球系统科学数据中心 收录