LogiQuest-Dataset-V1|逻辑推理数据集|人工智能训练数据数据集

github2023-12-05 更新2024-05-31 收录

逻辑推理

人工智能训练数据

下载链接：

https://github.com/Zhang-l-i-n/LogiQuest

下载链接

链接失效反馈

资源简介：

逻辑推理是人工智能的关键能力之一，特别是对于大模型如ChatGPT。为了提升其推理和理解能力，我们需要大量的逻辑和推理训练数据。然而，现有的训练数据通常集中于英语，对于中文的逻辑和推理训练数据，特别是那些涉及到具体和复杂问题的，供应十分匮乏。为了解决这个问题，我们从互联网上收集了大量的逻辑推理对话数据，包含各种问题以及它们的答案。我们的目标是通过使用这些数据来训练GPT，以增强其逻辑推理和理解能力。

Logical reasoning is one of the critical capabilities of artificial intelligence, especially for large models like ChatGPT. To enhance their reasoning and comprehension abilities, we require a substantial amount of logical and reasoning training data. However, existing training data is predominantly focused on English, and there is a significant scarcity of logical and reasoning training data in Chinese, particularly those involving specific and complex issues. To address this issue, we have collected a large amount of logical reasoning dialogue data from the internet, encompassing various questions and their corresponding answers. Our goal is to utilize this data to train GPT, thereby enhancing its logical reasoning and comprehension capabilities.

创建时间：

2023-06-15

原始信息汇总

LogiQuest:A Dataset for Free-Text Logical Reasoning and Inference

数据集概述

目的: 为了提升大模型如ChatGPT的逻辑推理和理解能力，特别是针对中文逻辑和推理训练数据的缺乏问题。
数据来源: 从互联网上收集的逻辑推理对话数据，包含各种问题及其答案。
当前版本: 公开了1936条数据，命名为“LogiQuest-Dataset-V1”。
语言: 包含中文和英文，支持将数据翻译成其他语言。

数据样例

例1: 逻辑推理题目，涉及通过一系列问题推理出隐藏的字母。
例2: 逻辑推理题目，涉及通过分析数字序列找出规律。

主要贡献者

张琳, linzhang22@m.fudan.edu.cn
李梓涵, zhli21@m.fudan.edu.cn
熊卓帜, zzxiong21@m.fudan.edu.cn
顾洲洪, zhgu22@m.fudan.edu.cn
朱晓萱, xxzhu22@m.fudan.edu.cn
叶浩宁, hnye19@fudan.edu.cn
王建宸, 20210240375@fudan.edu.cn
蒋思航, tedsihangjiang@gmail.com
冯红伟, hwfeng@fudan.edu.cn
肖仰华, shawyh@fudan.edu.cn
汪自力, ziliwang.do@gmail.com
王树森，wssatzju@gmail.com

AI搜集汇总

数据集介绍

构建方式

LogiQuest-Dataset-V1的构建源于对中文逻辑推理数据的迫切需求。研究团队从互联网上广泛收集了包含各种逻辑推理问题的对话数据，涵盖了从简单到复杂的多种题型。这些数据经过精心筛选和整理，最终形成了包含1936条数据的数据集。数据集的构建过程注重多样性和复杂性，旨在为模型提供丰富的训练素材，以提升其在中文语境下的逻辑推理能力。

特点

LogiQuest-Dataset-V1的特点在于其专注于中文逻辑推理问题，填补了该领域数据稀缺的空白。数据集不仅包含传统的逻辑推理题目，还涵盖了对话形式的推理问题，增强了数据的多样性和实用性。每条数据均以JSON格式存储，详细记录了问题、答案、推理思路等信息，便于模型理解和学习。此外，数据集还支持多语言扩展，用户可根据需求将数据翻译为其他语言，进一步拓展其应用范围。

使用方法

LogiQuest-Dataset-V1的使用方法灵活多样，适用于训练和评估逻辑推理模型。用户可通过加载JSON格式的数据文件，直接获取问题和答案对，用于模型的训练和微调。数据集中提供的推理思路可作为模型学习的参考，帮助其理解逻辑推理的过程。此外，用户还可根据需求对数据进行扩展或翻译，以适应不同语言或场景的应用。数据集的开放性和结构化设计使其成为提升模型逻辑推理能力的理想工具。

背景与挑战

背景概述

随着人工智能技术的迅猛发展，逻辑推理能力成为衡量大模型智能水平的重要指标。然而，现有的逻辑推理训练数据多集中于英语，中文领域的相关资源相对匮乏。为此，复旦大学的研究团队于近期推出了LogiQuest-Dataset-V1，旨在填补这一空白。该数据集由张琳、李梓涵等研究人员主导开发，包含了1936条中文逻辑推理对话数据，涵盖了从简单到复杂的各类问题。这些数据不仅为中文逻辑推理模型的训练提供了宝贵资源，也为推动中文自然语言处理技术的发展做出了重要贡献。

当前挑战

LogiQuest-Dataset-V1的构建面临多重挑战。首先，中文逻辑推理问题的多样性和复杂性要求数据收集过程中必须确保问题的广泛覆盖和深度挖掘，这对数据质量提出了较高要求。其次，由于逻辑推理问题往往涉及多步推理和隐含信息的提取，如何准确标注和验证这些问题的答案成为一大难题。此外，数据集的构建还需要考虑跨语言翻译的准确性，以确保其在不同语言环境下的适用性。这些挑战不仅考验了研究团队的数据处理能力，也为未来的数据集扩展和改进指明了方向。

常用场景

经典使用场景

LogiQuest-Dataset-V1数据集在自然语言处理领域，尤其是中文逻辑推理和对话系统的训练中，展现了其独特的价值。该数据集通过提供丰富的中文逻辑推理对话数据，为研究人员和开发者提供了一个宝贵的资源，用于训练和测试大模型在理解和执行复杂逻辑推理任务中的能力。

实际应用

在实际应用中，LogiQuest-Dataset-V1数据集被广泛应用于智能客服、教育辅导软件以及各类需要高级逻辑推理能力的AI系统中。这些应用场景中，数据集帮助提升了系统的理解能力和交互质量，使得AI能够更准确地理解和回应用户的复杂查询。

衍生相关工作

基于LogiQuest-Dataset-V1，已经衍生出多项研究，包括但不限于逻辑推理模型的优化、多语言逻辑推理能力的比较研究以及对话系统的智能化升级。这些研究不仅加深了我们对AI逻辑推理能力的理解，也为未来的技术发展奠定了坚实的基础。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

LFW

人脸数据集;LFW数据集共有13233张人脸图像，每张图像均给出对应的人名，共有5749人，且绝大部分人仅有一张图片。每张图片的尺寸为250X250，绝大部分为彩色图像，但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download

AI_Studio 收录

PQAref

PQAref数据集是一个用于生物医学领域参考问答任务的数据集，旨在微调大型语言模型。该数据集包含三个部分：指令（问题）、摘要（从PubMed检索的相关摘要，包含PubMed ID、摘要标题和内容）和答案（预期答案，包含PubMed ID形式的参考）。数据集通过半自动方式创建，利用了PubMedQA数据集中的问题。

huggingface 收录

MUStARD++

MUStARD++是一个多模态讽刺检测数据集，由萨里大学创建，旨在通过语言、语音和视觉线索全面捕捉讽刺现象。数据集包含1202个视频样本，来源于多个流行电视节目，通过手动标注确保高质量的讽刺标签。创建过程中，研究者们通过多轮标注和验证确保数据的准确性和多样性。该数据集主要应用于自动讽刺检测，帮助机器理解并识别讽刺语境，解决讽刺识别中的多模态挑战。

arXiv 收录

AIS数据集

该研究使用了多个公开的AIS数据集，这些数据集经过过滤、清理和统计分析。数据集涵盖了多种类型的船舶，并提供了关于船舶位置、速度和航向的关键信息。数据集包括来自19,185艘船舶的AIS消息，总计约6.4亿条记录。

github 收录

CT-ORG

3D CT, 140 Cases, 6 Categories of Organ Segmentation.

github 收录