five

FreebaseLFC, NELLLFC, WikiLFC|逻辑推理数据集|事实检查数据集

收藏
arXiv2024-12-21 更新2024-12-24 收录
逻辑推理
事实检查
下载链接:
http://arxiv.org/abs/2412.16100v1
下载链接
链接失效反馈
资源简介:
FreebaseLFC、NELLLFC和WikiLFC是三个用于评估大型语言模型(LLMs)在逻辑事实检查任务中逻辑一致性的数据集。这些数据集分别来源于Freebase、NELL和WikiKG90Mv2知识图谱,包含了大量的实体及其关系。数据集通过将知识图谱中的三元组转换为适合LLMs输入的(事实,上下文)对,用于测试LLMs在处理复杂逻辑查询时的表现。创建过程涉及从知识图谱中提取数据并进行格式转换,旨在解决LLMs在复杂逻辑查询中的逻辑一致性问题,特别是在事实检查和逻辑推理领域。
提供机构:
马克斯·普朗克软件系统研究所
创建时间:
2024-12-21
AI搜集汇总
数据集介绍
main_image_url
构建方式
该数据集通过从Freebase、NELL和WikiKG90Mv2等知识图谱中提取事实三元组,并将其转换为适合大型语言模型(LLM)输入的格式,构建了三个逻辑事实检查数据集:FreebaseLFC、NELLLFC和WikiLFC。具体而言,每个三元组被转换为(Fact, Context)对,称为LLMQuery,其中Fact是逻辑查询,Context是从知识图谱中提取的相关上下文。通过这种方式,数据集为评估和改进LLM在复杂逻辑查询中的逻辑一致性提供了基准。
特点
这些数据集的主要特点在于其专注于逻辑一致性评估,涵盖了简单事实、复杂事实以及涉及逻辑运算符(如否定、合取和析取)的查询。此外,数据集还包含了逻辑规则的评估,如交换律、结合律和分配律,从而全面测试LLM在逻辑推理中的表现。通过这些数据集,研究者可以系统地评估LLM在不同逻辑场景下的表现,并探索改进其逻辑一致性的方法。
使用方法
使用这些数据集时,研究者可以通过提供逻辑查询和相应的知识图谱上下文,评估LLM在事实检查任务中的逻辑一致性。具体方法包括:首先,将逻辑查询和上下文输入到LLM中,获取其生成的二元响应(如‘是’或‘否’);然后,根据逻辑运算符的语义,检查LLM的响应是否符合逻辑一致性要求。通过这种方式,研究者可以量化LLM在不同逻辑查询下的表现,并进一步通过监督微调等方法提升其逻辑一致性。
背景与挑战
背景概述
近年来,大型语言模型(LLMs)在自然语言处理任务中表现出色,如语言翻译、问答、摘要和事实核查等。尽管LLMs在生成类人文本方面表现出色,但其响应的不一致性问题也广为人知,即输入查询的微小变化可能导致不一致的响应,这与模型的脆弱性(如幻觉、越狱等)有关。因此,现有研究主要集中在基于简单改写的LLMs一致性评估上,而忽略了需要更强的逻辑推理能力的复杂查询。为了解决这一问题,Bishwamittra Ghosh等人提出了三个逻辑事实核查数据集(FreebaseLFC、NELLLFC和WikiLFC),这些数据集基于真实世界知识图谱(KGs)中的命题逻辑查询,旨在为社区开发逻辑一致的LLMs提供基准。
当前挑战
该数据集面临的挑战主要有两个方面:一是解决领域问题的挑战,即如何评估和提升LLMs在复杂逻辑查询中的逻辑一致性;二是构建过程中遇到的挑战,包括如何从知识图谱中提取适合LLMs输入格式的逻辑查询,以及如何设计有效的评估方法来衡量LLMs在复杂逻辑查询中的表现。此外,现有的LLMs在处理复杂逻辑查询时往往缺乏逻辑一致性,特别是在涉及否定、合取和析取等逻辑操作符的查询中。通过监督微调来提升LLMs在复杂事实核查任务中的逻辑一致性,是该数据集的核心挑战之一。
常用场景
经典使用场景
FreebaseLFC、NELLLFC 和 WikiLFC 数据集的经典使用场景主要集中在评估和提升大型语言模型(LLMs)在事实核查任务中的逻辑一致性。这些数据集通过从知识图谱(KGs)中提取的命题逻辑查询,帮助研究人员评估现有LLMs在处理复杂逻辑查询时的逻辑一致性。通过这些数据集,研究人员可以系统性地测试LLMs在处理否定、合取和析取等逻辑操作时的表现,从而揭示其在逻辑推理任务中的潜在缺陷。
实际应用
在实际应用中,这些数据集可以用于提升LLMs在事实核查、问答系统等高风险领域的可靠性。例如,在医疗、金融和法律等领域,LLMs需要对复杂的事实和逻辑进行准确推理,以避免生成错误或不一致的响应。通过在这些数据集上进行训练和评估,LLMs可以更好地处理复杂的逻辑查询,从而在实际应用中提供更加可靠和一致的回答。
衍生相关工作
这些数据集的引入催生了一系列相关工作,特别是在逻辑一致性评估和改进方面。例如,研究人员提出了基于监督微调的方法,通过在复杂逻辑查询上进行微调,显著提升了LLMs的逻辑一致性。此外,还有工作探讨了如何通过参数高效微调(PEFT)技术来优化微调过程,从而在保持模型性能的同时提高效率。这些衍生工作不仅扩展了LLMs的应用场景,还为未来的研究提供了新的方向,如在自然语言查询中引入逻辑关系,或将逻辑一致性评估扩展到非二元响应的场景。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

LFW

人脸数据集;LFW数据集共有13233张人脸图像,每张图像均给出对应的人名,共有5749人,且绝大部分人仅有一张图片。每张图片的尺寸为250X250,绝大部分为彩色图像,但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download

AI_Studio 收录

中国气象数据

本数据集包含了中国2023年1月至11月的气象数据,包括日照时间、降雨量、温度、风速等关键数据。通过这些数据,可以深入了解气象现象对不同地区的影响,并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。

github 收录

中国知识产权局专利数据库

该数据集包含了中国知识产权局发布的专利信息,涵盖了专利的申请、授权、转让等详细记录。数据内容包括专利号、申请人、发明人、申请日期、授权日期、专利摘要等。

www.cnipa.gov.cn 收录

中国行政区划数据

本项目为中国行政区划数据,包括省级、地级、县级、乡级和村级五级行政区划数据。数据来源于国家统计局,存储格式为sqlite3 db文件,支持直接使用数据库连接工具打开。

github 收录

RAVDESS

情感语音和歌曲 (RAVDESS) 的Ryerson视听数据库包含7,356个文件 (总大小: 24.8 GB)。该数据库包含24位专业演员 (12位女性,12位男性),以中性的北美口音发声两个词汇匹配的陈述。言语包括平静、快乐、悲伤、愤怒、恐惧、惊讶和厌恶的表情,歌曲则包含平静、快乐、悲伤、愤怒和恐惧的情绪。每个表达都是在两个情绪强度水平 (正常,强烈) 下产生的,另外还有一个中性表达。所有条件都有三种模态格式: 纯音频 (16位,48kHz .wav),音频-视频 (720p H.264,AAC 48kHz,.mp4) 和仅视频 (无声音)。注意,Actor_18没有歌曲文件。

OpenDataLab 收录