five

OAEI-LLM|大型语言模型数据集|本体匹配数据集

收藏
arXiv2024-09-21 更新2024-09-26 收录
大型语言模型
本体匹配
下载链接:
http://arxiv.org/abs/2409.14038v1
下载链接
链接失效反馈
资源简介:
OAEI-LLM数据集是由澳大利亚国立大学和莫纳什大学联合创建的,旨在评估大型语言模型(LLMs)在语义网领域中的本体匹配任务中的幻觉现象。该数据集是Ontology Alignment Evaluation Initiative (OAEI)数据集的扩展版本,包含了对LLMs在本体匹配任务中产生的幻觉进行分类和记录的新模式。数据集的创建过程包括使用LLM生成的对齐文件与原始人类标注结果进行比较,识别并分类不同的幻觉类型。OAEI-LLM数据集的应用领域主要集中在理解和改进LLMs在本体匹配任务中的表现,旨在解决LLMs在特定领域任务中产生的幻觉问题。
提供机构:
澳大利亚国立大学
创建时间:
2024-09-21
AI搜集汇总
数据集介绍
main_image_url
构建方式
OAEI-LLM数据集的构建基于Ontology Alignment Evaluation Initiative (OAEI)的现有数据集,通过引入大型语言模型(LLMs)进行本体匹配任务。具体构建过程包括:首先,利用LLM-based OM系统对源本体(𝐴?𝑎?)和目标本体(𝐴?𝑎?)进行匹配,生成LLM-Alignment文件(𝐴𝑎?𝑎?𝑎?)。随后,将生成的匹配结果与OAEI的参考匹配结果(𝐴?𝑎?𝑎𝑎?𝑎?)进行对比,识别并分类LLM产生的幻觉(hallucinations),包括缺失匹配(Missing)和错误匹配(Incorrect)。错误匹配进一步细分为上位对齐(Align-up)、下位对齐(Align-down)、虚假匹配(False-mapping)和争议匹配(Disputed-mapping)。最终,通过半自动或全自动的匹配评估过程生成OAEI-LLM数据集。
特点
OAEI-LLM数据集的主要特点在于其专注于评估和量化大型语言模型在本体匹配任务中的幻觉现象。该数据集不仅记录了LLM生成的匹配结果,还详细分类了不同类型的幻觉,包括缺失和错误的匹配,以及每种错误的具体类型。此外,数据集通过扩展现有的匹配模式,增加了对幻觉信息的记录,使得研究者能够更精确地分析和理解LLM在本体匹配中的表现。这种详细的分类和记录机制为后续的模型优化和幻觉缓解提供了宝贵的数据支持。
使用方法
OAEI-LLM数据集的主要用途包括:首先,作为基准数据集,用于评估不同大型语言模型在本体匹配任务中的性能,特别是它们在生成幻觉方面的表现。通过对比LLM生成的匹配结果与人工标注的参考结果,可以量化不同LLM的错误类型和频率,从而为模型选择和优化提供依据。其次,该数据集可用于微调LLMs,通过提供详细的幻觉信息和错误匹配案例,帮助模型学习更精确的本体匹配策略。此外,OAEI-LLM还可以作为研究工具,用于探索和开发新的方法来减少或消除LLMs在本体匹配中的幻觉现象。
背景与挑战
背景概述
OAEI-LLM数据集是由澳大利亚国立大学和莫纳什大学的研究人员共同创建的,旨在解决大语言模型(LLMs)在语义网领域中的本体匹配(OM)任务中出现的幻觉问题。该数据集是Ontology Alignment Evaluation Initiative(OAEI)数据集的扩展版本,特别关注于评估LLMs在本体匹配任务中的幻觉现象。自2004年成立以来,OAEI已成为本体匹配挑战的最大社区,涵盖了多个主题领域的多本体轨道。OAEI-LLM数据集的创建填补了LLMs在本体匹配任务中幻觉评估的空白,为理解和改进LLMs驱动的本体匹配提供了基准。
当前挑战
OAEI-LLM数据集面临的挑战主要集中在两个方面:一是解决LLMs在本体匹配任务中产生的幻觉问题,这些幻觉可能导致错误的实体映射或遗漏正确的映射,从而影响匹配的精确度和召回率;二是数据集构建过程中需要对LLMs生成的结果与人工标注结果进行详细比较,分类不同类型的幻觉,并记录这些信息。此外,数据集还需要扩展现有的映射模式,以记录与LLMs幻觉相关的额外信息,这增加了数据集的复杂性和处理难度。
常用场景
经典使用场景
在语义网领域,OAEI-LLM数据集的经典使用场景主要集中在评估大型语言模型(LLMs)在本体匹配(OM)任务中的幻觉现象。该数据集通过比较LLMs生成的匹配结果与人工标注的参考结果,量化不同类型幻觉的发生频率和影响。具体而言,研究人员可以利用OAEI-LLM数据集来分析LLMs在处理特定领域知识时的表现,识别并分类幻觉类型,如缺失匹配、错误匹配、上位对齐、下位对齐等。这不仅有助于理解LLMs在OM任务中的局限性,还为改进LLMs的性能提供了宝贵的基准数据。
实际应用
在实际应用中,OAEI-LLM数据集为优化大型语言模型在本体匹配任务中的表现提供了关键工具。例如,在科研会议管理、知识图谱构建和语义搜索等领域,本体匹配的准确性直接影响到系统的性能和用户体验。通过使用OAEI-LLM数据集,开发者可以识别和纠正LLMs在处理特定领域知识时的常见错误,从而提高匹配结果的精确度和召回率。此外,该数据集还可用于训练和微调LLMs,以注入更精确的领域知识,减少幻觉现象的发生,进一步提升LLMs在实际应用中的可靠性和实用性。
衍生相关工作
OAEI-LLM数据集的推出,催生了一系列相关研究工作,特别是在大型语言模型在本体匹配任务中的应用和优化方面。例如,研究人员可以基于OAEI-LLM数据集开发新的评估方法和指标,以更全面地衡量LLMs在本体匹配中的表现。此外,该数据集还为开发新的幻觉检测和纠正算法提供了丰富的数据支持,推动了LLMs在特定领域知识处理中的精细化研究。未来,OAEI-LLM数据集有望成为本体匹配领域的一个重要基准,促进更多创新方法和技术的涌现,进一步提升LLMs在语义网和相关应用中的性能和可靠性。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

Google Scholar

Google Scholar是一个学术搜索引擎,旨在检索学术文献、论文、书籍、摘要和文章等。它涵盖了广泛的学科领域,包括自然科学、社会科学、艺术和人文学科。用户可以通过关键词搜索、作者姓名、出版物名称等方式查找相关学术资源。

scholar.google.com 收录

中国气象数据

本数据集包含了中国2023年1月至11月的气象数据,包括日照时间、降雨量、温度、风速等关键数据。通过这些数据,可以深入了解气象现象对不同地区的影响,并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。

github 收录

PlantVillage

在这个数据集中,39 种不同类别的植物叶子和背景图像可用。包含 61,486 张图像的数据集。我们使用了六种不同的增强技术来增加数据集的大小。这些技术是图像翻转、伽玛校正、噪声注入、PCA 颜色增强、旋转和缩放。

OpenDataLab 收录

FER2013

FER2013数据集是一个广泛用于面部表情识别领域的数据集,包含28,709个训练样本和7,178个测试样本。图像属性为48x48像素,标签包括愤怒、厌恶、恐惧、快乐、悲伤、惊讶和中性。

github 收录

ChemBL

ChemBL是一个化学信息学数据库,包含大量生物活性数据,涵盖了药物发现和开发过程中的各种化学实体。数据集包括化合物的结构信息、生物活性数据、靶点信息等。

www.ebi.ac.uk 收录