five

ALCUNE|大型语言模型数据集|知识评估数据集

收藏
github2023-10-23 更新2025-02-07 收录
大型语言模型
知识评估
下载链接:
https://github.com/Arvid-pku/ALCUNA
下载链接
链接失效反馈
资源简介:
ALCUNA是由北京大学王选计算机研究所、数据科学中心和计算语言学教育部重点实验室联合开发的基准数据集,旨在评估大型语言模型(LLMs)面对新知识时的知识理解、区分和关联能力。该数据集基于EOL(生命百科全书)数据库构建,通过KnowGen方法生成人工生物实体及其属性和关系,包含84351个问题,涵盖3554个人工实体,平均每个实体具有11.75个属性三元组和25.39个兄弟实体。数据集通过合理改变现有实体属性和关系生成新知识,模拟真实世界中模型遭遇新知识的场景,可用于评估LLMs在新知识场景下的性能,帮助推动模型在新知识处理方面的发展。数据集已发布,可访问相关链接获取更多信息。

ALCUNA is a benchmark dataset jointly developed by the Wangxuan Computer Research Institute, Data Science Center, and Key Laboratory of Computational Linguistics of the Ministry of Education at Peking University. It is designed to evaluate the knowledge understanding, distinction, and association capabilities of large language models (LLMs) in the face of new knowledge. The dataset is constructed based on the EOL (Encyclopedia of Life) database and generated artificial biological entities, their attributes, and relationships using the KnowGen method. It contains 84,351 questions, covering 3,554 artificial entities, with an average of 11.75 attribute triples and 25.39 sibling entities per entity. The dataset generates new knowledge by rationally altering existing entity attributes and relationships, simulating real-world scenarios where models encounter new knowledge. It can be used to assess the performance of LLMs in new knowledge scenarios and help promote the development of models in the processing of new knowledge. The dataset has been released, and more information can be obtained through the provided link.
提供机构:
北京大学
创建时间:
2023-10-23
原始信息汇总

ALCUNA数据集概述

基本信息

  • 数据集名称:ALCUNA: Large Language Models Meet New Knowledge
  • 论文链接:https://arxiv.org/abs/2310.14820v1
  • 数据集下载地址:https://drive.google.com/drive/folders/1P2Yt4XM-uSzfJoec4psIhpk-mfm-K3R1?usp=share_link

数据集结构

元数据 (dataset/meta_data.jsonl)

  • 每行对应一个人工实体的元数据信息:

    • artificial_entity:人工实体的信息
      • name:人工实体的名称
      • id:父实体ID的负值
      • rank:生物分类学中的等级
      • property:属性结构列表
    • parent_entity:父实体的信息
    • difference:生成人工实体属性的差异
      • extension:来自其他实体的属性结构列表
      • variation:元组列表(old_property, new_property)
      • heredity:从父实体继承的属性结构列表
      • dropout:未继承到人工实体的父实体属性结构列表
  • 属性结构

    • name:当前属性的名称
    • type:当前属性的类型(attributerelation
    • values:当前属性的有效值列表

问题数据集 (dataset/id2question.json)

  • 包含从人工实体ID到对应问题的字典映射:
    • question:问题文本
    • answers:所有有效答案列表
    • form:问题形式(booleanfill-in-blankmulti-choice
    • type:问题子集类型(Knowledge UnderstandingKnowledge DifferentiationKnowledge Association
    • meta_data
      • related_property:与问题相关的人工实体属性
      • differencerelated_property的差异类型(extensionvariationhereditydropout
      • hop_triplets(可选):多跳问题对应的关系三元组链(仅限Knowledge Association数据集)

引用信息

bibtex @misc{yin2023alcuna, title={ALCUNA: Large Language Models Meet New Knowledge}, author={Xunjian Yin and Baizhou Huang and Xiaojun Wan}, year={2023}, eprint={2310.14820}, archivePrefix={arXiv}, primaryClass={cs.CL} }

AI搜集汇总
数据集介绍
main_image_url
构建方式
ALCUNA数据集的构建基于KnowGen方法,该方法通过生成人工实体的知识来模拟新知识的引入。每个实体通过其父实体的信息进行扩展、变异、遗传和丢弃等操作,生成具有独特属性的人工实体。数据集的元数据以JSONL格式存储,每条记录包含人工实体的名称、ID、分类等级及其属性结构。通过这种方式,数据集能够有效模拟新知识的生成与变化过程。
特点
ALCUNA数据集的特点在于其高度结构化的知识表示形式。每个实体不仅包含其自身的属性信息,还详细记录了与父实体的差异,如扩展、变异、遗传和丢弃等操作。此外,数据集还提供了与每个实体相关的问题集,问题形式多样,包括布尔型、填空题和多选题,涵盖了知识理解、知识区分和知识关联等多个维度。这种设计使得数据集能够全面评估模型对新知识的理解和推理能力。
使用方法
ALCUNA数据集的使用方法主要围绕其结构化数据和问题集展开。用户可以通过`meta_data.jsonl`文件获取每个实体的元数据信息,并通过`id2question.json`文件访问与实体相关的问题。问题的形式多样,用户可以根据需求选择布尔型、填空题或多选题进行测试。此外,数据集还提供了多跳问题的关系链信息,便于用户进行复杂的知识关联分析。通过这种方式,用户可以全面评估模型在新知识场景下的表现。
背景与挑战
背景概述
ALCUNA数据集由Xunjian Yin、Baizhou Huang和Xiaojun Wan于2023年提出,旨在探索大语言模型与新知识的结合。该数据集通过KnowGen方法生成人工实体,并围绕这些实体构建了一系列问题,涵盖知识理解、知识区分和知识关联等多个维度。ALCUNA的创建为大语言模型在处理新知识时的能力评估提供了重要基准,尤其在知识生成与推理任务中展现了显著的影响力。其核心研究问题在于如何通过人工实体的生成与问题设计,有效评估模型对新知识的理解与推理能力。
当前挑战
ALCUNA数据集面临的挑战主要体现在两个方面。首先,在领域问题方面,如何确保生成的人工实体及其属性具有足够的多样性和复杂性,以全面评估大语言模型的知识理解与推理能力,是一个关键挑战。其次,在数据集构建过程中,如何设计合理的差异类型(如扩展、变异、遗传和丢弃)以及多跳关系链,以生成高质量的问题数据,同样具有较高的技术难度。这些挑战不仅要求数据生成方法的创新,还需要对模型的知识处理能力进行深入理解与优化。
常用场景
经典使用场景
ALCUNA数据集在自然语言处理领域中被广泛用于评估大型语言模型在处理新知识时的能力。通过生成人工实体及其相关属性,该数据集为研究者提供了一个独特的平台,用于测试模型在知识理解、知识区分和知识关联等方面的表现。特别是在多跳推理和复杂问题回答任务中,ALCUNA数据集展现了其独特的价值。
解决学术问题
ALCUNA数据集解决了大型语言模型在面对新知识时的适应性问题。通过引入人工实体及其属性变化,该数据集帮助研究者深入探讨模型在知识扩展、变异、遗传和丢弃等不同情境下的表现。这一研究不仅推动了模型在新知识处理方面的技术进步,还为未来智能系统的知识更新和适应性提供了理论支持。
衍生相关工作
ALCUNA数据集的发布催生了一系列相关研究,特别是在知识生成和模型适应性领域。基于该数据集,研究者提出了多种改进模型性能的方法,如基于多跳推理的知识关联算法和基于属性变异的模型优化策略。这些工作不仅扩展了ALCUNA数据集的应用范围,还推动了自然语言处理领域在知识处理方面的前沿探索。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

学生课堂行为数据集 (SCB-dataset3)

学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。

arXiv 收录

ICESat-2 Data

ICESat-2 Data 是由美国国家航空航天局(NASA)发布的卫星数据集,主要用于全球冰层和陆地高程的测量。该数据集包括高精度激光测高数据,用于研究冰川、海冰、植被和地形变化。

icesat-2.gsfc.nasa.gov 收录

UniMed

UniMed是一个大规模、开源的多模态医学数据集,包含超过530万张图像-文本对,涵盖六种不同的医学成像模态:X射线、CT、MRI、超声、病理学和眼底。该数据集通过利用大型语言模型(LLMs)将特定模态的分类数据集转换为图像-文本格式,并结合现有的医学领域的图像-文本数据,以促进可扩展的视觉语言模型(VLM)预训练。

github 收录

poi

本项目收集国内POI兴趣点,当前版本数据来自于openstreetmap。

github 收录

HIT-UAV

HIT-UAV数据集包含2898张红外热成像图像,这些图像从43,470帧无人机拍摄的画面中提取。数据集涵盖了多种场景,如学校、停车场、道路和游乐场,在不同的光照条件下,包括白天和夜晚。

github 收录