ALCUNE|大型语言模型数据集|知识评估数据集
收藏ALCUNA数据集概述
基本信息
- 数据集名称:ALCUNA: Large Language Models Meet New Knowledge
- 论文链接:https://arxiv.org/abs/2310.14820v1
- 数据集下载地址:https://drive.google.com/drive/folders/1P2Yt4XM-uSzfJoec4psIhpk-mfm-K3R1?usp=share_link
数据集结构
元数据 (dataset/meta_data.jsonl
)
-
每行对应一个人工实体的元数据信息:
artificial_entity
:人工实体的信息name
:人工实体的名称id
:父实体ID的负值rank
:生物分类学中的等级property
:属性结构列表
parent_entity
:父实体的信息difference
:生成人工实体属性的差异extension
:来自其他实体的属性结构列表variation
:元组列表(old_property, new_property)
heredity
:从父实体继承的属性结构列表dropout
:未继承到人工实体的父实体属性结构列表
-
属性结构:
name
:当前属性的名称type
:当前属性的类型(attribute
或relation
)values
:当前属性的有效值列表
问题数据集 (dataset/id2question.json
)
- 包含从人工实体ID到对应问题的字典映射:
question
:问题文本answers
:所有有效答案列表form
:问题形式(boolean
、fill-in-blank
、multi-choice
)type
:问题子集类型(Knowledge Understanding
、Knowledge Differentiation
、Knowledge Association
)meta_data
:related_property
:与问题相关的人工实体属性difference
:related_property
的差异类型(extension
、variation
、heredity
、dropout
)hop_triplets
(可选):多跳问题对应的关系三元组链(仅限Knowledge Association
数据集)
引用信息
bibtex @misc{yin2023alcuna, title={ALCUNA: Large Language Models Meet New Knowledge}, author={Xunjian Yin and Baizhou Huang and Xiaojun Wan}, year={2023}, eprint={2310.14820}, archivePrefix={arXiv}, primaryClass={cs.CL} }

学生课堂行为数据集 (SCB-dataset3)
学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。
arXiv 收录
ICESat-2 Data
ICESat-2 Data 是由美国国家航空航天局(NASA)发布的卫星数据集,主要用于全球冰层和陆地高程的测量。该数据集包括高精度激光测高数据,用于研究冰川、海冰、植被和地形变化。
icesat-2.gsfc.nasa.gov 收录
UniMed
UniMed是一个大规模、开源的多模态医学数据集,包含超过530万张图像-文本对,涵盖六种不同的医学成像模态:X射线、CT、MRI、超声、病理学和眼底。该数据集通过利用大型语言模型(LLMs)将特定模态的分类数据集转换为图像-文本格式,并结合现有的医学领域的图像-文本数据,以促进可扩展的视觉语言模型(VLM)预训练。
github 收录
poi
本项目收集国内POI兴趣点,当前版本数据来自于openstreetmap。
github 收录
HIT-UAV
HIT-UAV数据集包含2898张红外热成像图像,这些图像从43,470帧无人机拍摄的画面中提取。数据集涵盖了多种场景,如学校、停车场、道路和游乐场,在不同的光照条件下,包括白天和夜晚。
github 收录