five

UBENCH|语言模型评估数据集|基准测试数据集

收藏
arXiv2024-06-19 更新2024-06-20 收录
语言模型评估
基准测试
下载链接:
https://github.com/Cyno2232/UBENCH
下载链接
链接失效反馈
资源简介:
UBENCH是由南开大学软件学院创建的一个综合基准,用于评估大型语言模型(LLMs)的可靠性。该数据集包含3978个多选题,覆盖知识、语言、理解和推理四个主要领域,旨在通过这些题目评估LLMs在不同任务中的表现。UBENCH的数据来源于多个公开数据集,经过特殊处理和严格的质量控制,以确保评估的准确性。该数据集适用于广泛的开放源和闭源模型,特别强调高效的推理和可扩展性。UBENCH的应用领域包括但不限于模型评估和改进,旨在解决LLMs在实际应用中的不确定性和可靠性问题。
提供机构:
南开大学软件学院
创建时间:
2024-06-19
AI搜集汇总
数据集介绍
main_image_url
构建方式
UBENCH 数据集通过精心设计的多项选择题,涵盖了知识、语言、理解和推理四个主要类别,共计 3,978 道题目。数据集的构建过程包括从多个公开数据集中随机抽取样本,并进行格式转换和质量控制,确保每个样本都经过两位作者的审查,并在必要时由第三位作者参与以达成共识。此外,对于没有错误答案的数据集,使用 GPT-4 生成与正确答案相似的错误答案,以确保数据集的全面性和准确性。
使用方法
UBENCH 数据集的使用方法包括对 15 个主流 LLMs 的可靠性评估,涵盖了开源和闭源模型。评估过程中使用了四种评价指标:预期校准误差(ECE)、平均校准误差(ACE)、最大校准误差(MCE)和阈值平均校准误差(TACE)。实验结果表明,UBENCH 在大多数设置下表现优异,尤其在评估 LLMs 的可靠性方面,GLM4 表现最为突出,紧随其后的是 GPT-4。此外,UBENCH 还探索了链式思维提示(CoT)、角色扮演提示、选项顺序和温度参数对 LLMs 可靠性的影响。
背景与挑战
背景概述
UBENCH, introduced by researchers from Nankai University and Tianjin University of Science and Technology, is a comprehensive benchmark designed to evaluate the reliability of large language models (LLMs) through multiple-choice questions. Developed in response to the limitations of existing benchmarks that primarily assess problem-solving abilities while neglecting the uncertainty of responses, UBENCH includes 3,978 questions covering knowledge, language understanding, and reasoning. The dataset aims to provide a systematic and automated evaluation framework, significantly reducing computational resources compared to traditional methods that require multiple samplings. UBENCH has been instrumental in assessing the reliability of 15 popular LLMs, highlighting the need for incorporating uncertainty estimation in LLM evaluations.
当前挑战
The primary challenge addressed by UBENCH is the lack of comprehensive evaluation systems that consider the uncertainty of LLM responses, which can lead to unreliability and potential harm. Traditional uncertainty estimation methods are resource-intensive and often incompatible with black-box models. UBENCH addresses these challenges by requiring only a single sampling instance, thereby reducing computational costs while maintaining evaluation fidelity. Additionally, the benchmark faces challenges in ensuring the quality and diversity of its dataset, as well as in adapting to both open-source and closed-source models. The ongoing challenge is to continuously refine the benchmark to keep pace with the rapid advancements in LLM technology and to expand its scope to include multimodal scenarios and other potential factors affecting LLM reliability.
常用场景
经典使用场景
UBENCH 数据集的经典使用场景在于评估大型语言模型(LLMs)在多选题任务中的不确定性。通过包含 3,978 道涵盖知识、语言、理解和推理能力的多选题,UBENCH 提供了一个全面的基准,用于测试 LLMs 在不同情境下的可靠性。
解决学术问题
UBENCH 数据集解决了学术界在评估 LLMs 可靠性时面临的常见问题,即如何量化和评估模型输出的不确定性。传统的基准主要关注模型的解决问题能力,而忽略了答案的不确定性,这可能导致模型的不可靠性。UBENCH 通过引入不确定性评估,为学术研究提供了新的视角和工具,有助于更全面地理解和改进 LLMs 的性能。
实际应用
在实际应用中,UBENCH 数据集可以帮助开发者和研究人员识别和改进 LLMs 在特定任务中的不确定性表现。例如,在医疗诊断、法律咨询和金融预测等高风险领域,模型的可靠性至关重要。通过使用 UBENCH,可以更好地调整和优化模型,以提高其在实际应用中的准确性和可信度。
数据集最近研究
最新研究方向
UBENCH 数据集在大型语言模型(LLMs)的可靠性评估中占据了前沿地位。该数据集通过包含 3,978 道多选题,覆盖知识、语言、理解和推理四个类别,提供了一个全面的基准来评估 LLMs 的可靠性。最近的研究表明,UBENCH 不仅在性能上达到了最先进水平,而且其单次采样方法显著节省了计算资源。此外,基于 UBENCH 的评估揭示了 15 种流行 LLMs 的可靠性,其中 GLM4 表现最为突出,紧随其后的是 GPT-4。研究还探讨了思维链提示、角色扮演提示、选项顺序和温度对 LLMs 可靠性的影响,分析了这些因素对不同模型的不同效果。这些发现不仅为 LLMs 的进一步优化提供了方向,也为评估系统的改进提供了重要参考。
相关研究论文
  • 1
    UBENCH: Benchmarking Uncertainty in Large Language Models with Multiple Choice Questions南开大学软件学院 · 2024年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

学生课堂行为数据集 (SCB-dataset3)

学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。

arXiv 收录

中国高分辨率高质量PM2.5数据集(2000-2023)

ChinaHighPM2.5数据集是中国高分辨率高质量近地表空气污染物数据集(ChinaHighAirPollutants, CHAP)中PM2.5数据集。该数据集利用人工智能技术,使用模式资料填补了卫星MODIS MAIAC AOD产品的空间缺失值,结合地基观测、大气再分析和排放清单等大数据生产得到2000年至今全国无缝隙地面PM2.5数据。数据十折交叉验证决定系数R2为0.92,均方根误差RMSE为10.76 µg/m3。主要范围为整个中国地区,空间分辨率为1 km,时间分辨率为日、月、年,单位为µg/m3。注意:该数据集持续更新,如需要更多数据,请发邮件联系作者(weijing_rs@163.com; weijing@umd.edu)。 数据文件中包含NC转GeoTiff的四种代码(Python、Matlab、IDL和R语言)nc2geotiff codes。

国家青藏高原科学数据中心 收录

TT100K - Tsinghua-Tencent 100K

TT100K数据集是一个用于交通标志检测和识别的大规模数据集,包含100,000张标注的交通标志图像。该数据集主要用于计算机视觉和自动驾驶领域的研究。

cg.cs.tsinghua.edu.cn 收录

Plant-Diseases

Dataset for Plant Diseases containg variours Plant Disease

kaggle 收录

ImageNet-1K(ILSVRC2012)

ImageNet-1K(ILSVRC2012)是一个大规模的图像分类数据集,包含1000个类别的图像,用于训练和验证图像分类模型。

github 收录