UQ-Dataset

github2025-08-26 更新2025-08-28 收录

下载链接：

https://github.com/uq-project/UQ

下载链接

链接失效反馈

官方服务：

资源简介：

UQ-Dataset提供精选的未解决问题数据集，用于评估语言模型在未解决问题上的表现

UQ-Dataset provides a curated dataset of unsolved problems for evaluating the performance of language models on such problems.

创建时间：

2025-08-14

原始信息汇总

UQ 数据集概述

数据集简介

UQ 是一个用于评估语言模型在未解决问题上表现的数据集，提供以下资源：

UQ-Dataset：精选的未解决问题集合
UQ-Validators：基于LLM的验证策略，用于检查答案正确性
UQ-Platform：用于与问题和答案交互的网站

数据集获取

可通过Hugging Face数据集库直接加载： python from datasets import load_dataset dataset = load_dataset("uq-project/uq", split="test")

评估方法

提供答案生成脚本： bash python gen_answer.py --model_name o3

验证工具

UQ Validator提供两种使用方式：

Python脚本验证

bash python validate.py --input_file your_answers --model o3 --strategy sequential --turns 3 --multi_turn_voting majority

命令行接口验证

bash

基础验证

uq-validate --input_file your_answers.jsonl --dataset questions.jsonl --strategy relevance

顺序验证

uq-validate --input_file your_answers.jsonl --dataset questions.jsonl --strategy sequential --sequential_strategies relevance cycle_consistency factual_error final_answer

多样本验证

uq-validate --input_file your_answers.jsonl --dataset questions.jsonl --strategy total_correctness --samples 3 --resampling_voting majority

安装方式

可通过源码安装： bash git clone https://github.com/uq-project/UQ.git cd UQ pip install -e .

或通过PyPI安装（即将推出）： bash pip install uq-validator

引用信息

bibtex @misc{nie2025uqassessinglanguagemodels, title={UQ: Assessing Language Models on Unsolved Questions}, author={Fan Nie and Ken Ziyu Liu and Zihao Wang and Rui Sun and Wei Liu and Weijia Shi and Huaxiu Yao and Linjun Zhang and Andrew Y. Ng and James Zou and Sanmi Koyejo and Yejin Choi and Percy Liang and Niklas Muennighoff}, year={2025}, eprint={2508.17580}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2508.17580}, }

搜集汇总

数据集介绍

构建方式

在人工智能语言模型评估领域，UQ-Dataset通过精心筛选未解问题构建而成。该数据集从多个权威来源系统收集尚未有确定性答案的开放性问题，涵盖科学、哲学及社会等多个领域。构建过程中采用严格的质量控制流程，确保每个问题的开放性与挑战性，为评估模型在未知问题上的表现提供坚实基础。

特点

UQ-Dataset的显著特点在于其聚焦于未解问题的独特定位，这些问题没有标准答案，能够有效检验语言模型的推理能力和知识边界。数据集包含多样化的题目类型和领域分布，配合专门设计的验证策略，如多轮对话验证和多数投票机制，确保评估的全面性与可靠性。其结构设计支持灵活的策略组合，适应不同研究需求。

使用方法

使用UQ-Dataset时，研究人员可通过Hugging Face平台直接加载数据集，并利用提供的Python脚本生成模型答案。验证过程通过UQ-Validators工具包实现，支持命令行接口和脚本调用，可配置多种验证策略如相关性和事实一致性检查。多轮验证与投票机制进一步提升了评估结果的稳健性，适用于不同规模的模型测试。

背景与挑战

背景概述

在人工智能领域，大型语言模型的能力评估一直是核心研究议题。UQ数据集由斯坦福大学等知名研究机构于2025年联合推出，旨在系统评估语言模型在未解问题上的表现。该数据集通过精心筛选的未解问题集合，为衡量模型在知识边界探索、推理深度及创新性应答方面的能力提供了标准化基准，对推动语言模型向更高层次认知能力发展具有重要影响力。

当前挑战

UQ数据集致力于解决语言模型在未解问题应答领域的评估挑战，核心难点在于如何设计有效的验证机制以准确判断模型输出的正确性与合理性。构建过程中面临多重挑战：一是未解问题本身缺乏标准答案，需开发新型验证策略如多轮对话验证和一致性检测；二是确保数据集的代表性与多样性，涵盖科学、人文等多领域前沿问题；三是构建可扩展的评估框架，以适配不同规模与架构的语言模型。

常用场景

经典使用场景

在自然语言处理领域，评估大型语言模型对未解决问题的应对能力是衡量其智能水平的重要维度。UQ-Dataset通过精心筛选的未解问题集合，为研究者提供了标准化的测试平台，模型需要在缺乏明确答案的情况下展现推理能力和知识边界。这一场景常被用于对比不同模型在开放域问答中的表现，特别是在需要创造性思维和逻辑推断的复杂情境中。

实际应用

在实际部署中，该数据集可应用于智能教育系统的知识边界检测，帮助系统识别超出其知识范围的问题并作出恰当响应。在科研辅助领域，它能协助研究者发现学科前沿的未知问题，同时为对话系统提供真实性验证机制，避免模型对未解决问题产生幻觉性回答，提升人工智能服务的可靠性和透明度。

衍生相关工作

基于UQ-Dataset衍生的经典研究包括多轮验证策略的开发，如序列验证和多数投票机制，这些方法显著提升了答案正确性评估的鲁棒性。相关工作还拓展到不确定性量化框架的构建，推动了模型自我认知能力的研究，并催生了新一代评估平台的出现，为语言模型的可靠性评估建立了新的技术标准。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集