UQ-Dataset
收藏UQ 数据集概述
数据集简介
UQ 是一个用于评估语言模型在未解决问题上表现的数据集,提供以下资源:
- UQ-Dataset:精选的未解决问题集合
- UQ-Validators:基于LLM的验证策略,用于检查答案正确性
- UQ-Platform:用于与问题和答案交互的网站
数据集获取
可通过Hugging Face数据集库直接加载: python from datasets import load_dataset dataset = load_dataset("uq-project/uq", split="test")
评估方法
提供答案生成脚本: bash python gen_answer.py --model_name o3
验证工具
UQ Validator提供两种使用方式:
Python脚本验证
bash python validate.py --input_file your_answers --model o3 --strategy sequential --turns 3 --multi_turn_voting majority
命令行接口验证
bash
基础验证
uq-validate --input_file your_answers.jsonl --dataset questions.jsonl --strategy relevance
顺序验证
uq-validate --input_file your_answers.jsonl --dataset questions.jsonl --strategy sequential --sequential_strategies relevance cycle_consistency factual_error final_answer
多样本验证
uq-validate --input_file your_answers.jsonl --dataset questions.jsonl --strategy total_correctness --samples 3 --resampling_voting majority
安装方式
可通过源码安装: bash git clone https://github.com/uq-project/UQ.git cd UQ pip install -e .
或通过PyPI安装(即将推出): bash pip install uq-validator
引用信息
bibtex @misc{nie2025uqassessinglanguagemodels, title={UQ: Assessing Language Models on Unsolved Questions}, author={Fan Nie and Ken Ziyu Liu and Zihao Wang and Rui Sun and Wei Liu and Weijia Shi and Huaxiu Yao and Linjun Zhang and Andrew Y. Ng and James Zou and Sanmi Koyejo and Yejin Choi and Percy Liang and Niklas Muennighoff}, year={2025}, eprint={2508.17580}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2508.17580}, }




