uq
收藏Hugging Face2025-08-26 更新2025-08-28 收录
下载链接:
https://huggingface.co/datasets/uq-project/uq
下载链接
链接失效反馈官方服务:
资源简介:
UQ数据集是一个包含500个来自StackExchange网站的流行未解决问题的大型集合,这些问题覆盖了科学、技术、文化娱乐、生活艺术和商业等类别。每个问题都包含问题ID、所在网站、标题、正文、投票数、创建日期、评论及其数量和所属类别等信息。
创建时间:
2025-08-15
原始信息汇总
UQ数据集概述
数据集简介
UQ是一个包含500个来自StackExchange网站未解决问题的集合,涵盖科学、技术、文化与娱乐、生活与艺术以及商业等领域。
基本信息
- 语言:英语
- 许可证:CC BY-SA 4.0
- 主要任务:问答
- 标签:stack-exchange、llm-evaluation、benchmark、reasoning、factuality
数据集结构
数据字段
question_id:唯一问题ID(1-500)site:StackExchange网站名称title:问题标题body:问题正文votes:StackExchange投票数creation_date:问题创建日期comments:StackExchange评论comment_count:评论数量category:StackExchange类别(文化娱乐、科学、技术、商业、生活艺术)diamond:是否包含在UQ钻石子集中
数据分布
- 技术:52个问题(Stack Overflow、Mathematica、Cryptography等)
- 科学:395个问题(Math Overflow、Mathematics、Theoretical Computer Science等)
- 文化与娱乐:16个问题(Puzzling、History、Mythology & Folklore等)
- 生活与艺术:35个问题(Science Fiction & Fantasy)
- 商业:2个问题(Quantitative Finance)
使用方式
可通过Hugging Face datasets库加载: python from datasets import load_dataset dataset = load_dataset("uq-project/uq", split="test")
许可与引用
- 许可证:CC BY SA
- 引用文献:Nie, F., et al. (2025). UQ: Assessing Language Models on Unsolved Questions. arXiv:2508.17580
相关资源
- GitHub仓库:https://github.com/uq-project/UQ
- 项目网站:https://uq.stanford.edu
- 论文地址:https://arxiv.org/abs/2508.17580
搜集汇总
数据集介绍

构建方式
UQ数据集精心遴选自StackExchange平台中500个广受关注但尚未解决的复杂问题,覆盖科学、技术、文化娱乐、生活艺术及商业五大领域。构建过程采用系统性筛选机制,依据问题投票数、评论活跃度及跨学科代表性进行多维评估,确保数据来源的权威性与多样性。每个问题均保留原始元数据,包括时间戳、标签及用户互动信息,形成结构化的知识探索样本库。
特点
该数据集以高质量未解问题为核心特色,涵盖密码学、量子计算、数学推导等前沿技术议题,兼具专业深度与学科广度。每个样本包含完整的问题描述、社区互动记录及学科分类标签,并特别标注钻石子集以标识高价值难题。其多模态结构支持对语言模型推理能力、事实性核查及跨领域知识融合的精细化评估,为AI系统处理开放域复杂问题提供基准测试框架。
使用方法
研究者可通过HuggingFace数据集库直接加载UQ进行模型评估,适用于问答系统、事实核查及推理能力测试等场景。典型使用流程包括:解析问题文本与元数据,构建基于上下文生成的prompt模板,量化模型回答与社区共识的偏离程度。该数据集支持零样本评估、对比实验及误差分析,其钻石子集可用于重点验证模型在超高难度问题上的表现。
背景与挑战
背景概述
在人工智能与自然语言处理领域,评估大型语言模型的推理能力与事实准确性已成为核心研究议题。UQ数据集由斯坦福大学等机构的研究团队于2025年创建,旨在通过收集StackExchange平台上500个未解决的高质量学术问题,构建一个跨学科基准测试集。该数据集覆盖科学、技术、文化娱乐、生活艺术及商业五大领域,尤其聚焦数学、密码学、理论计算机等专业方向,为衡量模型在复杂开放性问题上的表现提供了重要工具。
当前挑战
UQ数据集致力于解决语言模型在复杂推理与事实性验证方面的评估挑战,其核心问题在于如何准确衡量模型对未解决学术问题的理解和生成能力。构建过程中的挑战包括多学科知识的平衡覆盖、高质量未解决问题筛选标准的确立,以及从非结构化社区讨论中提取标准化数据。此外,需确保问题的代表性与难度分布,同时处理不同领域术语的一致性和注释的可靠性,这些因素共同增加了数据集的构建复杂度。
常用场景
经典使用场景
在自然语言处理领域,UQ数据集作为评估语言模型推理能力的基准工具,主要应用于测试模型对未解决问题的知识边界探索。研究者通过该数据集中的500个跨学科未解难题,系统评估模型在科学、技术、文化等领域的深度推理能力,特别是在处理开放式问题时展现的逻辑连贯性和事实准确性。这种评估方式能够有效揭示模型在复杂问题解决中的潜在局限与优势。
实际应用
在实际应用层面,UQ数据集被广泛应用于人工智能系统的能力验证,特别是在教育科技和科研辅助领域。教育机构可利用该数据集开发智能辅导系统,通过模型对未解问题的处理表现来评估其教学辅助能力;科研单位则借助这些开放性问题测试AI系统的科研协作潜力,为构建下一代智能研究助手提供重要的性能评估依据。
衍生相关工作
基于UQ数据集衍生的经典研究包括斯坦福大学团队开发的语言模型不确定性评估框架,以及后续在多模态推理领域的扩展应用。该数据集催生了系列关于模型知识边界探测的新方法,如基于未解问题的模型能力分层评估体系,这些工作显著推进了AI安全性研究,并为构建更可靠的大型语言模型提供了重要的理论基础和实践指南。
以上内容由遇见数据集搜集并总结生成



