CoLoTa
收藏arXiv2025-04-20 更新2025-04-23 收录
下载链接:
https://github.com/D3Mlab/CoLoTa
下载链接
链接失效反馈官方服务:
资源简介:
CoLoTa数据集是由多伦多大学研究者创建的,包含3300个问题回答和声明验证任务的问题,涵盖了广泛的常识推理技能。数据集的问题是通过改写StrategyQA和CREAK数据集中的问题而形成的,将其中著名实体替换为Wikidata知识图谱中的不太知名的实体。CoLoTa不仅可作为评估大型语言模型在长尾实体上常识推理能力和抗幻觉性的新基准,也可作为知识图谱问答的新基准,以促进将事实和常识知识融入知识图谱问答方法的研究。
The CoLoTa dataset was created by researchers from the University of Toronto. It contains 3,300 question-answering and statement verification tasks covering a wide range of commonsense reasoning skills. The questions in this dataset are formulated by rewriting existing questions from the StrategyQA and CREAK datasets, where well-known entities are replaced with less prominent entities from the Wikidata knowledge graph. CoLoTa can serve not only as a novel benchmark for evaluating the commonsense reasoning ability and hallucination resistance of large language models on long-tail entities, but also as a new benchmark for knowledge graph question answering to promote research on integrating factual and commonsense knowledge into knowledge graph question answering methods.
提供机构:
多伦多大学
创建时间:
2025-04-20
原始信息汇总
CoLoTa数据集概述
数据集简介
- 名称:CoLoTa (Commonsense Reasoning over Long-Tail Knowledge)
- 用途:评估大语言模型在长尾实体上的幻觉问题以及知识图谱问答方法的常识推理能力
- 规模:3,300个查询
- 来源论文:"CoLoTa: A Dataset for Entity-based Commonsense Reasoning over Long-Tail Knowledge"
数据集组成
- Question Answering子集
- 数量:1,650个问题
- 基础数据集:StrategyQA
- 文件:CoLoTa_qa.json
- Claim Verification子集
- 数量:1,650个声明
- 基础数据集:Creak
- 文件:CoLoTa_cv.json
数据格式
- 格式:JSON
- 每条记录包含:
- 查询ID
- 查询内容(问题/声明)
- 答案
- 知识图谱实体及对应Wikidata QID
- 推理规则
- 相关知识图谱三元组
- 推理步骤及每步使用的事实
- 所需推理策略
数据获取方式
- 克隆整个仓库
- 直接下载子集文件:
- Question Answering子集:CoLoTa_qa.json
- Claim Verification子集:CoLoTa_cv.json
数据构建方法
-
查询选择:
- 从StrategyQA和CREAK中选择问题
- 确保所需事实知识存在于Wikidata中或可重写为针对新知识图谱实体的查询
-
实体替换:
- 将原始查询中的知名实体替换为同类型但知名度较低的实体
- 使用Wikidata三元组数量衡量实体知名度
- 通过Google搜索结果验证新实体确实不如原始实体知名
-
问题重写:
- 遵循"Would you ask it that way"提出的指导原则
- 改进自然语言查询的自然性
- 修正原始查询中隐含的不正确假设
基线方法
-
运行命令:
python -m baselines.run data/ --dataset_name <QA|CV> --scoring_method <zero shot CoT|few shot CoT> --experiment_name <test> --llm_name <gpt-o1|gpt-4o|gpt-3.5-turbo|gemini|groq-llama> --mode <modified|original>
搜集汇总
数据集介绍

构建方式
CoLoTa数据集通过重构现有常识推理数据集中的查询构建而成,主要策略是将原始查询中的热门实体替换为来自Wikidata知识图谱的长尾实体。具体流程包括:从StrategyQA和CREAK数据集中筛选出答案所需事实均存在于Wikidata的查询;通过人工编写SPARQL查询在Wikidata中检索具有相似属性的长尾实体候选集;随机选择三元组数量较少的实体进行替换以确保长尾特性;对查询语句进行自然语言改写以消除隐含假设并提升表达自然度;最后标注推理规则、相关Wikidata子图及分步推理过程。这种构建方法既保留了原始查询的常识推理复杂性,又通过实体替换实现了对长尾知识的覆盖。
特点
CoLoTa数据集的核心特征体现在三个方面:实体维度上,所有查询均围绕Wikidata中的长尾实体构建,通过严格控制实体流行度分布确保对知识图谱尾部知识的覆盖;任务设计上,同时包含问答和声明验证两种形式,各占50%比例,且每个查询都配备完整的支持证据链;推理要求上,查询需结合知识图谱事实与多步骤常识推理才能解答,覆盖时空推理、数值比较等13种领域无关技能及历史、体育等15种领域相关技能。这种设计使其能同时评估模型的事实检索能力和常识推理能力。
使用方法
使用CoLoTa数据集时,研究者可通过两种主要途径进行评估:对于大语言模型评估,建议采用思维链提示策略,既测试最终答案准确率,也通过FActScore和推理分数指标分别衡量事实准确性和逻辑正确性;对于知识图谱问答系统评估,需构建能够同时处理知识图谱检索与常识推理的混合系统,重点观察系统在长尾实体上的性能衰减。数据集提供的Wikidata子图、推理规则和分步标注支持细粒度错误分析,研究者可据此识别模型在特定推理技能或实体类型上的薄弱环节。
背景与挑战
背景概述
CoLoTa数据集由多伦多大学的Armin Toroghi、卡内基梅隆大学的Willis Guo以及多伦多大学的Scott Sanner等研究人员于2025年提出,旨在解决大语言模型(LLMs)在长尾知识实体上的常识推理能力不足问题。该数据集包含3,300个来自问答和声明验证任务的查询,覆盖了多样化的常识推理技能。CoLoTa不仅作为评估LLMs常识推理能力的新基准,还可用于知识图谱问答(KGQA)研究,因其查询所需的知识支持均存在于Wikidata知识图谱中。该数据集的推出填补了现有研究在长尾知识实体常识推理评估方面的空白,并为KGQA领域提供了首个超越事实检索的查询数据集。
当前挑战
CoLoTa数据集面临的挑战主要体现在两个方面:领域问题挑战和构建过程挑战。在领域问题方面,该数据集旨在解决LLMs在长尾知识实体上的常识推理能力不足和高幻觉率问题,这些问题严重限制了LLMs在高风险场景中的应用。现有LLMs在流行实体上表现良好,但在长尾实体上推理错误率显著增加。在构建过程中,研究人员需要确保所有查询的答案均可从Wikidata中获取,这要求精确的实体替换和查询重写。此外,标注推理规则和步骤需要大量人工验证,以确保逻辑正确性和事实准确性。这些挑战使得CoLoTa成为一个严格且可靠的评估基准,推动了LLMs和KGQA方法在常识推理方面的进步。
常用场景
经典使用场景
在自然语言处理领域,CoLoTa数据集为评估大型语言模型(LLMs)在长尾知识上的常识推理能力提供了重要基准。通过将流行实体替换为冷门实体,该数据集能够有效测试模型在缺乏充分训练数据时的推理准确性和抗幻觉能力。其典型应用场景包括知识图谱问答(KGQA)系统的开发与优化,特别是在需要结合事实性知识和常识推理的复杂查询场景中。
衍生相关工作
CoLoTa的发布推动了多个研究方向的发展:基于知识图谱增强的LLM推理框架(如KGR方法)、长尾知识补全算法,以及融合符号逻辑的神经推理系统。相关衍生工作包括将Wikidata结构化知识注入推理链的验证机制、针对冷门实体的主动学习策略,以及区分知识缺失与推理错误的评估指标体系(如FActScore)。这些进展显著提升了AI系统在开放域问答中的可靠性。
数据集最近研究
最新研究方向
随着大语言模型(LLMs)在人工智能领域的广泛应用,其在常识推理任务中的表现备受关注。然而,现有研究揭示LLMs在处理涉及长尾知识的实体常识推理任务时,存在显著的幻觉和推理错误问题。CoLoTa数据集的提出填补了这一研究空白,专注于评估LLMs在长尾实体常识推理中的能力。该数据集通过改写现有常识推理查询,将热门实体替换为长尾实体,构建了包含3,300个问题的多样化基准。实验结果表明,即使是先进的LLMs如OpenAI-o1和GPT-4o,在长尾实体推理任务中的准确率显著下降,且存在较高的幻觉率。此外,CoLoTa还作为首个结合知识图谱问答(KGQA)和常识推理的数据集,为未来研究提供了新的挑战方向。
相关研究论文
- 1CoLoTa: A Dataset for Entity-based Commonsense Reasoning over Long-Tail Knowledge多伦多大学 · 2025年
以上内容由遇见数据集搜集并总结生成



