CosmoPaperQA

github2025-05-12 更新2025-05-13 收录

下载链接：

https://github.com/AdrianDimitrov1/CosmoPaperQA

下载链接

链接失效反馈

官方服务：

资源简介：

CosmoPaperQA是一个专为测试AI RAG（检索增强生成）在宇宙学研究应用中性能而设计的数据集。当前在宇宙学研究中利用AI的一个瓶颈是缺乏特定的宇宙学研究数据集。

CosmoPaperQA is a dataset specifically designed to test the performance of AI Retrieval-Augmented Generation (RAG) in cosmological research applications. Currently, a major bottleneck in the application of AI in cosmological research is the lack of specialized datasets for cosmological studies.

创建时间：

2025-05-10

原始信息汇总

CosmoPaperQA 数据集概述

数据集简介

目的：专为测试AI在宇宙学研究应用中的检索增强生成（RAG）能力而设计。
当前瓶颈：宇宙学研究中缺乏针对性的AI数据集。

核心功能

Embed_AI评估算法
- 结合OpenAI评估代理和向量嵌入的余弦相似度。
- 输入：生成答案、标准答案、原始问题。
- 输出："Same"、"Similar"或"Different"。
RAG框架对比
- PaperQA2 RAG：基于余弦相似度对论文证据块排序。
- OpenAI RAG：基于语义搜索对证据块排序。

代码实现

依赖库：
os, openai, pydantic, numpy, re, rake_nltk, pylatexenc.latex2text, nltk, json, typing, inspect_ai（PaperQA2需额外安装paperqa）。
执行方法：
调用inspect_ai_eval(rag_agent, eval_agent, embedding_answers)实现RAG生成与评估。

数据集对比

LitQA2_edit：编辑版LitQA2，用于与其他科学评估数据集对比。

性能结果

正确性（%）

数据集与RAG类型	OpenAI评估代理	Embed_AI评估	人工评估
CosmoPaperQA + OpenAI RAG	80%	77%	70%
CosmoPaperQA + PaperQA2 RAG	90%	87%	73%
LitQA2_edit + OpenAI RAG	85%	75%	79%
LitQA2_edit + PaperQA2 RAG	80%	73%	79%

评估准确性（%）

数据集与RAG类型	OpenAI评估代理	Embed_AI评估
CosmoPaperQA + OpenAI RAG	70%	76%
CosmoPaperQA + PaperQA2 RAG	73%	81%
LitQA2_edit + OpenAI RAG	78%	89%
LitQA2_edit + PaperQA2 RAG	79%	83%

关键发现

Embed_AI算法在未优化情况下，准确性已优于单独使用OpenAI评估代理。
PaperQA2与OpenAI RAG在正确性上差异小于3%，推测因实现方法论相似。

致谢

感谢Boris Bolliet博士在项目开发中的建议与支持。

搜集汇总

数据集介绍

构建方式

CosmoPaperQA数据集专为测试宇宙学研究中的检索增强生成（RAG）技术而设计，填补了该领域专用数据集的空白。其构建过程融合了OpenAI评估代理和Embed_AI算法，通过对比生成答案与标准答案的语义一致性进行质量评估。数据采集基于宇宙学文献的关键问题构建，采用PaperQA2和OpenAI两种RAG框架分别生成答案，并通过人工标注与自动化评估相结合的方式建立黄金标准。

特点

该数据集的核心价值在于其针对宇宙学研究的专业性，包含复杂研究问题的检索与生成任务。其创新性的Embed_AI评估算法结合了OpenAI代理评估和关键短语向量相似度计算，相比单一评估方法展现出更高的准确性。数据集特别设计了与LitQA2的对比实验，通过控制变量验证了不同RAG框架在科学文献处理中的性能差异，为算法优化提供了可靠基准。

使用方法

使用该数据集需配置Python环境并安装OpenAI、PaperQA2等依赖库。研究人员可选择OpenAI_RAG_Agent或PaperQA2_RAG_agent生成答案，通过Embed_AI模块进行自动化评估。典型流程包括：加载问题文档、运行RAG生成答案、调用inspect_ai_eval函数进行性能分析。数据集特别适合用于比较不同RAG框架在专业科学领域的表现，其内置的评估指标可有效降低人工验证成本。

背景与挑战

背景概述

CosmoPaperQA数据集由未来之屋（Future House）团队开发，旨在解决宇宙学研究领域缺乏专门测试检索增强生成（RAG）技术的数据集这一瓶颈问题。该数据集通过整合复杂的宇宙学研究问题及其理想答案，为评估AI在科学文献检索与生成任务中的性能提供了基准工具。其核心创新点在于结合了OpenAI评估代理与Embed_AI算法，通过语义相似度与关键短语向量嵌入的双重验证机制，显著提升了自动化评估的准确性。该数据集的建立标志着宇宙学与人工智能交叉研究迈入量化评估新阶段，为后续研究提供了可复现的实验框架。

当前挑战

在领域问题层面，CosmoPaperQA需应对宇宙学专业术语的多义性、数学公式的语义解析以及跨文献知识融合等挑战，这些特性使得传统自然语言处理技术难以准确捕捉研究问题的核心。数据集构建过程中，研究者面临标注一致性难题——宇宙学问题的开放性导致理想答案往往存在多种等效表述，需通过Embed_AI的多维度评估体系来平衡严格性与包容性。此外，Latex格式论文的语义结构化提取、不同RAG框架的评估标准统一等技术障碍，也考验着数据集的泛化能力与可扩展性。

常用场景

经典使用场景

在宇宙学研究领域，CosmoPaperQA数据集为测试检索增强生成（RAG）模型的性能提供了专业基准。其经典使用场景包括评估AI模型在回答复杂宇宙学问题时的准确性和可靠性，尤其是在处理专业文献和理论推导时。通过模拟真实研究环境中的问题，该数据集能够有效验证模型在科学文献检索和答案生成方面的能力。

衍生相关工作

围绕CosmoPaperQA衍生的经典工作包括改进版的Embed_AI评估算法和PaperQA2 RAG框架的优化实现。这些工作推动了科学领域RAG模型的发展，例如在LitQA2数据集上的对比研究揭示了不同评估方法的性能差异。后续研究多聚焦于提升模型对专业术语和复杂理论的理解能力。

数据集最近研究