CosmoPaperQA

github2025-05-10 更新2025-05-11 收录

下载链接：

https://github.com/ADupthetotal/CosmoPaperQA

下载链接

链接失效反馈

官方服务：

资源简介：

CosmoPaperQA是一个专为测试AI RAG（检索增强生成）在宇宙学研究应用中表现而设计的数据集。该数据集还包括一个名为Embed_AI的概念验证自动AI评估算法。

CosmoPaperQA is a dataset designed specifically to evaluate the performance of AI Retrieval-Augmented Generation (RAG) in cosmological research applications. This dataset also includes a proof-of-concept automated AI evaluation algorithm named Embed_AI.

创建时间：

2025-05-10

原始信息汇总

CosmoPaperQA 数据集概述

数据集特征

专为测试AI RAG（检索增强生成）在宇宙学研究应用中的性能而设计。
解决了宇宙学研究中缺乏特定数据集的瓶颈问题。
包含一个名为"Embed_AI"的概念验证算法，用于自动评估RAG代理在回答复杂研究检索问题时的答案。

数据集描述

OpenAI评估代理

输入：生成的答案、"正确"或"理想"答案、原始问题。
输出评估结果："Same"、"Similar"或"Different"。

Embed_AI评估

结合OpenAI评估代理和向量嵌入的余弦相似度。
评估生成答案的正确性。

PaperQA2 RAG

输入问题和文档，利用文档信息回答问题。
通过余弦相似度对文档块进行排名。

OpenAI RAG

与PaperQA2 RAG方法类似。
使用语义搜索对文档块进行排名。

代码实现

使用InspectAI框架进行性能评估。
支持OpenAI RAG和PaperQA2 RAG框架。
依赖库包括：os、openai、pydantic、numpy、re、rake_nltk、pylatexenc.latex2text、nltk、json、typing和inspect_ai。

编辑版LitQA2数据集

LitQA2_edit是LitQA2的编辑版本，用于与其他科学研究的AI代理性能评估数据集进行比较。

结果摘要

正确性

数据集与RAG方法	OpenAI评估代理正确性	Embed_AI评估正确性	人工评估正确性
CosmoPaperQA with OpenAI RAG	80%	77%	70%
CosmoPaperQA with PaperQA2 RAG	90%	87%	73%
LitQA2_edit with OpenAI RAG	85%	75%	79%
LitQA2_edit with PaperQA2 RAG	80%	73%	79%

准确性

数据集与RAG方法	OpenAI评估代理准确性	Embed_AI评估准确性
CosmoPaperQA with OpenAI RAG	70%	76%
CosmoPaperQA with PaperQA2 RAG	73%	81%
LitQA2_edit with OpenAI RAG	78%	89%
LitQA2_edit with PaperQA2 RAG	79%	83%

关键发现

Embed_AI算法的准确性高于单独的OpenAI评估代理。
OpenAI RAG代理和PaperQA2 RAG代理的正确性相似。
结果支持OpenAI RAG代理成功模仿了PaperQA2代码的行为。

致谢

感谢Dr Boris Bolliet在项目开发过程中的建议和支持。

搜集汇总

数据集介绍

构建方式

CosmoPaperQA数据集专为测试宇宙学研究中的AI检索增强生成（RAG）而设计，填补了该领域专用数据集的空白。其构建过程结合了OpenAI评估代理和Embed_AI算法，通过对比生成答案与标准答案的语义一致性，采用余弦相似度计算关键短语向量嵌入，实现自动化评估。数据来源聚焦于宇宙学研究文献，通过PaperQA2和OpenAI两种RAG框架生成答案，确保数据与研究需求高度契合。

特点

该数据集的核心特点在于其针对宇宙学研究的专业性，以及创新的Embed_AI评估机制。Embed_AI融合了OpenAI代理的语义判断与向量嵌入的定量分析，显著提升了评估准确性。实验数据显示，相较于单纯使用OpenAI评估代理，Embed_AI在CosmoPaperQA和LitQA2_edit数据集上的评估准确率平均提高5-8%。此外，数据集包含详尽的性能对比结果，涵盖不同RAG框架与评估方法的表现差异，为研究者提供了全面的基准参考。

使用方法

使用CosmoPaperQA需预先安装Python依赖库包括os、openai及nltk等，通过调用OpenAI_RAG_Agent或PaperQA2_RAG_agent模块生成答案。评估阶段采用Inspect_AI框架，执行inspect_ai_eval函数即可同步完成答案生成与性能分析。用户可选择两种RAG策略：PaperQA2基于余弦相似度排序文献片段，而OpenAI RAG依赖语义搜索，二者均支持与Embed_AI评估算法联动。数据集附带的LitQA2_edit版本支持跨领域性能对比研究。

背景与挑战

背景概述

CosmoPaperQA数据集由Future House团队开发，旨在解决宇宙学研究领域缺乏专门测试检索增强生成（RAG）系统的基准数据集问题。该数据集聚焦于复杂研究问题的自动化检索与回答，填补了宇宙学领域AI应用的数据空白。数据集创新性地整合了OpenAI评估代理和Embed_AI算法，通过向量嵌入的余弦相似度和关键短语提取技术，实现了对生成答案的多维度评估。其核心价值在于为宇宙学文献的智能检索与问答系统提供了标准化测试平台，推动了AI在专业科研领域的应用发展。

当前挑战

该数据集面临双重挑战：在领域问题层面，宇宙学研究的专业性和复杂性导致问题表述需兼顾学术严谨性与机器可读性，且评估标准需平衡语义一致性与科学准确性；在构建过程中，如何设计兼顾OpenAI评估代理与Embed_AI算法的混合评估体系，确保自动化评估结果与人工评判的一致性成为技术难点，同时还需解决专业术语向量化表示、跨文献证据整合等工程挑战。

常用场景

经典使用场景

在宇宙学研究领域，CosmoPaperQA数据集被广泛用于测试检索增强生成（RAG）模型的性能。该数据集通过提供复杂的宇宙学研究问题及其标准答案，为研究人员提供了一个基准平台，用于评估不同RAG模型在科学文献检索和答案生成方面的表现。其经典使用场景包括模型训练、性能对比以及算法优化，特别是在处理专业性强、语义复杂的科学问题时，该数据集展现出独特的价值。

解决学术问题

CosmoPaperQA数据集解决了宇宙学研究中AI应用的一个关键瓶颈，即缺乏针对性的高质量数据集。通过提供标准化的问答对和评估框架，该数据集使得研究人员能够系统地测试和改进RAG模型在科学文献处理中的表现。其意义在于推动了AI在专业学术领域的应用，为后续研究提供了可靠的数据支持和评估方法。

衍生相关工作

CosmoPaperQA数据集衍生了一系列经典工作，包括改进的RAG框架和评估算法。例如，PaperQA2 RAG通过优化文献检索和答案生成流程，显著提升了模型性能。同时，Embed_AI算法结合了OpenAI评估代理和余弦相似度计算，为自动化评估提供了新思路。这些工作不仅推动了宇宙学研究中的AI应用，也为其他学科的数据集开发和模型优化提供了借鉴。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集