openscilm_queries

Name: openscilm_queries
Creator: Allen Institute for AI
Published: 2025-08-13 06:35:58
License: 暂无描述

Hugging Face2025-08-13 更新2025-08-14 收录

下载链接：

https://huggingface.co/datasets/allenai/openscilm_queries

下载链接

链接失效反馈

官方服务：

资源简介：

本数据集包含来自科学问答系统用户的50k个真实世界文献综合查询。每个条目包括用户的查询（自然语言）、问题的主题（如计算机科学、医学、工程）和查询意图（如文献理解、论文查找、构思等）。这些问题反映了研究人员和学生们的实际信息需求，通常需要检索、综合或总结科学文献。数据集旨在用于检索增强生成、科学问答和用户意图分类的研究。

This dataset contains 50,000 real-world literature synthesis queries from users of scientific question answering systems. Each entry includes the user's natural language query, the topic of the question (e.g., computer science, medicine, engineering), and the query intent (e.g., literature comprehension, paper retrieval, brainstorming, etc.). These queries reflect the actual information needs of researchers and students, which typically require retrieval, synthesis, or summarization of scientific literature. This dataset is intended for research on retrieval-augmented generation, scientific question answering, and user intent classification.

提供机构：

Allen Institute for AI

创建时间：

2025-08-13

原始信息汇总

数据集概述：Literature Synthesis Queries

基本信息

许可证：CC-BY-4.0
任务类别：问答系统
语言：英语
数据规模：10K<n<100K

数据集摘要

内容：包含50k个真实世界的文献合成查询，来源于科学问答系统的用户。
条目内容：
- 用户的自然语言查询 (query)
- 问题主题（如计算机科学、医学、工程等） (subject)
- 查询意图（如文献理解、论文查找、构思等） (query intent)

用途

适用于检索增强生成、科学问答系统和用户意图分类的研究。

许可证信息

许可证类型：ODC-BY
使用限制：仅限于研究和教育用途，需遵守Ai2的负责任使用指南。

引用

bibtex @article{openscholar, title={{OpenScholar}: Synthesizing Scientific Literature with Retrieval-Augmented Language Models}, author={Asai, Akari and He*, Jacqueline and Shao*, Rulin and Shi, Weijia and Singh, Amanpreet and Chang, Joseph Chee and Lo, Kyle and Soldaini, Luca and Feldman, Tian, Sergey and Mike, D’arcy and Wadden, David and Latzke, Matt and Sparks,Jenna and Hwang, Jena D. and Kishore, Varsha and Minyang and Ji, Pan and Liu, Shengyan and Tong, Hao and Wu, Bohao and Xiong, Yanyu and Zettlemoyer, Luke and Weld, Dan and Neubig, Graham and Downey, Doug and Yih, Wen-tau and Koh, Pang Wei and Hajishirzi, Hannaneh}, journal={Arxiv}, year={2024}, }

搜集汇总

数据集介绍

构建方式

在开放科学信息检索领域，openscilm_queries数据集通过真实用户交互数据构建而成，采集自公开的科学问答系统演示平台。研究人员精心筛选了50,000条具有代表性的文献合成查询，每条数据均包含自然语言查询文本、学科分类标签及查询意图标注。数据采集过程严格遵循科研伦理规范，确保反映研究者与学生真实的文献检索需求，为检索增强生成等研究提供高质量的基础数据。

特点

该数据集最显著的特征在于其真实场景下的科学信息需求表达，涵盖计算机科学、医学、工程等多个学科领域。每条查询均标注有精细的意图分类，包括文献理解、论文查找、创意构思等多种类型，精准捕捉了学术工作者的知识获取模式。数据规模适中且质量上乘，特别适合研究复杂科学问题的多维度解析与语义理解，为自然语言处理模型在学术场景的应用提供了宝贵的测试基准。

使用方法

研究人员可将该数据集应用于检索增强生成系统的训练与评估，通过分析查询文本与标注意图的映射关系，优化科学问答模型的语义理解能力。使用时应结合原始论文提供的预处理流程，注意区分不同学科领域的数据分布特性。典型应用场景包括构建学术意图分类器、改进文献检索排序算法，以及开发需要深度理解科研需求的智能辅助工具。数据使用需遵循CC-BY 4.0许可协议，并参照AI2责任使用指南。

背景与挑战

背景概述

openscilm_queries数据集由Allen Institute for AI（AI2）于2024年推出，旨在支持科学文献综合与检索增强生成的研究。该数据集收录了来自公开演示平台的5万条真实世界文献综合查询，覆盖计算机科学、医学、工程等多个学科领域。核心研究问题聚焦于如何通过自然语言处理技术，高效理解并满足科研人员与学生在文献检索、综合及创新构思等方面的信息需求。作为《OpenScholar》项目的重要组成部分，该数据集为科学问答系统、用户意图分类及检索增强语言模型的研究提供了宝贵资源，推动了学术信息获取方式的智能化发展。

当前挑战

该数据集面临双重挑战：在领域问题层面，科学文献查询通常具有高度专业化与语义复杂性，要求模型精准识别用户意图（如文献理解、论文查找或创新构思），并跨多源异构文献实现精准检索与内容综合；在构建过程中，需平衡查询的学科覆盖广度与标注一致性，同时确保数据来源符合伦理规范。第三方模型生成内容的版权约束，以及真实用户查询中隐含的模糊性与歧义性，进一步增加了数据清洗与标准化处理的难度。

常用场景

经典使用场景

在科学文献检索与知识整合领域，openscilm_queries数据集以其5万条真实用户查询记录，成为测试检索增强生成模型性能的基准工具。这些涵盖计算机科学、医学等多元学科的自然语言问询，模拟了研究人员在文献综述阶段面临的核心挑战——如何精准定位跨领域知识并生成连贯答案。数据集特别适用于评估模型在理解复杂学术意图、关联分散文献片段方面的能力。

实际应用

科研辅助工具开发者利用该数据集优化智能文献推荐系统，通过分析高频查询模式改进搜索引擎的语义理解模块。教育机构则将其作为训练数据，开发辅助研究生文献综述的AI工具。在专业信息服务平台中，这些真实查询帮助构建更精准的学术资源导航体系，特别是在处理'论文发现'与'创意激发'类复杂需求时展现出独特价值。

衍生相关工作

基于该数据集衍生的经典研究包括OpenScholar框架的开发，其创新性地结合检索增强技术实现科学文献自动综述。后续工作扩展至学术意图的多模态分类模型构建，以及跨语言科学问答系统的迁移学习研究。部分团队利用查询主题分布特征，建立了学科知识演化分析的新方法论，推动了计算文献计量学的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集