five

IR-Cocktail/scidocs

收藏
Hugging Face2024-05-22 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/IR-Cocktail/scidocs
下载链接
链接失效反馈
官方服务:
资源简介:
Cocktail数据集是一个综合性的信息检索基准数据集,集成了LLM生成的文档。该数据集包含16个基准数据集,涵盖了多个领域,如生物医学、维基百科、金融、科学等。每个数据集都包含人类编写的语料库、LLM生成的语料库、查询和相关性文件。数据集的结构和格式都有严格的要求,以确保数据的一致性和可用性。

Cocktail数据集是一个综合性的信息检索基准数据集,集成了LLM生成的文档。该数据集包含16个基准数据集,涵盖了多个领域,如生物医学、维基百科、金融、科学等。每个数据集都包含人类编写的语料库、LLM生成的语料库、查询和相关性文件。数据集的结构和格式都有严格的要求,以确保数据的一致性和可用性。
提供机构:
IR-Cocktail
原始信息汇总

数据集概述

本数据集包含16个基准数据集,每个数据集均涉及不同的领域和相关性评估级别。以下是各数据集的详细信息:

数据集 原始网站 Cocktail网站 Cocktail名称 处理后数据的md5值 领域 相关性评估 测试查询数量 语料库大小
MS MARCO Homepage Homepage msmarco 985926f3e906fadf0dc6249f23ed850f Misc. Binary 6,979 542,203
DL19 Homepage Homepage dl19 d652af47ec0e844af43109c0acf50b74 Misc. Binary 43 542,203
DL20 Homepage Homepage dl20 3afc48141dce3405ede2b6b937c65036 Misc. Binary 54 542,203
TREC-COVID Homepage Homepage trec-covid 1e1e2264b623d9cb7cb50df8141bd535 Bio-Medical 3-level 50 128,585
NFCorpus Homepage Homepage nfcorpus 695327760647984c5014d64b2fee8de0 Bio-Medical 3-level 323 3,633
NQ Homepage Homepage nq a10bfe33efdec54aafcc974ac989c338 Wikipedia Binary 3,446 104,194
HotpotQA Homepage Homepage hotpotqa 74467760fff8bf8fbdadd5094bf9dd7b Wikipedia Binary 7,405 111,107
FiQA-2018 Homepage Homepage fiqa 4e1e688539b0622630fb6e65d39d26fa Finance Binary 648 57,450
Touché-2020 Homepage Homepage webis-touche2020 d58ec465ccd567d8f75edb419b0faaed Misc. 3-level 49 101,922
CQADupStack Homepage Homepage cqadupstack d48d963bc72689c765f381f04fc26f8b StackEx. Binary 1,563 39,962
DBPedia Homepage Homepage dbpedia-entity 43292f4f1a1927e2e323a4a7fa165fc1 Wikipedia 3-level 400 145,037
SCIDOCS Homepage Homepage scidocs 4058c0915594ab34e9b2b67f885c595f Scientific Binary 1,000 25,259
FEVER Homepage Homepage fever 98b631887d8c38772463e9633c477c69 Wikipedia Binary 6,666 114,529
Climate-FEVER Homepage Homepage climate-fever 5734d6ac34f24f5da496b27e04ff991a Wikipedia Binary 1,535 101,339
SciFact Homepage Homepage scifact b5b8e24ccad98c9ca959061af14bf833 Scientific Binary 300 5,183
NQ-UTD Homepage Homepage nq-utd 2e12e66393829cd4be715718f99d2436 Misc. 3-level 80 800

数据集结构

所有Cocktail数据集必须包含以下内容:

  • corpus: 一个.jsonl文件,包含一系列字典,每个字典包含三个字段:_id(唯一文档标识符),title(文档标题,可选),text(文档段落或文本)。
  • queries文件:一个.jsonl文件,包含一系列字典,每个字典包含两个字段:_id(唯一查询标识符),text(查询文本)。
  • qrels文件:一个.tsv文件,包含三个列:query-idcorpus-idscore。第一行作为标题。
搜集汇总
数据集介绍
main_image_url
构建方式
在信息检索领域,构建高质量且多样化的基准数据集对于评估模型性能至关重要。SCIDOCS数据集作为Cocktail基准的一部分,其构建过程体现了严谨的学术规范。该数据集源自AllenAI的原始科学文献数据,经过系统化的处理与整合。其核心在于构建了一个包含人类撰写文档与大型语言模型生成文档的双重语料库,确保了数据来源的多样性与对比性。具体而言,构建者从原始科学文献中提取了25,259篇文档,并生成了对应的LLM合成版本。同时,数据集精心准备了1,000个测试查询及其相关性标注,形成了结构化的评估框架。整个流程遵循标准化的文件格式,确保了数据的一致性与可复现性。
特点
科学文献检索任务对数据集的领域专精性和评估维度提出了特殊要求。SCIDOCS数据集的特点鲜明,其首要特征在于专注于科学文献领域,涵盖了计算机科学、医学、生物学等多个子学科,为评估模型在专业领域的检索能力提供了精准的测试平台。其次,数据集创新性地融合了人类专家撰写的真实文档与由Llama-2-7B-Chat模型生成的合成文档,这种二元结构为研究检索模型对两类内容可能存在的偏好或偏差提供了独特视角。此外,数据集采用二元相关性判断标准,结构清晰,包含详尽的查询集、文档语料库以及经过人工标注的相关性文件,便于研究者进行端到端的检索性能评估与深入分析。
使用方法
在信息检索模型的开发与评估实践中,规范的数据集使用方法是确保实验结果可比性的基石。SCIDOCS数据集提供了明确的使用路径。研究者可通过HuggingFace平台直接加载该数据集,其数据结构遵循Cocktail基准的统一规范:语料库以JSON Lines格式存储,包含`_id`、`title`和`text`字段;查询文件同样为JSON Lines格式;相关性判断文件则为TSV格式,包含查询ID、文档ID和相关性分数三列。典型的使用流程包括加载双重语料库与查询,运行检索模型获取排序结果,并利用提供的qrels文件通过标准信息检索指标(如NDCG、MAP)进行性能评估,从而系统化地衡量模型在科学文献检索任务上的效能。
背景与挑战
背景概述
在信息检索领域,评估检索模型在多样化文档来源下的性能已成为一项关键研究议题。IR-Cocktail/scidocs数据集作为Cocktail基准测试的重要组成部分,由Sunhao Dai等研究人员于2024年构建,隶属于艾伦人工智能研究所(Allen Institute for AI)的科学文档检索项目。该数据集聚焦于科学文献检索,旨在探究检索系统在人类撰写与大型语言模型生成内容混合环境中的表现,其核心研究问题在于评估神经检索模型对LLM生成内容的潜在偏好,为信息检索系统的鲁棒性与公平性评估提供了新的视角。
当前挑战
IR-Cocktail/scidocs数据集所应对的领域挑战在于科学文档检索中模型对异构内容源的泛化能力不足,传统检索系统往往难以平衡人类专家撰写的权威文献与LLM生成文本之间的相关性判断。在构建过程中,挑战主要体现在数据整合的复杂性:需将原始SCIDOCS科学文档与LLM生成的合成语料进行对齐,并确保查询-文档相关性标注在二元分类框架下保持一致性,同时需处理科学领域专业术语的语义一致性,以避免引入噪声影响评估有效性。
常用场景
经典使用场景
在科学文献检索领域,SCIDOCS数据集作为IR-Cocktail基准的重要组成部分,为评估信息检索模型在学术文档匹配任务中的性能提供了标准化测试平台。该数据集通过精心构建的查询与科学文献语料库,模拟了研究者查找相关学术论文的真实场景,尤其适用于测试模型在复杂科学概念和术语间的语义关联能力。其二元相关性标注机制,使得模型能够针对科学文档的精确检索效果进行量化评估,成为推动检索算法在学术领域应用的关键基础设施。
实际应用
在实际应用层面,SCIDOCS数据集能够直接支撑学术搜索引擎和数字图书馆系统的开发与优化。基于该数据集训练的检索模型,可集成至科研平台中,实现更精准的文献推荐和相关工作查询功能。此外,它也为科学知识图谱的构建提供了数据支持,辅助研究人员快速定位前沿研究成果,加速科学创新的进程。在教育和出版行业,此类技术还能用于个性化学习资源推送和学术出版物的智能索引。
衍生相关工作
围绕SCIDOCS数据集,已衍生出一系列聚焦科学文献检索的经典研究工作。例如,结合预训练语言模型的稠密检索方法在该数据集上进行了广泛验证,探索了科学文本的向量化表示策略。同时,针对数据集揭示的LLM生成内容偏差问题,后续研究提出了多种去偏和鲁棒性增强技术。这些工作不仅深化了对科学领域检索特性的认识,也推动了跨数据集基准如Cocktail的构建,为信息检索社区的模型评估提供了更全面的视角。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作