IR-Cocktail/scidocs
收藏Hugging Face2024-05-22 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/IR-Cocktail/scidocs
下载链接
链接失效反馈官方服务:
资源简介:
Cocktail数据集是一个综合性的信息检索基准数据集,集成了LLM生成的文档。该数据集包含16个基准数据集,涵盖了多个领域,如生物医学、维基百科、金融、科学等。每个数据集都包含人类编写的语料库、LLM生成的语料库、查询和相关性文件。数据集的结构和格式都有严格的要求,以确保数据的一致性和可用性。
Cocktail数据集是一个综合性的信息检索基准数据集,集成了LLM生成的文档。该数据集包含16个基准数据集,涵盖了多个领域,如生物医学、维基百科、金融、科学等。每个数据集都包含人类编写的语料库、LLM生成的语料库、查询和相关性文件。数据集的结构和格式都有严格的要求,以确保数据的一致性和可用性。
提供机构:
IR-Cocktail
原始信息汇总
数据集概述
本数据集包含16个基准数据集,每个数据集均涉及不同的领域和相关性评估级别。以下是各数据集的详细信息:
| 数据集 | 原始网站 | Cocktail网站 | Cocktail名称 | 处理后数据的md5值 | 领域 | 相关性评估 | 测试查询数量 | 语料库大小 |
|---|---|---|---|---|---|---|---|---|
| MS MARCO | Homepage | Homepage | msmarco | 985926f3e906fadf0dc6249f23ed850f | Misc. | Binary | 6,979 | 542,203 |
| DL19 | Homepage | Homepage | dl19 | d652af47ec0e844af43109c0acf50b74 | Misc. | Binary | 43 | 542,203 |
| DL20 | Homepage | Homepage | dl20 | 3afc48141dce3405ede2b6b937c65036 | Misc. | Binary | 54 | 542,203 |
| TREC-COVID | Homepage | Homepage | trec-covid | 1e1e2264b623d9cb7cb50df8141bd535 | Bio-Medical | 3-level | 50 | 128,585 |
| NFCorpus | Homepage | Homepage | nfcorpus | 695327760647984c5014d64b2fee8de0 | Bio-Medical | 3-level | 323 | 3,633 |
| NQ | Homepage | Homepage | nq | a10bfe33efdec54aafcc974ac989c338 | Wikipedia | Binary | 3,446 | 104,194 |
| HotpotQA | Homepage | Homepage | hotpotqa | 74467760fff8bf8fbdadd5094bf9dd7b | Wikipedia | Binary | 7,405 | 111,107 |
| FiQA-2018 | Homepage | Homepage | fiqa | 4e1e688539b0622630fb6e65d39d26fa | Finance | Binary | 648 | 57,450 |
| Touché-2020 | Homepage | Homepage | webis-touche2020 | d58ec465ccd567d8f75edb419b0faaed | Misc. | 3-level | 49 | 101,922 |
| CQADupStack | Homepage | Homepage | cqadupstack | d48d963bc72689c765f381f04fc26f8b | StackEx. | Binary | 1,563 | 39,962 |
| DBPedia | Homepage | Homepage | dbpedia-entity | 43292f4f1a1927e2e323a4a7fa165fc1 | Wikipedia | 3-level | 400 | 145,037 |
| SCIDOCS | Homepage | Homepage | scidocs | 4058c0915594ab34e9b2b67f885c595f | Scientific | Binary | 1,000 | 25,259 |
| FEVER | Homepage | Homepage | fever | 98b631887d8c38772463e9633c477c69 | Wikipedia | Binary | 6,666 | 114,529 |
| Climate-FEVER | Homepage | Homepage | climate-fever | 5734d6ac34f24f5da496b27e04ff991a | Wikipedia | Binary | 1,535 | 101,339 |
| SciFact | Homepage | Homepage | scifact | b5b8e24ccad98c9ca959061af14bf833 | Scientific | Binary | 300 | 5,183 |
| NQ-UTD | Homepage | Homepage | nq-utd | 2e12e66393829cd4be715718f99d2436 | Misc. | 3-level | 80 | 800 |
数据集结构
所有Cocktail数据集必须包含以下内容:
corpus: 一个.jsonl文件,包含一系列字典,每个字典包含三个字段:_id(唯一文档标识符),title(文档标题,可选),text(文档段落或文本)。queries文件:一个.jsonl文件,包含一系列字典,每个字典包含两个字段:_id(唯一查询标识符),text(查询文本)。qrels文件:一个.tsv文件,包含三个列:query-id,corpus-id,score。第一行作为标题。
搜集汇总
数据集介绍

构建方式
在信息检索领域,构建高质量且多样化的基准数据集对于评估模型性能至关重要。SCIDOCS数据集作为Cocktail基准的一部分,其构建过程体现了严谨的学术规范。该数据集源自AllenAI的原始科学文献数据,经过系统化的处理与整合。其核心在于构建了一个包含人类撰写文档与大型语言模型生成文档的双重语料库,确保了数据来源的多样性与对比性。具体而言,构建者从原始科学文献中提取了25,259篇文档,并生成了对应的LLM合成版本。同时,数据集精心准备了1,000个测试查询及其相关性标注,形成了结构化的评估框架。整个流程遵循标准化的文件格式,确保了数据的一致性与可复现性。
特点
科学文献检索任务对数据集的领域专精性和评估维度提出了特殊要求。SCIDOCS数据集的特点鲜明,其首要特征在于专注于科学文献领域,涵盖了计算机科学、医学、生物学等多个子学科,为评估模型在专业领域的检索能力提供了精准的测试平台。其次,数据集创新性地融合了人类专家撰写的真实文档与由Llama-2-7B-Chat模型生成的合成文档,这种二元结构为研究检索模型对两类内容可能存在的偏好或偏差提供了独特视角。此外,数据集采用二元相关性判断标准,结构清晰,包含详尽的查询集、文档语料库以及经过人工标注的相关性文件,便于研究者进行端到端的检索性能评估与深入分析。
使用方法
在信息检索模型的开发与评估实践中,规范的数据集使用方法是确保实验结果可比性的基石。SCIDOCS数据集提供了明确的使用路径。研究者可通过HuggingFace平台直接加载该数据集,其数据结构遵循Cocktail基准的统一规范:语料库以JSON Lines格式存储,包含`_id`、`title`和`text`字段;查询文件同样为JSON Lines格式;相关性判断文件则为TSV格式,包含查询ID、文档ID和相关性分数三列。典型的使用流程包括加载双重语料库与查询,运行检索模型获取排序结果,并利用提供的qrels文件通过标准信息检索指标(如NDCG、MAP)进行性能评估,从而系统化地衡量模型在科学文献检索任务上的效能。
背景与挑战
背景概述
在信息检索领域,评估检索模型在多样化文档来源下的性能已成为一项关键研究议题。IR-Cocktail/scidocs数据集作为Cocktail基准测试的重要组成部分,由Sunhao Dai等研究人员于2024年构建,隶属于艾伦人工智能研究所(Allen Institute for AI)的科学文档检索项目。该数据集聚焦于科学文献检索,旨在探究检索系统在人类撰写与大型语言模型生成内容混合环境中的表现,其核心研究问题在于评估神经检索模型对LLM生成内容的潜在偏好,为信息检索系统的鲁棒性与公平性评估提供了新的视角。
当前挑战
IR-Cocktail/scidocs数据集所应对的领域挑战在于科学文档检索中模型对异构内容源的泛化能力不足,传统检索系统往往难以平衡人类专家撰写的权威文献与LLM生成文本之间的相关性判断。在构建过程中,挑战主要体现在数据整合的复杂性:需将原始SCIDOCS科学文档与LLM生成的合成语料进行对齐,并确保查询-文档相关性标注在二元分类框架下保持一致性,同时需处理科学领域专业术语的语义一致性,以避免引入噪声影响评估有效性。
常用场景
经典使用场景
在科学文献检索领域,SCIDOCS数据集作为IR-Cocktail基准的重要组成部分,为评估信息检索模型在学术文档匹配任务中的性能提供了标准化测试平台。该数据集通过精心构建的查询与科学文献语料库,模拟了研究者查找相关学术论文的真实场景,尤其适用于测试模型在复杂科学概念和术语间的语义关联能力。其二元相关性标注机制,使得模型能够针对科学文档的精确检索效果进行量化评估,成为推动检索算法在学术领域应用的关键基础设施。
实际应用
在实际应用层面,SCIDOCS数据集能够直接支撑学术搜索引擎和数字图书馆系统的开发与优化。基于该数据集训练的检索模型,可集成至科研平台中,实现更精准的文献推荐和相关工作查询功能。此外,它也为科学知识图谱的构建提供了数据支持,辅助研究人员快速定位前沿研究成果,加速科学创新的进程。在教育和出版行业,此类技术还能用于个性化学习资源推送和学术出版物的智能索引。
衍生相关工作
围绕SCIDOCS数据集,已衍生出一系列聚焦科学文献检索的经典研究工作。例如,结合预训练语言模型的稠密检索方法在该数据集上进行了广泛验证,探索了科学文本的向量化表示策略。同时,针对数据集揭示的LLM生成内容偏差问题,后续研究提出了多种去偏和鲁棒性增强技术。这些工作不仅深化了对科学领域检索特性的认识,也推动了跨数据集基准如Cocktail的构建,为信息检索社区的模型评估提供了更全面的视角。
以上内容由遇见数据集搜集并总结生成



