five

princeton-nlp/LitSearch

收藏
Hugging Face2024-07-09 更新2024-07-22 收录
下载链接:
https://hf-mirror.com/datasets/princeton-nlp/LitSearch
下载链接
链接失效反馈
官方服务:
资源简介:
LitSearch数据集包含用于科学文献检索的查询集和检索语料库。该数据集由597个关于近期机器学习和自然语言处理论文的现实文献检索查询组成。这些查询通过两种方式构建:(1) 由GPT-4根据研究论文中包含内联引用的段落生成的问题;(2) 由最近发表论文的作者手动编写的问题。所有LitSearch查询都经过专家的手动检查或编辑,以确保高质量。数据集包含三个配置:1. `query`包含597个查询,附带黄金论文ID、特异性和质量注释以及查询来源的元数据;2. `corpus_clean`包含64183个文档,提供提取的标题、摘要和引用的论文ID;3. `corpus_s2orc`包含相同的64183个文档,但以Semantic Scholar开放研究语料库(S2ORC)模式表示,并包含所有可用的元数据。每个配置都有一个full分割。

The LitSearch dataset is designed as a retrieval benchmark for scientific literature search, containing 597 realistic search queries about recent ML and NLP papers. These queries are generated by GPT-4 based on paragraphs containing inline citations from research papers and questions about recently published papers, manually written by their authors. All questions were manually examined or edited by experts to ensure high quality. The dataset includes three configurations: query containing 597 queries with associated metadata; corpus_clean containing 64183 documents with extracted titles, abstracts, and citation IDs; and corpus_s2orc containing the same set of documents in the Semantic Scholar Open Research Corpus (S2ORC) schema with all available metadata. Each configuration has a single full split.
提供机构:
princeton-nlp
原始信息汇总

LitSearch: A Retrieval Benchmark for Scientific Literature Search

概述

  • 数据集名称: LitSearch
  • 数据集用途: 用于科学文献检索的基准测试
  • 数据集内容: 包含597个关于近期ML和NLP论文的真实文献检索查询集和检索语料库
  • 数据集构建:
    • 基于GPT-4生成的查询
    • 作者手动编写的关于近期发表论文的查询
    • 所有查询均由专家手动检查或编辑,以确保高质量

数据集配置

  1. query:

    • 包含597个查询
    • 附带黄金论文ID、特异性和质量注释
    • 包含查询来源的元数据
  2. corpus_clean:

    • 包含64183个文档
    • 提供提取的标题、摘要和引出引用论文ID
  3. corpus_s2orc:

    • 包含64183个文档
    • 使用Semantic Scholar Open Research Corpus (S2ORC)模式表示
    • 包含所有可用元数据

数据集加载

  • 每个配置只有一个full分割

  • 可以通过以下代码加载数据集: python from datasets import load_dataset

    query_data = load_dataset("princeton-nlp/LitSearch", "query", split="full") corpus_clean_data = load_dataset("princeton-nlp/LitSearch", "corpus_clean", split="full") corpus_s2orc_data = load_dataset("princeton-nlp/LitSearch", "corpus_s2orc", split="full")

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作