hazyresearch/LoCoV1-Documents

Name: hazyresearch/LoCoV1-Documents
Creator: hazyresearch
Published: 2024-03-24 00:07:13
License: 暂无描述

Hugging Face2024-03-24 更新2024-05-25 收录

下载链接：

https://hf-mirror.com/datasets/hazyresearch/LoCoV1-Documents

下载链接

链接失效反馈

官方服务：

资源简介：

LoCoV1数据集来源于论文《Benchmarking and Building Long-Context Retrieval Models with LoCo and M2-BERT》，该数据集包含多个子集，如SummScreenFD、Gov Report、QMSum等，用于长上下文检索模型的基准测试和构建。

提供机构：

hazyresearch

原始信息汇总

LoCoV1 Documents 数据集概述

数据集描述

LoCoV1 Documents 数据集源自论文 "Benchmarking and Building Long-Context Retrieval Models with LoCo and M2-BERT"，用于支持长上下文检索模型的基准测试和构建。

数据集使用方法

加载数据集

使用以下命令加载整个数据集： python from datasets import load_dataset dataset = load_dataset("hazyresearch/LoCoV1-Documents")

加载特定子集

通过定义过滤条件，可以加载特定的子集，例如 SummScreenFD： python from datasets import load_dataset dataset = load_dataset("hazyresearch/LoCoV1-Documents") def filter_condition(example): return example[dataset] == summ_screen_fd filtered_dataset = dataset.filter(filter_condition)

可用子集列表

数据集包含以下子集：

summ_screen_fd
gov_report
qmsum
qasper_title
qasper_abstract
2wikimqa
multifieldqa
passage_retrieval
courtlistener_HTML
courtlistener_Plain_Text
legal_case_reports
stackoverflow

搜集汇总

数据集介绍

背景与挑战

背景概述

LoCoV1-Documents是一个用于长上下文检索模型基准测试的数据集，包含来自多个领域（如维基百科、政府报告、法律案例等）的14,838个文档，总大小为383 MB。数据集以JSON格式提供，支持通过Hugging Face的datasets库加载和过滤，旨在支持长上下文检索任务的研究和开发。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集