togethercomputer/Long-Data-Collections

Name: togethercomputer/Long-Data-Collections
Creator: togethercomputer
Published: 2025-01-04 23:17:28
License: 暂无描述

Hugging Face2025-01-04 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/togethercomputer/Long-Data-Collections

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集集合是专门为需要从大量文本输入中进行广泛理解和推理的任务设计的长上下文数据集集合。目前，它包括用于训练强大基础模型的数据集，这些数据集位于pretrain/目录中。此外，还包括为特定需求定制的数据集，位于fine-tune/目录中。这些专门的数据集包括从Natural Questions派生的多段落问答数据集和BookSum长上下文摘要数据集。

This collection of long-context datasets is specifically designed for tasks requiring extensive comprehension and reasoning over large-scale textual inputs. Currently, it contains datasets for training robust foundation models, which are stored in the pretrain/ directory. Additionally, it includes datasets tailored for specific requirements, located in the fine-tune/ directory. These specialized datasets consist of a multi-paragraph question answering dataset derived from Natural Questions and the BookSum long-context summarization dataset.

提供机构：

togethercomputer

原始信息汇总

数据集概述

数据集组成

预训练数据

RedPajama-Book: 专注于从书籍中提取的数据，涵盖广泛的文学内容，帮助模型理解和生成多样化的文本。
RedPajama-ArXiv: 包含论文及其摘要，有助于模型利用长范围上下文。
UL2 Oscar: 通过LAION-AI的Open-Instruction-Generalist生成，要求模型填充缺失文本或完成文本。
RedPajama: 是RedPajama-Data-1T的一个子集，提供多样化的数据源样本。
NI (Materialized Natural Instruction): 专注于自然语言指令，已进行去污染处理以避免偏见或过度拟合。
P3 (Materialized Public Pool of Prompts): 包含广泛的用户生成提示，同样进行了去污染处理。
Pile: 是一个大型多样化的数据集，此处使用的是其子集。

微调数据

Multi-passage QA from Natural Questions: 源自Google的Natural Questions数据集，包含多篇Wiki文章的问题回答，测试模型处理复杂多篇问题回答的能力。
BookSum: 用于长上下文摘要，包含多种类型的书籍，任务是生成给定长上下文的简洁连贯摘要。