five

togethercomputer/Long-Data-Collections

收藏
Hugging Face2025-01-04 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/togethercomputer/Long-Data-Collections
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集集合是专门为需要从大量文本输入中进行广泛理解和推理的任务设计的长上下文数据集集合。目前,它包括用于训练强大基础模型的数据集,这些数据集位于pretrain/目录中。此外,还包括为特定需求定制的数据集,位于fine-tune/目录中。这些专门的数据集包括从Natural Questions派生的多段落问答数据集和BookSum长上下文摘要数据集。

This collection of long-context datasets is specifically designed for tasks requiring extensive comprehension and reasoning over large-scale textual inputs. Currently, it contains datasets for training robust foundation models, which are stored in the pretrain/ directory. Additionally, it includes datasets tailored for specific requirements, located in the fine-tune/ directory. These specialized datasets consist of a multi-paragraph question answering dataset derived from Natural Questions and the BookSum long-context summarization dataset.
提供机构:
togethercomputer
原始信息汇总

数据集概述

数据集组成

预训练数据

  • RedPajama-Book: 专注于从书籍中提取的数据,涵盖广泛的文学内容,帮助模型理解和生成多样化的文本。
  • RedPajama-ArXiv: 包含论文及其摘要,有助于模型利用长范围上下文。
  • UL2 Oscar: 通过LAION-AI的Open-Instruction-Generalist生成,要求模型填充缺失文本或完成文本。
  • RedPajama: 是RedPajama-Data-1T的一个子集,提供多样化的数据源样本。
  • NI (Materialized Natural Instruction): 专注于自然语言指令,已进行去污染处理以避免偏见或过度拟合。
  • P3 (Materialized Public Pool of Prompts): 包含广泛的用户生成提示,同样进行了去污染处理。
  • Pile: 是一个大型多样化的数据集,此处使用的是其子集。

微调数据

  • Multi-passage QA from Natural Questions: 源自Google的Natural Questions数据集,包含多篇Wiki文章的问题回答,测试模型处理复杂多篇问题回答的能力。
  • BookSum: 用于长上下文摘要,包含多种类型的书籍,任务是生成给定长上下文的简洁连贯摘要。

数据集限制与未来工作

数据集可能存在偏见,例如问题类型偏向Google搜索引擎查询,以及BookSum数据集中的书籍类型有限。未来计划扩展数据集,以覆盖更广泛的长上下文任务。

许可信息

数据集的许可信息请参考各数据集的原始来源。

搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
该数据集详情页面因访问频率过高而无法显示具体内容,建议用户减少并发连接数或稍后重试。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作