five

mkhalifa/BioCite

收藏
Hugging Face2024-07-16 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/mkhalifa/BioCite
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个用于论文《Source-Aware Training Enables Knowledge Attribution in Language Models》中预训练阶段的合成数据集。数据集包含预训练和指令调优两个阶段,预训练阶段包含100K文档、408K事实/句子、5.7M令牌,平均每个文档包含4.1个句子和56.9个令牌;指令调优阶段包含186K示例和3.1M令牌。

This is the synthetic dataset used for pretraining in the paper Source-Aware Training Enables Knowledge Attribution in Language Models. The dataset includes two phases: pretraining and instruction tuning. The pretraining phase contains 100K documents, 408K facts/sentences, and 5.7M tokens, with an average of 4.1 sentences and 56.9 tokens per document. The instruction tuning phase contains 186K examples and 3.1M tokens.
提供机构:
mkhalifa
原始信息汇总

数据集概述

基本信息

数据集统计

预训练部分

  • 文档数量: 100K
  • 事实/句子数量: 408K
  • 总令牌数: 5.7M
  • 平均每文档句子数: 4.1
  • 平均每文档令牌数: 56.9

指令调整部分

  • 示例数量: 186K
  • 总令牌数: 3.1M
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作