mkhalifa/BioCite
收藏Hugging Face2024-07-16 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/mkhalifa/BioCite
下载链接
链接失效反馈官方服务:
资源简介:
这是一个用于论文《Source-Aware Training Enables Knowledge Attribution in Language Models》中预训练阶段的合成数据集。数据集包含预训练和指令调优两个阶段,预训练阶段包含100K文档、408K事实/句子、5.7M令牌,平均每个文档包含4.1个句子和56.9个令牌;指令调优阶段包含186K示例和3.1M令牌。
This is the synthetic dataset used for pretraining in the paper Source-Aware Training Enables Knowledge Attribution in Language Models. The dataset includes two phases: pretraining and instruction tuning. The pretraining phase contains 100K documents, 408K facts/sentences, and 5.7M tokens, with an average of 4.1 sentences and 56.9 tokens per document. The instruction tuning phase contains 186K examples and 3.1M tokens.
提供机构:
mkhalifa
原始信息汇总
数据集概述
基本信息
- 许可证: Apache-2.0
- 标签:
- 归属
- 引用
- 预训练
- 合成
- 美观名称: BioCite
- 相关论文: Source-Aware Training Enables Knowledge Attribution in Language Models
数据集统计
预训练部分
- 文档数量: 100K
- 事实/句子数量: 408K
- 总令牌数: 5.7M
- 平均每文档句子数: 4.1
- 平均每文档令牌数: 56.9
指令调整部分
- 示例数量: 186K
- 总令牌数: 3.1M



