five

pietrolesci/pythia-deduped-stats-raw

收藏
Hugging Face2025-04-09 更新2024-07-22 收录
下载链接:
https://hf-mirror.com/datasets/pietrolesci/pythia-deduped-stats-raw
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是通过使用Pythia去重版本的所有中间检查点(step0, step1000, ..., step143k)计算的数据统计集合。文件夹中包含了研究中每个模型大小的模型评估(或“统计”),这是“原始”版本,其中包含在token级别的统计数据。这些统计数据是在推理过程昂贵的情况下收集的,以防万一。同时,提供了序列级别的统计数据在`pietrolesci/pythia-deduped-stats`数据集中。

This dataset contains data statistics computed using the intermediate checkpoints of all Pythia deduped versions, including raw token-level statistics for each model size. Additionally, sequence-level statistics are provided in the `pietrolesci/pythia-deduped-stats` dataset.
提供机构:
pietrolesci
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作