five

trend-cybertron/Primus-FineWeb

收藏
Hugging Face2025-08-08 更新2025-04-12 收录
下载链接:
https://hf-mirror.com/datasets/trend-cybertron/Primus-FineWeb
下载链接
链接失效反馈
官方服务:
资源简介:
Primus-FineWeb数据集是一个由FineWeb中筛选出的网络安全相关文本构成的开放源数据集,用于网络安全大型语言模型的训练。该数据集通过TinyBERT二分类器对FineWeb进行打分,并筛选出得分超过0.003的文本,经过去重处理后,包含了2.57亿token的网络安全语料。

The Primus-FineWeb dataset is an open-source collection of cybersecurity-related texts filtered from FineWeb, designed for training cybersecurity large language models. The dataset is created by scoring texts in FineWeb using a TinyBERT binary classifier and filtering out those with a score above 0.003, followed by deduplication, resulting in a cybersecurity corpus of 2.57 billion tokens.
提供机构:
trend-cybertron
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作