five

pszemraj/fineweb-CC-MAIN-2024-10-insurance-700k-dedup-minified

收藏
Hugging Face2025-01-18 更新2025-02-15 收录
下载链接:
https://hf-mirror.com/datasets/pszemraj/fineweb-CC-MAIN-2024-10-insurance-700k-dedup-minified
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含两个配置:modernbert-embed-base和rover_nexus,每个配置都包含文本、URL、token_count和cluster_id字段。数据集专为文本生成任务设计,包含训练集,适用于机器学习模型的训练。数据集遵循odc-by许可证。

The dataset consists of two configurations: modernbert-embed-base and rover_nexus, each containing fields for text, URL, token_count, and cluster_id. Designed for text generation tasks, the dataset includes a training set suitable for machine learning model training and is licensed under odc-by.
提供机构:
pszemraj
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作