five

alea-institute/kl3m-data-edgar-10-q

收藏
Hugging Face2025-04-11 更新2025-04-12 收录
下载链接:
https://hf-mirror.com/datasets/alea-institute/kl3m-data-edgar-10-q
下载链接
链接失效反馈
官方服务:
资源简介:
KL3M数据集是ALEA研究所提供的一个大规模版权清洁训练资源,包含超过1.32亿份文档和数万亿个标记,用于大型语言模型的训练。该数据集涵盖了16个不同来源的文档,均符合严格的版权和许可协议。数据以Parquet文件格式存储,并采用kl3m-004-128k-cased分词器进行分词。数据集在遵循CC BY 4.0许可的前提下,公开提供。

The KL3M dataset is a large-scale copyright-clean training resource provided by the ALEA Institute, containing over 132 million documents and trillions of tokens for training large language models. The dataset covers documents from 16 different sources, all verified to meet strict copyright and licensing protocols. The data is stored in Parquet file format and tokenized using the kl3m-004-128k-cased tokenizer. The dataset is publicly available under the CC BY 4.0 license.
提供机构:
alea-institute
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作