five

ontocord/MixtureVitae-300BT

收藏
Hugging Face2025-09-10 更新2025-07-05 收录
下载链接:
https://hf-mirror.com/datasets/ontocord/MixtureVitae-300BT
下载链接
链接失效反馈
官方服务:
资源简介:
MixtureVitae (工作版) — 文本仅限许可子集数据集是MixtureVitae许可数据集的文本部分的简化版,包含cc-by、公共领域或政府网站的数据。数据集包括业务、政治、法律、科学和技术等多个领域的数据,并包含大量的合成数据。数据集旨在为预训练基础大型语言模型(LLM)提供支持。数据集的许可性质旨在降低研究人员的版权风险。

MixtureVitae (Working Version) — Text-Only Permissive Subset is a simplified version of the text portion of the MixtureVitae permissive dataset, including data from cc-by, public domain, or governmental websites. The dataset encompasses various fields such as business, politics, law, science, and technology, and also includes a significant amount of synthetic data. It is designed to support the pretraining of foundational large language models (LLMs). The datasets permissive licensing aims to minimize copyright risks for researchers.
提供机构:
ontocord
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作