five

lightonai/embeddings-pre-training

收藏
Hugging Face2026-04-16 更新2025-08-30 收录
下载链接:
https://hf-mirror.com/datasets/lightonai/embeddings-pre-training
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个大型的文本嵌入模型预训练数据集,包含多样化的对比数据,旨在开发最先进的文本嵌入模型。该数据集主要以英语为主,同时包含几个法语数据集,以支持双语文本和跨语言研究。

This is a large-scale dataset of diverse, contrastive pre-training data for developing state-of-the-art text embedding models. The collection is primarily in English, with the inclusion of several French datasets to facilitate bilingual and cross-lingual research.
提供机构:
lightonai
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作