five

stephantulkens/english-word-definitions-mxbai-pooled

收藏
Hugging Face2025-10-17 更新2025-10-25 收录
下载链接:
https://hf-mirror.com/datasets/stephantulkens/english-word-definitions-mxbai-pooled
下载链接
链接失效反馈
官方服务:
资源简介:
这是由Mixedbread AI的mxbai-embed-large-v1嵌入的英语单词定义数据集。每个文档使用前510个标记进行嵌入,并且由于模型的训练方法,嵌入被截断。该数据集主要用于大规模知识蒸馏,包含466k行,每行有三个键:id、嵌入和文本。文本被截断为模型实际看到的切片,这使得它可以直接用于sentence-transformers的训练,而无需手动截断文本。

This is the English Word Definitions dataset, embedded with Mixedbread AIs mxbai-embed-large-v1. Each document is embedded using the first 510 tokens, and the embeddings are truncated due to the models training method. The dataset is useful for large-scale knowledge distillation and consists of 466k rows with three keys: id, embedding, and text. The text is truncated to the slice seen by the model, making it suitable for training in sentence-transformers without manual text truncation.
提供机构:
stephantulkens
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作