five

stephantulkens/triviaqa-query-mxbai-pooled

收藏
Hugging Face2025-10-13 更新2025-10-25 收录
下载链接:
https://hf-mirror.com/datasets/stephantulkens/triviaqa-query-mxbai-pooled
下载链接
链接失效反馈
官方服务:
资源简介:
这是基于TriviaQA数据集的查询部分,使用Mixedbread AI的mixedbread-ai/mxbai-embed-large-v1模型进行嵌入。每个文档的嵌入为1024维,并截断为每个文档的前510个token。此数据集主要适用于大规模知识蒸馏,因为它简化了像sentence-transformers这样的模型的训练过程,无需手动截断和匹配文本。

This is the query portion of the TriviaQA dataset, embedded using Mixedbread AIs mixedbread-ai/mxbai-embed-large-v1 model. Each document is embedded with 1024-dimensional embeddings, truncated to the first 510 tokens of each document. This dataset is primarily useful for large-scale knowledge distillation, as it simplifies the training process for models like sentence-transformers by avoiding manual text truncation and matching.
提供机构:
stephantulkens
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作