five

STCALIR_Synthetic-Test-Collection

收藏
Hugging Face2026-03-23 更新2026-03-24 收录
下载链接:
https://huggingface.co/datasets/hatemestinbejaia/STCALIR_Synthetic-Test-Collection
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含两个阿拉伯语文本嵌入配置版本(KD与NoKD变体),每个版本包含105,201条训练样本。每条数据包含三个字段:id(字符串类型)、text(字符串类型的阿拉伯文本)、embedding(float32列表形式的嵌入向量)。两个版本具有完全相同的样本数量和数据结构,仅在模型训练方式上存在差异(是否使用知识蒸馏技术)。数据集总大小约为422MB,适用于阿拉伯语信息检索或语义相似度计算等需要稠密向量表示的任务。
创建时间:
2026-03-19
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作