five

minishlab/tokenlearn-cornstack-queries-coderankembed

收藏
Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/minishlab/tokenlearn-cornstack-queries-coderankembed
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是为训练Model2Vec模型在代码检索任务上而创建的,包含由nomic-ai/CodeRankEmbed生成的平均词嵌入。数据集包含来自CornStack的自然语言查询,涵盖六种编程语言(Python、Java、PHP、Go、JavaScript、Ruby),每种语言有50,000行数据,总计300,000行。数据集结构包括截断的输入文本和平均词嵌入列。

This dataset was created for training Model2Vec models on code retrieval, containing mean token embeddings produced by nomic-ai/CodeRankEmbed. It includes natural language queries from CornStack across six programming languages (Python, Java, PHP, Go, JavaScript, Ruby), with 50,000 rows per language, totaling 300,000 rows. The dataset structure includes columns for truncated input text and mean token embeddings.
提供机构:
minishlab
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作