five

minishlab/tokenlearn-cornstack-docs-coderankembed

收藏
Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/minishlab/tokenlearn-cornstack-docs-coderankembed
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是使用Tokenlearn工具创建的,用于训练Model2Vec模型进行代码检索。数据集包含了来自CornStack的代码文档,覆盖6种编程语言(Python、Java、PHP、Go、JavaScript、Ruby),每种语言有50,000行数据,总计300,000行。数据集中包含了由nomic-ai/CodeRankEmbed生成的均值令牌嵌入,用作静态嵌入蒸馏的训练目标。数据集的结构包括文本列和嵌入列,文本列是截断的输入文本(最大长度为512个令牌),嵌入列是来自nomic-ai/CodeRankEmbed的均值令牌嵌入(不包括BOS/EOS令牌)。

This dataset was created with Tokenlearn for training Model2Vec models on code retrieval. It contains mean token embeddings produced by nomic-ai/CodeRankEmbed, used as training targets for static embedding distillation. The dataset contains code documents from CornStack across 6 programming languages (50,000 rows per language, 300,000 total). The dataset structure includes a text column (truncated input text with a max length of 512 tokens) and an embedding column (mean token embeddings from nomic-ai/CodeRankEmbed, excluding BOS/EOS tokens).
提供机构:
minishlab
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作