trumancai/coir-triplets
收藏Hugging Face2026-02-12 更新2026-03-29 收录
下载链接:
https://hf-mirror.com/datasets/trumancai/coir-triplets
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
- config_name: CodeSearchNet
features:
- name: anchor
struct:
- name: audio
dtype: string
- name: image
dtype: string
- name: text
dtype: string
- name: video
dtype: string
- name: positive
struct:
- name: audio
dtype: string
- name: image
dtype: string
- name: text
dtype: string
- name: video
dtype: string
- name: negative
struct:
- name: audio
dtype: string
- name: image
dtype: string
- name: text
dtype: string
- name: video
dtype: string
splits:
- name: train
num_bytes: 1176524415
num_examples: 908224
download_size: 341621693
dataset_size: 1176524415
- config_name: CodeSearchNet_ccr
features:
- name: anchor
struct:
- name: audio
dtype: string
- name: image
dtype: string
- name: text
dtype: string
- name: video
dtype: string
- name: positive
struct:
- name: audio
dtype: string
- name: image
dtype: string
- name: text
dtype: string
- name: video
dtype: string
- name: negative
struct:
- name: audio
dtype: string
- name: image
dtype: string
- name: text
dtype: string
- name: video
dtype: string
splits:
- name: train
num_bytes: 934440183
num_examples: 908224
download_size: 335574430
dataset_size: 934440183
- config_name: apps
features:
- name: anchor
struct:
- name: audio
dtype: string
- name: image
dtype: string
- name: text
dtype: string
- name: video
dtype: string
- name: positive
struct:
- name: audio
dtype: string
- name: image
dtype: string
- name: text
dtype: string
- name: video
dtype: string
- name: negative
struct:
- name: audio
dtype: string
- name: image
dtype: string
- name: text
dtype: string
- name: video
dtype: string
splits:
- name: train
num_bytes: 16793283
num_examples: 5000
download_size: 4886304
dataset_size: 16793283
- config_name: codefeedback_mt
features:
- name: anchor
struct:
- name: audio
dtype: string
- name: image
dtype: string
- name: text
dtype: string
- name: video
dtype: string
- name: positive
struct:
- name: audio
dtype: string
- name: image
dtype: string
- name: text
dtype: string
- name: video
dtype: string
- name: negative
struct:
- name: audio
dtype: string
- name: image
dtype: string
- name: text
dtype: string
- name: video
dtype: string
splits:
- name: train
num_bytes: 419524571
num_examples: 53106
download_size: 182541632
dataset_size: 419524571
- config_name: codefeedback_st
features:
- name: anchor
struct:
- name: audio
dtype: string
- name: image
dtype: string
- name: text
dtype: string
- name: video
dtype: string
- name: positive
struct:
- name: audio
dtype: string
- name: image
dtype: string
- name: text
dtype: string
- name: video
dtype: string
- name: negative
struct:
- name: audio
dtype: string
- name: image
dtype: string
- name: text
dtype: string
- name: video
dtype: string
splits:
- name: train
num_bytes: 538589300
num_examples: 125220
download_size: 241848781
dataset_size: 538589300
- config_name: codetrans_contest
features:
- name: anchor
struct:
- name: audio
dtype: string
- name: image
dtype: string
- name: text
dtype: string
- name: video
dtype: string
- name: positive
struct:
- name: audio
dtype: string
- name: image
dtype: string
- name: text
dtype: string
- name: video
dtype: string
- name: negative
struct:
- name: audio
dtype: string
- name: image
dtype: string
- name: text
dtype: string
- name: video
dtype: string
splits:
- name: train
num_bytes: 2096934
num_examples: 561
download_size: 705525
dataset_size: 2096934
- config_name: codetrans_dl
features:
- name: anchor
struct:
- name: audio
dtype: string
- name: image
dtype: string
- name: text
dtype: string
- name: video
dtype: string
- name: positive
struct:
- name: audio
dtype: string
- name: image
dtype: string
- name: text
dtype: string
- name: video
dtype: string
- name: negative
struct:
- name: audio
dtype: string
- name: image
dtype: string
- name: text
dtype: string
- name: video
dtype: string
splits:
- name: train
num_bytes: 2253663
num_examples: 564
download_size: 218049
dataset_size: 2253663
- config_name: cosqa
features:
- name: anchor
struct:
- name: audio
dtype: string
- name: image
dtype: string
- name: text
dtype: string
- name: video
dtype: string
- name: positive
struct:
- name: audio
dtype: string
- name: image
dtype: string
- name: text
dtype: string
- name: video
dtype: string
- name: negative
struct:
- name: audio
dtype: string
- name: image
dtype: string
- name: text
dtype: string
- name: video
dtype: string
splits:
- name: train
num_bytes: 13319991
num_examples: 19604
download_size: 5148589
dataset_size: 13319991
- config_name: default
features:
- name: anchor
struct:
- name: audio
dtype: string
- name: image
dtype: string
- name: text
dtype: string
- name: video
dtype: string
- name: positive
struct:
- name: audio
dtype: string
- name: image
dtype: string
- name: text
dtype: string
- name: video
dtype: string
- name: negative
struct:
- name: audio
dtype: string
- name: image
dtype: string
- name: text
dtype: string
- name: video
dtype: string
splits:
- name: CodeSearchNet_ccr
num_bytes: 934440183
num_examples: 908224
- name: stackoverflow_qa
num_bytes: 77912761
num_examples: 13951
- name: codefeedback_mt
num_bytes: 419524571
num_examples: 53106
- name: cosqa
num_bytes: 13319991
num_examples: 19604
- name: CodeSearchNet
num_bytes: 1176524415
num_examples: 908224
- name: codetrans_dl
num_bytes: 2253663
num_examples: 564
- name: synthetic_text2sql
num_bytes: 39155309
num_examples: 100000
- name: codefeedback_st
num_bytes: 538589300
num_examples: 125220
- name: apps
num_bytes: 16793283
num_examples: 5000
- name: codetrans_contest
num_bytes: 2096934
num_examples: 561
download_size: 1161466860
dataset_size: 3220610410
- config_name: stackoverflow_qa
features:
- name: anchor
struct:
- name: audio
dtype: string
- name: image
dtype: string
- name: text
dtype: string
- name: video
dtype: string
- name: positive
struct:
- name: audio
dtype: string
- name: image
dtype: string
- name: text
dtype: string
- name: video
dtype: string
- name: negative
struct:
- name: audio
dtype: string
- name: image
dtype: string
- name: text
dtype: string
- name: video
dtype: string
splits:
- name: train
num_bytes: 77912761
num_examples: 13951
download_size: 36569644
dataset_size: 77912761
- config_name: synthetic_text2sql
features:
- name: anchor
struct:
- name: audio
dtype: string
- name: image
dtype: string
- name: text
dtype: string
- name: video
dtype: string
- name: positive
struct:
- name: audio
dtype: string
- name: image
dtype: string
- name: text
dtype: string
- name: video
dtype: string
- name: negative
struct:
- name: audio
dtype: string
- name: image
dtype: string
- name: text
dtype: string
- name: video
dtype: string
splits:
- name: train
num_bytes: 39155309
num_examples: 100000
download_size: 12352213
dataset_size: 39155309
configs:
- config_name: CodeSearchNet
data_files:
- split: train
path: CodeSearchNet/train-*
- config_name: CodeSearchNet_ccr
data_files:
- split: train
path: CodeSearchNet_ccr/train-*
- config_name: apps
data_files:
- split: train
path: apps/train-*
- config_name: codefeedback_mt
data_files:
- split: train
path: codefeedback_mt/train-*
- config_name: codefeedback_st
data_files:
- split: train
path: codefeedback_st/train-*
- config_name: codetrans_contest
data_files:
- split: train
path: codetrans_contest/train-*
- config_name: codetrans_dl
data_files:
- split: train
path: codetrans_dl/train-*
- config_name: cosqa
data_files:
- split: train
path: cosqa/train-*
- config_name: default
data_files:
- split: CodeSearchNet_ccr
path: data/CodeSearchNet_ccr-*
- split: stackoverflow_qa
path: data/stackoverflow_qa-*
- split: codefeedback_mt
path: data/codefeedback_mt-*
- split: cosqa
path: data/cosqa-*
- split: CodeSearchNet
path: data/CodeSearchNet-*
- split: codetrans_dl
path: data/codetrans_dl-*
- split: synthetic_text2sql
path: data/synthetic_text2sql-*
- split: codefeedback_st
path: data/codefeedback_st-*
- split: apps
path: data/apps-*
- split: codetrans_contest
path: data/codetrans_contest-*
- config_name: stackoverflow_qa
data_files:
- split: train
path: stackoverflow_qa/train-*
- config_name: synthetic_text2sql
data_files:
- split: train
path: synthetic_text2sql/train-*
---
数据集信息:
- 配置名称:CodeSearchNet
特征字段:
- 锚定样本(anchor):结构体,包含音频(audio)、图像(image)、文本(text)、视频(video),数据类型(dtype)均为字符串
- 正样本(positive):结构体,包含音频(audio)、图像(image)、文本(text)、视频(video),数据类型(dtype)均为字符串
- 负样本(negative):结构体,包含音频(audio)、图像(image)、文本(text)、视频(video),数据类型(dtype)均为字符串
数据集划分:
- 划分名称:train
字节数:1176524415
样本数量:908224
下载大小:341621693
数据集总大小:1176524415
- 配置名称:CodeSearchNet_ccr
特征字段:
- 锚定样本(anchor):结构体,包含音频(audio)、图像(image)、文本(text)、视频(video),数据类型(dtype)均为字符串
- 正样本(positive):结构体,包含音频(audio)、图像(image)、文本(text)、视频(video),数据类型(dtype)均为字符串
- 负样本(negative):结构体,包含音频(audio)、图像(image)、文本(text)、视频(video),数据类型(dtype)均为字符串
数据集划分:
- 划分名称:train
字节数:934440183
样本数量:908224
下载大小:335574430
数据集总大小:934440183
- 配置名称:apps
特征字段:
- 锚定样本(anchor):结构体,包含音频(audio)、图像(image)、文本(text)、视频(video),数据类型(dtype)均为字符串
- 正样本(positive):结构体,包含音频(audio)、图像(image)、文本(text)、视频(video),数据类型(dtype)均为字符串
- 负样本(negative):结构体,包含音频(audio)、图像(image)、文本(text)、视频(video),数据类型(dtype)均为字符串
数据集划分:
- 划分名称:train
字节数:16793283
样本数量:5000
下载大小:4886304
数据集总大小:16793283
- 配置名称:codefeedback_mt
特征字段:
- 锚定样本(anchor):结构体,包含音频(audio)、图像(image)、文本(text)、视频(video),数据类型(dtype)均为字符串
- 正样本(positive):结构体,包含音频(audio)、图像(image)、文本(text)、视频(video),数据类型(dtype)均为字符串
- 负样本(negative):结构体,包含音频(audio)、图像(image)、文本(text)、视频(video),数据类型(dtype)均为字符串
数据集划分:
- 划分名称:train
字节数:419524571
样本数量:53106
下载大小:182541632
数据集总大小:419524571
- 配置名称:codefeedback_st
特征字段:
- 锚定样本(anchor):结构体,包含音频(audio)、图像(image)、文本(text)、视频(video),数据类型(dtype)均为字符串
- 正样本(positive):结构体,包含音频(audio)、图像(image)、文本(text)、视频(video),数据类型(dtype)均为字符串
- 负样本(negative):结构体,包含音频(audio)、图像(image)、文本(text)、视频(video),数据类型(dtype)均为字符串
数据集划分:
- 划分名称:train
字节数:538589300
样本数量:125220
下载大小:241848781
数据集总大小:538589300
- 配置名称:codetrans_contest
特征字段:
- 锚定样本(anchor):结构体,包含音频(audio)、图像(image)、文本(text)、视频(video),数据类型(dtype)均为字符串
- 正样本(positive):结构体,包含音频(audio)、图像(image)、文本(text)、视频(video),数据类型(dtype)均为字符串
- 负样本(negative):结构体,包含音频(audio)、图像(image)、文本(text)、视频(video),数据类型(dtype)均为字符串
数据集划分:
- 划分名称:train
字节数:2096934
样本数量:561
下载大小:705525
数据集总大小:2096934
- 配置名称:codetrans_dl
特征字段:
- 锚定样本(anchor):结构体,包含音频(audio)、图像(image)、文本(text)、视频(video),数据类型(dtype)均为字符串
- 正样本(positive):结构体,包含音频(audio)、图像(image)、文本(text)、视频(video),数据类型(dtype)均为字符串
- 负样本(negative):结构体,包含音频(audio)、图像(image)、文本(text)、视频(video),数据类型(dtype)均为字符串
数据集划分:
- 划分名称:train
字节数:2253663
样本数量:564
下载大小:218049
数据集总大小:2253663
- 配置名称:cosqa
特征字段:
- 锚定样本(anchor):结构体,包含音频(audio)、图像(image)、文本(text)、视频(video),数据类型(dtype)均为字符串
- 正样本(positive):结构体,包含音频(audio)、图像(image)、文本(text)、视频(video),数据类型(dtype)均为字符串
- 负样本(negative):结构体,包含音频(audio)、图像(image)、文本(text)、视频(video),数据类型(dtype)均为字符串
数据集划分:
- 划分名称:train
字节数:13319991
样本数量:19604
下载大小:5148589
数据集总大小:13319991
- 配置名称:default
特征字段:
- 锚定样本(anchor):结构体,包含音频(audio)、图像(image)、文本(text)、视频(video),数据类型(dtype)均为字符串
- 正样本(positive):结构体,包含音频(audio)、图像(image)、文本(text)、视频(video),数据类型(dtype)均为字符串
- 负样本(negative):结构体,包含音频(audio)、图像(image)、文本(text)、视频(video),数据类型(dtype)均为字符串
数据集划分:
- 划分名称:CodeSearchNet_ccr
字节数:934440183
样本数量:908224
- 划分名称:stackoverflow_qa
字节数:77912761
样本数量:13951
- 划分名称:codefeedback_mt
字节数:419524571
样本数量:53106
- 划分名称:cosqa
字节数:13319991
样本数量:19604
- 划分名称:CodeSearchNet
字节数:1176524415
样本数量:908224
- 划分名称:codetrans_dl
字节数:2253663
样本数量:564
- 划分名称:synthetic_text2sql
字节数:39155309
样本数量:100000
- 划分名称:codefeedback_st
字节数:538589300
样本数量:125220
- 划分名称:apps
字节数:16793283
样本数量:5000
- 划分名称:codetrans_contest
字节数:2096934
样本数量:561
下载大小:1161466860
数据集总大小:3220610410
- 配置名称:stackoverflow_qa
特征字段:
- 锚定样本(anchor):结构体,包含音频(audio)、图像(image)、文本(text)、视频(video),数据类型(dtype)均为字符串
- 正样本(positive):结构体,包含音频(audio)、图像(image)、文本(text)、视频(video),数据类型(dtype)均为字符串
- 负样本(negative):结构体,包含音频(audio)、图像(image)、文本(text)、视频(video),数据类型(dtype)均为字符串
数据集划分:
- 划分名称:train
字节数:77912761
样本数量:13951
下载大小:36569644
数据集总大小:77912761
- 配置名称:synthetic_text2sql
特征字段:
- 锚定样本(anchor):结构体,包含音频(audio)、图像(image)、文本(text)、视频(video),数据类型(dtype)均为字符串
- 正样本(positive):结构体,包含音频(audio)、图像(image)、文本(text)、视频(video),数据类型(dtype)均为字符串
- 负样本(negative):结构体,包含音频(audio)、图像(image)、文本(text)、视频(video),数据类型(dtype)均为字符串
数据集划分:
- 划分名称:train
字节数:39155309
样本数量:100000
下载大小:12352213
数据集总大小:39155309
配置项:
- 配置名称:CodeSearchNet
数据文件:
- 划分:train
路径:CodeSearchNet/train-*
- 配置名称:CodeSearchNet_ccr
数据文件:
- 划分:train
路径:CodeSearchNet_ccr/train-*
- 配置名称:apps
数据文件:
- 划分:train
路径:apps/train-*
- 配置名称:codefeedback_mt
数据文件:
- 划分:train
路径:codefeedback_mt/train-*
- 配置名称:codefeedback_st
数据文件:
- 划分:train
路径:codefeedback_st/train-*
- 配置名称:codetrans_contest
数据文件:
- 划分:train
路径:codetrans_contest/train-*
- 配置名称:codetrans_dl
数据文件:
- 划分:train
路径:codetrans_dl/train-*
- 配置名称:cosqa
数据文件:
- 划分:train
路径:cosqa/train-*
- 配置名称:default
数据文件:
- 划分:CodeSearchNet_ccr
路径:data/CodeSearchNet_ccr-*
- 划分:stackoverflow_qa
路径:data/stackoverflow_qa-*
- 划分:codefeedback_mt
路径:data/codefeedback_mt-*
- 划分:cosqa
路径:data/cosqa-*
- 划分:CodeSearchNet
路径:data/CodeSearchNet-*
- 划分:codetrans_dl
路径:data/codetrans_dl-*
- 划分:synthetic_text2sql
路径:data/synthetic_text2sql-*
- 划分:codefeedback_st
路径:data/codefeedback_st-*
- 划分:apps
路径:data/apps-*
- 划分:codetrans_contest
路径:data/codetrans_contest-*
- 配置名称:stackoverflow_qa
数据文件:
- 划分:train
路径:stackoverflow_qa/train-*
- 配置名称:synthetic_text2sql
数据文件:
- 划分:train
路径:synthetic_text2sql/train-*
提供机构:
trumancai



