five

trumancai/coir-triplets

收藏
Hugging Face2026-02-12 更新2026-03-29 收录
下载链接:
https://hf-mirror.com/datasets/trumancai/coir-triplets
下载链接
链接失效反馈
官方服务:
资源简介:
--- dataset_info: - config_name: CodeSearchNet features: - name: anchor struct: - name: audio dtype: string - name: image dtype: string - name: text dtype: string - name: video dtype: string - name: positive struct: - name: audio dtype: string - name: image dtype: string - name: text dtype: string - name: video dtype: string - name: negative struct: - name: audio dtype: string - name: image dtype: string - name: text dtype: string - name: video dtype: string splits: - name: train num_bytes: 1176524415 num_examples: 908224 download_size: 341621693 dataset_size: 1176524415 - config_name: CodeSearchNet_ccr features: - name: anchor struct: - name: audio dtype: string - name: image dtype: string - name: text dtype: string - name: video dtype: string - name: positive struct: - name: audio dtype: string - name: image dtype: string - name: text dtype: string - name: video dtype: string - name: negative struct: - name: audio dtype: string - name: image dtype: string - name: text dtype: string - name: video dtype: string splits: - name: train num_bytes: 934440183 num_examples: 908224 download_size: 335574430 dataset_size: 934440183 - config_name: apps features: - name: anchor struct: - name: audio dtype: string - name: image dtype: string - name: text dtype: string - name: video dtype: string - name: positive struct: - name: audio dtype: string - name: image dtype: string - name: text dtype: string - name: video dtype: string - name: negative struct: - name: audio dtype: string - name: image dtype: string - name: text dtype: string - name: video dtype: string splits: - name: train num_bytes: 16793283 num_examples: 5000 download_size: 4886304 dataset_size: 16793283 - config_name: codefeedback_mt features: - name: anchor struct: - name: audio dtype: string - name: image dtype: string - name: text dtype: string - name: video dtype: string - name: positive struct: - name: audio dtype: string - name: image dtype: string - name: text dtype: string - name: video dtype: string - name: negative struct: - name: audio dtype: string - name: image dtype: string - name: text dtype: string - name: video dtype: string splits: - name: train num_bytes: 419524571 num_examples: 53106 download_size: 182541632 dataset_size: 419524571 - config_name: codefeedback_st features: - name: anchor struct: - name: audio dtype: string - name: image dtype: string - name: text dtype: string - name: video dtype: string - name: positive struct: - name: audio dtype: string - name: image dtype: string - name: text dtype: string - name: video dtype: string - name: negative struct: - name: audio dtype: string - name: image dtype: string - name: text dtype: string - name: video dtype: string splits: - name: train num_bytes: 538589300 num_examples: 125220 download_size: 241848781 dataset_size: 538589300 - config_name: codetrans_contest features: - name: anchor struct: - name: audio dtype: string - name: image dtype: string - name: text dtype: string - name: video dtype: string - name: positive struct: - name: audio dtype: string - name: image dtype: string - name: text dtype: string - name: video dtype: string - name: negative struct: - name: audio dtype: string - name: image dtype: string - name: text dtype: string - name: video dtype: string splits: - name: train num_bytes: 2096934 num_examples: 561 download_size: 705525 dataset_size: 2096934 - config_name: codetrans_dl features: - name: anchor struct: - name: audio dtype: string - name: image dtype: string - name: text dtype: string - name: video dtype: string - name: positive struct: - name: audio dtype: string - name: image dtype: string - name: text dtype: string - name: video dtype: string - name: negative struct: - name: audio dtype: string - name: image dtype: string - name: text dtype: string - name: video dtype: string splits: - name: train num_bytes: 2253663 num_examples: 564 download_size: 218049 dataset_size: 2253663 - config_name: cosqa features: - name: anchor struct: - name: audio dtype: string - name: image dtype: string - name: text dtype: string - name: video dtype: string - name: positive struct: - name: audio dtype: string - name: image dtype: string - name: text dtype: string - name: video dtype: string - name: negative struct: - name: audio dtype: string - name: image dtype: string - name: text dtype: string - name: video dtype: string splits: - name: train num_bytes: 13319991 num_examples: 19604 download_size: 5148589 dataset_size: 13319991 - config_name: default features: - name: anchor struct: - name: audio dtype: string - name: image dtype: string - name: text dtype: string - name: video dtype: string - name: positive struct: - name: audio dtype: string - name: image dtype: string - name: text dtype: string - name: video dtype: string - name: negative struct: - name: audio dtype: string - name: image dtype: string - name: text dtype: string - name: video dtype: string splits: - name: CodeSearchNet_ccr num_bytes: 934440183 num_examples: 908224 - name: stackoverflow_qa num_bytes: 77912761 num_examples: 13951 - name: codefeedback_mt num_bytes: 419524571 num_examples: 53106 - name: cosqa num_bytes: 13319991 num_examples: 19604 - name: CodeSearchNet num_bytes: 1176524415 num_examples: 908224 - name: codetrans_dl num_bytes: 2253663 num_examples: 564 - name: synthetic_text2sql num_bytes: 39155309 num_examples: 100000 - name: codefeedback_st num_bytes: 538589300 num_examples: 125220 - name: apps num_bytes: 16793283 num_examples: 5000 - name: codetrans_contest num_bytes: 2096934 num_examples: 561 download_size: 1161466860 dataset_size: 3220610410 - config_name: stackoverflow_qa features: - name: anchor struct: - name: audio dtype: string - name: image dtype: string - name: text dtype: string - name: video dtype: string - name: positive struct: - name: audio dtype: string - name: image dtype: string - name: text dtype: string - name: video dtype: string - name: negative struct: - name: audio dtype: string - name: image dtype: string - name: text dtype: string - name: video dtype: string splits: - name: train num_bytes: 77912761 num_examples: 13951 download_size: 36569644 dataset_size: 77912761 - config_name: synthetic_text2sql features: - name: anchor struct: - name: audio dtype: string - name: image dtype: string - name: text dtype: string - name: video dtype: string - name: positive struct: - name: audio dtype: string - name: image dtype: string - name: text dtype: string - name: video dtype: string - name: negative struct: - name: audio dtype: string - name: image dtype: string - name: text dtype: string - name: video dtype: string splits: - name: train num_bytes: 39155309 num_examples: 100000 download_size: 12352213 dataset_size: 39155309 configs: - config_name: CodeSearchNet data_files: - split: train path: CodeSearchNet/train-* - config_name: CodeSearchNet_ccr data_files: - split: train path: CodeSearchNet_ccr/train-* - config_name: apps data_files: - split: train path: apps/train-* - config_name: codefeedback_mt data_files: - split: train path: codefeedback_mt/train-* - config_name: codefeedback_st data_files: - split: train path: codefeedback_st/train-* - config_name: codetrans_contest data_files: - split: train path: codetrans_contest/train-* - config_name: codetrans_dl data_files: - split: train path: codetrans_dl/train-* - config_name: cosqa data_files: - split: train path: cosqa/train-* - config_name: default data_files: - split: CodeSearchNet_ccr path: data/CodeSearchNet_ccr-* - split: stackoverflow_qa path: data/stackoverflow_qa-* - split: codefeedback_mt path: data/codefeedback_mt-* - split: cosqa path: data/cosqa-* - split: CodeSearchNet path: data/CodeSearchNet-* - split: codetrans_dl path: data/codetrans_dl-* - split: synthetic_text2sql path: data/synthetic_text2sql-* - split: codefeedback_st path: data/codefeedback_st-* - split: apps path: data/apps-* - split: codetrans_contest path: data/codetrans_contest-* - config_name: stackoverflow_qa data_files: - split: train path: stackoverflow_qa/train-* - config_name: synthetic_text2sql data_files: - split: train path: synthetic_text2sql/train-* ---

数据集信息: - 配置名称:CodeSearchNet 特征字段: - 锚定样本(anchor):结构体,包含音频(audio)、图像(image)、文本(text)、视频(video),数据类型(dtype)均为字符串 - 正样本(positive):结构体,包含音频(audio)、图像(image)、文本(text)、视频(video),数据类型(dtype)均为字符串 - 负样本(negative):结构体,包含音频(audio)、图像(image)、文本(text)、视频(video),数据类型(dtype)均为字符串 数据集划分: - 划分名称:train 字节数:1176524415 样本数量:908224 下载大小:341621693 数据集总大小:1176524415 - 配置名称:CodeSearchNet_ccr 特征字段: - 锚定样本(anchor):结构体,包含音频(audio)、图像(image)、文本(text)、视频(video),数据类型(dtype)均为字符串 - 正样本(positive):结构体,包含音频(audio)、图像(image)、文本(text)、视频(video),数据类型(dtype)均为字符串 - 负样本(negative):结构体,包含音频(audio)、图像(image)、文本(text)、视频(video),数据类型(dtype)均为字符串 数据集划分: - 划分名称:train 字节数:934440183 样本数量:908224 下载大小:335574430 数据集总大小:934440183 - 配置名称:apps 特征字段: - 锚定样本(anchor):结构体,包含音频(audio)、图像(image)、文本(text)、视频(video),数据类型(dtype)均为字符串 - 正样本(positive):结构体,包含音频(audio)、图像(image)、文本(text)、视频(video),数据类型(dtype)均为字符串 - 负样本(negative):结构体,包含音频(audio)、图像(image)、文本(text)、视频(video),数据类型(dtype)均为字符串 数据集划分: - 划分名称:train 字节数:16793283 样本数量:5000 下载大小:4886304 数据集总大小:16793283 - 配置名称:codefeedback_mt 特征字段: - 锚定样本(anchor):结构体,包含音频(audio)、图像(image)、文本(text)、视频(video),数据类型(dtype)均为字符串 - 正样本(positive):结构体,包含音频(audio)、图像(image)、文本(text)、视频(video),数据类型(dtype)均为字符串 - 负样本(negative):结构体,包含音频(audio)、图像(image)、文本(text)、视频(video),数据类型(dtype)均为字符串 数据集划分: - 划分名称:train 字节数:419524571 样本数量:53106 下载大小:182541632 数据集总大小:419524571 - 配置名称:codefeedback_st 特征字段: - 锚定样本(anchor):结构体,包含音频(audio)、图像(image)、文本(text)、视频(video),数据类型(dtype)均为字符串 - 正样本(positive):结构体,包含音频(audio)、图像(image)、文本(text)、视频(video),数据类型(dtype)均为字符串 - 负样本(negative):结构体,包含音频(audio)、图像(image)、文本(text)、视频(video),数据类型(dtype)均为字符串 数据集划分: - 划分名称:train 字节数:538589300 样本数量:125220 下载大小:241848781 数据集总大小:538589300 - 配置名称:codetrans_contest 特征字段: - 锚定样本(anchor):结构体,包含音频(audio)、图像(image)、文本(text)、视频(video),数据类型(dtype)均为字符串 - 正样本(positive):结构体,包含音频(audio)、图像(image)、文本(text)、视频(video),数据类型(dtype)均为字符串 - 负样本(negative):结构体,包含音频(audio)、图像(image)、文本(text)、视频(video),数据类型(dtype)均为字符串 数据集划分: - 划分名称:train 字节数:2096934 样本数量:561 下载大小:705525 数据集总大小:2096934 - 配置名称:codetrans_dl 特征字段: - 锚定样本(anchor):结构体,包含音频(audio)、图像(image)、文本(text)、视频(video),数据类型(dtype)均为字符串 - 正样本(positive):结构体,包含音频(audio)、图像(image)、文本(text)、视频(video),数据类型(dtype)均为字符串 - 负样本(negative):结构体,包含音频(audio)、图像(image)、文本(text)、视频(video),数据类型(dtype)均为字符串 数据集划分: - 划分名称:train 字节数:2253663 样本数量:564 下载大小:218049 数据集总大小:2253663 - 配置名称:cosqa 特征字段: - 锚定样本(anchor):结构体,包含音频(audio)、图像(image)、文本(text)、视频(video),数据类型(dtype)均为字符串 - 正样本(positive):结构体,包含音频(audio)、图像(image)、文本(text)、视频(video),数据类型(dtype)均为字符串 - 负样本(negative):结构体,包含音频(audio)、图像(image)、文本(text)、视频(video),数据类型(dtype)均为字符串 数据集划分: - 划分名称:train 字节数:13319991 样本数量:19604 下载大小:5148589 数据集总大小:13319991 - 配置名称:default 特征字段: - 锚定样本(anchor):结构体,包含音频(audio)、图像(image)、文本(text)、视频(video),数据类型(dtype)均为字符串 - 正样本(positive):结构体,包含音频(audio)、图像(image)、文本(text)、视频(video),数据类型(dtype)均为字符串 - 负样本(negative):结构体,包含音频(audio)、图像(image)、文本(text)、视频(video),数据类型(dtype)均为字符串 数据集划分: - 划分名称:CodeSearchNet_ccr 字节数:934440183 样本数量:908224 - 划分名称:stackoverflow_qa 字节数:77912761 样本数量:13951 - 划分名称:codefeedback_mt 字节数:419524571 样本数量:53106 - 划分名称:cosqa 字节数:13319991 样本数量:19604 - 划分名称:CodeSearchNet 字节数:1176524415 样本数量:908224 - 划分名称:codetrans_dl 字节数:2253663 样本数量:564 - 划分名称:synthetic_text2sql 字节数:39155309 样本数量:100000 - 划分名称:codefeedback_st 字节数:538589300 样本数量:125220 - 划分名称:apps 字节数:16793283 样本数量:5000 - 划分名称:codetrans_contest 字节数:2096934 样本数量:561 下载大小:1161466860 数据集总大小:3220610410 - 配置名称:stackoverflow_qa 特征字段: - 锚定样本(anchor):结构体,包含音频(audio)、图像(image)、文本(text)、视频(video),数据类型(dtype)均为字符串 - 正样本(positive):结构体,包含音频(audio)、图像(image)、文本(text)、视频(video),数据类型(dtype)均为字符串 - 负样本(negative):结构体,包含音频(audio)、图像(image)、文本(text)、视频(video),数据类型(dtype)均为字符串 数据集划分: - 划分名称:train 字节数:77912761 样本数量:13951 下载大小:36569644 数据集总大小:77912761 - 配置名称:synthetic_text2sql 特征字段: - 锚定样本(anchor):结构体,包含音频(audio)、图像(image)、文本(text)、视频(video),数据类型(dtype)均为字符串 - 正样本(positive):结构体,包含音频(audio)、图像(image)、文本(text)、视频(video),数据类型(dtype)均为字符串 - 负样本(negative):结构体,包含音频(audio)、图像(image)、文本(text)、视频(video),数据类型(dtype)均为字符串 数据集划分: - 划分名称:train 字节数:39155309 样本数量:100000 下载大小:12352213 数据集总大小:39155309 配置项: - 配置名称:CodeSearchNet 数据文件: - 划分:train 路径:CodeSearchNet/train-* - 配置名称:CodeSearchNet_ccr 数据文件: - 划分:train 路径:CodeSearchNet_ccr/train-* - 配置名称:apps 数据文件: - 划分:train 路径:apps/train-* - 配置名称:codefeedback_mt 数据文件: - 划分:train 路径:codefeedback_mt/train-* - 配置名称:codefeedback_st 数据文件: - 划分:train 路径:codefeedback_st/train-* - 配置名称:codetrans_contest 数据文件: - 划分:train 路径:codetrans_contest/train-* - 配置名称:codetrans_dl 数据文件: - 划分:train 路径:codetrans_dl/train-* - 配置名称:cosqa 数据文件: - 划分:train 路径:cosqa/train-* - 配置名称:default 数据文件: - 划分:CodeSearchNet_ccr 路径:data/CodeSearchNet_ccr-* - 划分:stackoverflow_qa 路径:data/stackoverflow_qa-* - 划分:codefeedback_mt 路径:data/codefeedback_mt-* - 划分:cosqa 路径:data/cosqa-* - 划分:CodeSearchNet 路径:data/CodeSearchNet-* - 划分:codetrans_dl 路径:data/codetrans_dl-* - 划分:synthetic_text2sql 路径:data/synthetic_text2sql-* - 划分:codefeedback_st 路径:data/codefeedback_st-* - 划分:apps 路径:data/apps-* - 划分:codetrans_contest 路径:data/codetrans_contest-* - 配置名称:stackoverflow_qa 数据文件: - 划分:train 路径:stackoverflow_qa/train-* - 配置名称:synthetic_text2sql 数据文件: - 划分:train 路径:synthetic_text2sql/train-*
提供机构:
trumancai
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作