antolin/bigclonebench_interduplication
收藏Hugging Face2023-12-26 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/antolin/bigclonebench_interduplication
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: tokens1
sequence: string
- name: tokens2
sequence: string
- name: label
dtype: int64
- name: is_duplicated
dtype: bool
splits:
- name: train
num_bytes: 3786674813
num_examples: 895897
- name: test
num_bytes: 1589757079
num_examples: 410871
- name: valid
num_bytes: 1807205589
num_examples: 413595
download_size: 1557856618
dataset_size: 7183637481
---
# Dataset Card for "bigclonebench_interduplication"
[More Information needed](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)
数据集信息:
特征字段:
- 名称:tokens1,类型:字符串序列
- 名称:tokens2,类型:字符串序列
- 名称:标签,数据类型:int64
- 名称:是否重复(is_duplicated),数据类型:布尔型(bool)
数据集划分:
- 训练集(train):占用字节数3786674813,样本数量895897
- 测试集(test):占用字节数1589757079,样本数量410871
- 验证集(valid):占用字节数1807205589,样本数量413595
下载大小:1557856618 字节
数据集总大小:7183637481 字节
---
# "bigclonebench_interduplication"数据集卡片
[需补充更多信息](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)
提供机构:
antolin
原始信息汇总
数据集概述
特征信息
- tokens1: 字符串序列
- tokens2: 字符串序列
- label: 整数类型 (int64)
- is_duplicated: 布尔类型 (bool)
数据分割
- 训练集 (train):
- 字节数: 3786674813
- 样本数: 895897
- 测试集 (test):
- 字节数: 1589757079
- 样本数: 410871
- 验证集 (valid):
- 字节数: 1807205589
- 样本数: 413595
数据集大小
- 下载大小: 1557856618 字节
- 数据集大小: 7183637481 字节



