antolin/csn-interduplication
收藏Hugging Face2024-05-16 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/antolin/csn-interduplication
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: id_within_dataset
dtype: int64
- name: snippet
dtype: string
- name: tokens
sequence: string
- name: language
dtype: string
- name: nl
dtype: string
- name: is_duplicated
dtype: bool
splits:
- name: biased
num_bytes: 1719316711.5968738
num_examples: 829463
- name: unbiased
num_bytes: 1726255388.871626
num_examples: 829463
download_size: 1377686253
dataset_size: 3445572100.4684997
configs:
- config_name: default
data_files:
- split: biased
path: data/biased-*
- split: unbiased
path: data/unbiased-*
---
提供机构:
antolin
原始信息汇总
数据集概述
数据集特征
- id_within_dataset: 数据类型为 int64
- snippet: 数据类型为 string
- tokens: 数据类型为 sequence of string
- language: 数据类型为 string
- nl: 数据类型为 string
- is_duplicated: 数据类型为 bool
数据集分割
- biased:
- 示例数量: 829463
- 字节数: 1719316711.5968738
- unbiased:
- 示例数量: 829463
- 字节数: 1726255388.871626
数据集大小
- 下载大小: 1377686253
- 数据集总大小: 3445572100.4684997
配置文件
- default:
- biased: 路径为 data/biased-*
- unbiased: 路径为 data/unbiased-*



