ranWang/dedup_small
收藏Hugging Face2023-10-31 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/ranWang/dedup_small
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: path
dtype: string
- name: content_id
dtype: string
- name: detected_licenses
sequence: string
- name: license_type
dtype: string
- name: repo_name
dtype: string
- name: repo_url
dtype: string
- name: star_events_count
dtype: int64
- name: fork_events_count
dtype: int64
- name: gha_license_id
dtype: string
- name: gha_event_created_at
dtype: timestamp[us]
- name: gha_updated_at
dtype: timestamp[us]
- name: gha_language
dtype: string
- name: language
dtype: string
- name: is_generated
dtype: bool
- name: is_vendor
dtype: bool
- name: conversion_extension
dtype: string
- name: size
dtype: int64
- name: script
dtype: string
- name: script_size
dtype: int64
splits:
- name: train
num_bytes: 467606179
num_examples: 20000
download_size: 260285280
dataset_size: 467606179
---
# Dataset Card for "dedup_small"
[More Information needed](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)
---
数据集信息:
特征字段:
- 名称:path(文件路径),数据类型:字符串
- 名称:content_id(内容标识符),数据类型:字符串
- 名称:detected_licenses(检测到的许可证),数据类型:字符串序列
- 名称:license_type(许可证类型),数据类型:字符串
- 名称:repo_name(仓库名称),数据类型:字符串
- 名称:repo_url(仓库地址),数据类型:字符串
- 名称:star_events_count(星标事件计数),数据类型:64位整数
- 名称:fork_events_count(分叉事件计数),数据类型:64位整数
- 名称:gha_license_id(GitHub Actions(简称GHA)许可证ID),数据类型:字符串
- 名称:gha_event_created_at(GitHub Actions事件创建时间),数据类型:微秒级时间戳
- 名称:gha_updated_at(GitHub Actions事件更新时间),数据类型:微秒级时间戳
- 名称:gha_language(GitHub Actions语言),数据类型:字符串
- 名称:language(编程语言),数据类型:字符串
- 名称:is_generated(是否为生成内容),数据类型:布尔值
- 名称:is_vendor(是否为厂商内容),数据类型:布尔值
- 名称:conversion_extension(转换扩展名),数据类型:字符串
- 名称:size(文件大小),数据类型:64位整数
- 名称:script(脚本内容),数据类型:字符串
- 名称:script_size(脚本大小),数据类型:64位整数
划分集:
- 名称:train(训练集),字节数:467606179,样本数:20000
下载大小:260285280
数据集存储总大小:467606179
---
# 「dedup_small」数据集卡片
[需补充更多信息](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)
提供机构:
ranWang
原始信息汇总
数据集概述
数据集信息
- 数据集名称: dedup_small
- 下载大小: 260285280 字节
- 数据集大小: 467606179 字节
特征信息
- path: 字符串类型
- content_id: 字符串类型
- detected_licenses: 字符串序列
- license_type: 字符串类型
- repo_name: 字符串类型
- repo_url: 字符串类型
- star_events_count: 64位整数类型
- fork_events_count: 64位整数类型
- gha_license_id: 字符串类型
- gha_event_created_at: 微秒级时间戳类型
- gha_updated_at: 微秒级时间戳类型
- gha_language: 字符串类型
- language: 字符串类型
- is_generated: 布尔类型
- is_vendor: 布尔类型
- conversion_extension: 字符串类型
- size: 64位整数类型
- script: 字符串类型
- script_size: 64位整数类型
数据分割
- train: 包含20000个样本,总字节数为467606179字节



