lum-ai/metal-python-synthetic-explanations-gpt4-raw
收藏Hugging Face2023-12-03 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/lum-ai/metal-python-synthetic-explanations-gpt4-raw
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: id
dtype: string
- name: chunk_id
dtype: string
- name: model_name
dtype: string
- name: temperature
dtype: int64
- name: max_tokens
dtype: float64
- name: use_raw_code
dtype: bool
- name: description
dtype: string
- name: created_at
dtype: timestamp[ns]
- name: raw_text
dtype: string
- name: text
dtype: string
- name: code
dtype: string
- name: kind
dtype: string
- name: start_text
dtype: int64
- name: stop_text
dtype: int64
- name: start_code
dtype: int64
- name: stop_code
dtype: int64
- name: domain
dtype: string
- name: full_name
dtype: string
- name: license
struct:
- name: key
dtype: string
- name: name
dtype: string
- name: node_id
dtype: string
- name: spdx_id
dtype: string
- name: url
dtype: string
- name: stargazers_count
dtype: int64
- name: filename
dtype: string
- name: chunk_type
dtype: string
splits:
- name: train
num_bytes: 2771369932.206809
num_examples: 300092
- name: validation
num_bytes: 167612875.8429717
num_examples: 18272
- name: test
num_bytes: 324461765.3020142
num_examples: 35131
download_size: 75623364
dataset_size: 3263444573.351795
---
# Dataset Card for "metal-python-synthetic-explanations-gpt4-raw"
[More Information needed](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)
提供机构:
lum-ai
原始信息汇总
数据集概述
特征信息
数据集包含以下特征:
- id: 字符串类型
- chunk_id: 字符串类型
- model_name: 字符串类型
- temperature: 64位整数类型
- max_tokens: 64位浮点数类型
- use_raw_code: 布尔类型
- description: 字符串类型
- created_at: 时间戳类型(纳秒精度)
- raw_text: 字符串类型
- text: 字符串类型
- code: 字符串类型
- kind: 字符串类型
- start_text: 64位整数类型
- stop_text: 64位整数类型
- start_code: 64位整数类型
- stop_code: 64位整数类型
- domain: 字符串类型
- full_name: 字符串类型
- license: 结构类型,包含以下字段:
- key: 字符串类型
- name: 字符串类型
- node_id: 字符串类型
- spdx_id: 字符串类型
- url: 字符串类型
- stargazers_count: 64位整数类型
- filename: 字符串类型
- chunk_type: 字符串类型
数据分割
数据集分为以下几个部分:
- train: 包含300092个样本,总大小为2771369932.206809字节
- validation: 包含18272个样本,总大小为167612875.8429717字节
- test: 包含35131个样本,总大小为324461765.3020142字节
数据集大小
- 下载大小: 75623364字节
- 数据集总大小: 3263444573.351795字节



