dim/habr_prompts_5k
收藏Hugging Face2023-09-25 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/dim/habr_prompts_5k
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: solution_short_llama2
dtype: string
- name: id
dtype: int64
- name: language
dtype: string
- name: url
dtype: string
- name: title
dtype: string
- name: text_markdown
dtype: string
- name: text_html
dtype: string
- name: author
dtype: string
- name: original_author
dtype: string
- name: original_url
dtype: string
- name: lead_html
dtype: string
- name: lead_markdown
dtype: string
- name: type
dtype: string
- name: time_published
dtype: int64
- name: statistics
struct:
- name: commentsCount
dtype: int64
- name: favoritesCount
dtype: int64
- name: readingCount
dtype: int64
- name: score
dtype: int64
- name: votesCount
dtype: int64
- name: votesCountMinus
dtype: int64
- name: votesCountPlus
dtype: int64
- name: labels
sequence: string
- name: hubs
sequence: string
- name: flows
sequence: string
- name: tags
sequence: string
- name: reading_time
dtype: int64
- name: format
dtype: string
- name: complexity
dtype: string
- name: comments
struct:
- name: author
sequence: string
- name: children
sequence:
sequence: int64
- name: id
sequence: int64
- name: level
sequence: int64
- name: message_html
sequence: string
- name: message_markdown
sequence: string
- name: parent_id
sequence: int64
- name: score
sequence: int64
- name: time_published
sequence: int64
- name: votes
sequence: int64
- name: readingCount
dtype: int64
- name: prompts
dtype: string
splits:
- name: train
num_bytes: 1032739347
num_examples: 5000
download_size: 495188038
dataset_size: 1032739347
---
# Dataset Card for "habr_prompts_5k"
[More Information needed](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)
提供机构:
dim
原始信息汇总
数据集概述
数据集信息
特征
- solution_short_llama2: 类型为字符串。
- id: 类型为64位整数。
- language: 类型为字符串。
- url: 类型为字符串。
- title: 类型为字符串。
- text_markdown: 类型为字符串。
- text_html: 类型为字符串。
- author: 类型为字符串。
- original_author: 类型为字符串。
- original_url: 类型为字符串。
- lead_html: 类型为字符串。
- lead_markdown: 类型为字符串。
- type: 类型为字符串。
- time_published: 类型为64位整数。
- statistics: 结构体,包含以下字段:
- commentsCount: 类型为64位整数。
- favoritesCount: 类型为64位整数。
- readingCount: 类型为64位整数。
- score: 类型为64位整数。
- votesCount: 类型为64位整数。
- votesCountMinus: 类型为64位整数。
- votesCountPlus: 类型为64位整数。
- labels: 序列,类型为字符串。
- hubs: 序列,类型为字符串。
- flows: 序列,类型为字符串。
- tags: 序列,类型为字符串。
- reading_time: 类型为64位整数。
- format: 类型为字符串。
- complexity: 类型为字符串。
- comments: 结构体,包含以下字段:
- author: 序列,类型为字符串。
- children: 序列的序列,类型为64位整数。
- id: 序列,类型为64位整数。
- level: 序列,类型为64位整数。
- message_html: 序列,类型为字符串。
- message_markdown: 序列,类型为字符串。
- parent_id: 序列,类型为64位整数。
- score: 序列,类型为64位整数。
- time_published: 序列,类型为64位整数。
- votes: 序列,类型为64位整数。
- readingCount: 类型为64位整数。
- prompts: 类型为字符串。
数据分割
- train: 包含5000个样本,占用1032739347字节。
数据集大小
- 下载大小: 495188038字节。
- 数据集大小: 1032739347字节。



