IlyaGusev/pikabu
收藏Hugging Face2023-03-12 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/IlyaGusev/pikabu
下载链接
链接失效反馈官方服务:
资源简介:
Pikabu数据集包含来自俄罗斯网站pikabu.ru的帖子和评论,语言主要为俄语。数据集的特征包括帖子ID、标题、Markdown格式的文本、时间戳、作者ID、用户名、评分、点赞数、点踩数、URL、标签、内容块和评论等。数据集的用途是文本生成,数据集的大小在1M到10M之间。
提供机构:
IlyaGusev
原始信息汇总
Pikabu数据集概述
数据集特征
- id: 整数类型 (int64)
- title: 字符串类型 (string)
- text_markdown: 字符串类型 (string)
- timestamp: 无符号整数类型 (uint64)
- author_id: 整数类型 (int64)
- username: 字符串类型 (string)
- rating: 整数类型 (int64)
- pluses: 整数类型 (int64)
- minuses: 整数类型 (int64)
- url: 字符串类型 (string)
- tags: 字符串序列类型 (sequence: string)
- blocks: 复合类型,包含:
- data: 字符串类型 (string)
- type: 字符串类型 (string)
- comments: 复合类型,包含:
- id: 整数类型 (int64)
- timestamp: 无符号整数类型 (uint64)
- parent_id: 整数类型 (int64)
- text_markdown: 字符串类型 (string)
- text_html: 字符串类型 (string)
- images: 字符串序列类型 (sequence: string)
- rating: 整数类型 (int64)
- pluses: 整数类型 (int64)
- minuses: 整数类型 (int64)
- author_id: 整数类型 (int64)
- username: 字符串类型 (string)
数据集划分
- train:
- 数据量: 96105803658 字节
- 示例数量: 6907622
数据集大小
- 下载大小: 20196853689 字节
- 数据集大小: 96105803658 字节
任务类别
- 文本生成
语言
- 俄语
数据集大小类别
- 1M<n<10M



