NyanNyanovich/nyan_documents
收藏Hugging Face2023-12-28 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/NyanNyanovich/nyan_documents
下载链接
链接失效反馈官方服务:
资源简介:
Nyan documents数据集是从2022年3月到2023年12月期间从[НЯН](https://t.me/nyannews) Telegram频道抓取的文档。该数据集包括来自100多个不同Telegram新闻频道的文档。
The Nyan documents dataset consists of documents scraped from the [НЯН](https://t.me/nyannews) Telegram channel between March 2022 and December 2023. This dataset includes documents from over 100 distinct Telegram news channels.
提供机构:
NyanNyanovich
原始信息汇总
数据集概述
数据集信息
特征
- url: 字符串类型
- channel_id: 字符串类型
- post_id: 64位整数类型
- views: 64位整数类型
- pub_time: 64位整数类型
- text: 字符串类型
- fetch_time: 64位整数类型
- images: 字符串序列
- links: 字符串序列
- videos: 字符串序列
- reply_to: 字符串类型
- forward_from: 字符串类型
- channel_title: 字符串类型
- has_obscene: 布尔类型
- patched_text: 字符串类型
- groups: 结构体类型,包含以下字段:
- economy: 字符串类型
- main: 字符串类型
- tech: 字符串类型
- issue: 字符串类型
- language: 字符串类型
数据分割
- train: 包含3,508,000,056字节,1,672,028个样本
数据集大小
- 下载大小: 1,827,333,867字节
- 数据集大小: 3,508,000,056字节
许可证
- cc-by-4.0
任务类别
- text-generation
语言
- ru
数据集名称
- Nyan Documents
数据集规模
- 1M<n<10M



