five

NyanNyanovich/nyan_documents

收藏
Hugging Face2023-12-28 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/NyanNyanovich/nyan_documents
下载链接
链接失效反馈
官方服务:
资源简介:
Nyan documents数据集是从2022年3月到2023年12月期间从[НЯН](https://t.me/nyannews) Telegram频道抓取的文档。该数据集包括来自100多个不同Telegram新闻频道的文档。

The Nyan documents dataset consists of documents scraped from the [НЯН](https://t.me/nyannews) Telegram channel between March 2022 and December 2023. This dataset includes documents from over 100 distinct Telegram news channels.
提供机构:
NyanNyanovich
原始信息汇总

数据集概述

数据集信息

特征

  • url: 字符串类型
  • channel_id: 字符串类型
  • post_id: 64位整数类型
  • views: 64位整数类型
  • pub_time: 64位整数类型
  • text: 字符串类型
  • fetch_time: 64位整数类型
  • images: 字符串序列
  • links: 字符串序列
  • videos: 字符串序列
  • reply_to: 字符串类型
  • forward_from: 字符串类型
  • channel_title: 字符串类型
  • has_obscene: 布尔类型
  • patched_text: 字符串类型
  • groups: 结构体类型,包含以下字段:
    • economy: 字符串类型
    • main: 字符串类型
    • tech: 字符串类型
  • issue: 字符串类型
  • language: 字符串类型

数据分割

  • train: 包含3,508,000,056字节,1,672,028个样本

数据集大小

  • 下载大小: 1,827,333,867字节
  • 数据集大小: 3,508,000,056字节

许可证

  • cc-by-4.0

任务类别

  • text-generation

语言

  • ru

数据集名称

  • Nyan Documents

数据集规模

  • 1M<n<10M
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作