five

zeio/baneks

收藏
Hugging Face2023-10-12 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/zeio/baneks
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含从几个VK社交网络社区解析的anekdotes(笑话或轶事)。由于数据集定期更新,因此没有固定的条目数量。数据集有三个配置:inflated(透明配置,对源数据引入最小更改)、censored(与inflated相同,但相同文本的条目被分组和聚合)、default(与censored相同,但在最初被审查的情况下,粗俗词汇被替换为其推断的原始形式)。每个数据集条目包括文本、发布时间、ID、点赞数、浏览数、访问时间和来源社区。
提供机构:
zeio
原始信息汇总

数据集卡片 for baneks

数据集描述

数据集摘要

该数据集包含从几个VK社交网络社区解析的轶事。由于数据集定期更新,因此没有固定的条目数量,请保持关注。

数据集提供三种配置:

  • inflated - 透明配置,对源数据引入最小的更改;
  • censored - 与inflated相同,但具有相同文本的条目被分组和聚合;
  • default - 与censored相同,但在最初被审查的情况下,用推断的原始形式替换亵渎性词汇。

数据集结构

数据实例

以下是数据集中的一个条目示例:

json { "text": "- Папа, а кто такие алкоголики? - Ну, сынок.. Вот, видишь - четыре гендера стоят? А алкоголику кажется, что там восемь гендеров - Пап, там два гендера.", "published": "16-09-2023 01:38", "id": 497393, "n-likes": 13, "n-views": 804, "accessed": "16-09-2023 01:51", "source": "anekdotikategoriib" }

数据字段

每个数据集条目包含以下字段:

  • text - 轶事的文本表示;
  • published - 相应帖子的发布日期,格式为DD-MM-YYYY hh:mm
  • id - 相应帖子的ID;
  • n-likes - 相应帖子在访问日期之前收到的点赞数;
  • n-views - 相应帖子在访问日期之前收到的浏览数;
  • accessed - 相应帖子的访问日期,格式为DD-MM-YYYY hh:mm
  • source - 相应帖子发布的社区名称。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作