zeio/baneks

Name: zeio/baneks
Creator: zeio
Published: 2023-10-12 18:39:40
License: 暂无描述

Hugging Face2023-10-12 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/zeio/baneks

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含从几个VK社交网络社区解析的anekdotes（笑话或轶事）。由于数据集定期更新，因此没有固定的条目数量。数据集有三个配置：inflated（透明配置，对源数据引入最小更改）、censored（与inflated相同，但相同文本的条目被分组和聚合）、default（与censored相同，但在最初被审查的情况下，粗俗词汇被替换为其推断的原始形式）。每个数据集条目包括文本、发布时间、ID、点赞数、浏览数、访问时间和来源社区。

提供机构：

zeio

原始信息汇总

数据集卡片 for baneks

数据集描述

数据集摘要

该数据集包含从几个VK社交网络社区解析的轶事。由于数据集定期更新，因此没有固定的条目数量，请保持关注。

数据集提供三种配置：

inflated - 透明配置，对源数据引入最小的更改；
censored - 与inflated相同，但具有相同文本的条目被分组和聚合；
default - 与censored相同，但在最初被审查的情况下，用推断的原始形式替换亵渎性词汇。

数据集结构

数据实例

以下是数据集中的一个条目示例：

json { "text": "- Папа, а кто такие алкоголики? - Ну, сынок.. Вот, видишь - четыре гендера стоят? А алкоголику кажется, что там восемь гендеров - Пап, там два гендера.", "published": "16-09-2023 01:38", "id": 497393, "n-likes": 13, "n-views": 804, "accessed": "16-09-2023 01:51", "source": "anekdotikategoriib" }

数据字段

每个数据集条目包含以下字段：

text - 轶事的文本表示；
published - 相应帖子的发布日期，格式为DD-MM-YYYY hh:mm；
id - 相应帖子的ID；
n-likes - 相应帖子在访问日期之前收到的点赞数；
n-views - 相应帖子在访问日期之前收到的浏览数；
accessed - 相应帖子的访问日期，格式为DD-MM-YYYY hh:mm；
source - 相应帖子发布的社区名称。

5,000+

优质数据集

54 个

任务类型

进入经典数据集