zeio/baneks
收藏Hugging Face2023-10-12 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/zeio/baneks
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含从几个VK社交网络社区解析的anekdotes(笑话或轶事)。由于数据集定期更新,因此没有固定的条目数量。数据集有三个配置:inflated(透明配置,对源数据引入最小更改)、censored(与inflated相同,但相同文本的条目被分组和聚合)、default(与censored相同,但在最初被审查的情况下,粗俗词汇被替换为其推断的原始形式)。每个数据集条目包括文本、发布时间、ID、点赞数、浏览数、访问时间和来源社区。
提供机构:
zeio
原始信息汇总
数据集卡片 for baneks
数据集描述
数据集摘要
该数据集包含从几个VK社交网络社区解析的轶事。由于数据集定期更新,因此没有固定的条目数量,请保持关注。
数据集提供三种配置:
- inflated - 透明配置,对源数据引入最小的更改;
- censored - 与inflated相同,但具有相同文本的条目被分组和聚合;
- default - 与censored相同,但在最初被审查的情况下,用推断的原始形式替换亵渎性词汇。
数据集结构
数据实例
以下是数据集中的一个条目示例:
json { "text": "- Папа, а кто такие алкоголики? - Ну, сынок.. Вот, видишь - четыре гендера стоят? А алкоголику кажется, что там восемь гендеров - Пап, там два гендера.", "published": "16-09-2023 01:38", "id": 497393, "n-likes": 13, "n-views": 804, "accessed": "16-09-2023 01:51", "source": "anekdotikategoriib" }
数据字段
每个数据集条目包含以下字段:
text- 轶事的文本表示;published- 相应帖子的发布日期,格式为DD-MM-YYYY hh:mm;id- 相应帖子的ID;n-likes- 相应帖子在访问日期之前收到的点赞数;n-views- 相应帖子在访问日期之前收到的浏览数;accessed- 相应帖子的访问日期,格式为DD-MM-YYYY hh:mm;source- 相应帖子发布的社区名称。



