five

JonaszPotoniec/anonimowe-polish-stories

收藏
Hugging Face2024-02-15 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/JonaszPotoniec/anonimowe-polish-stories
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含从anonimowe wyzwania网站抓取的所有(28k)匿名波兰故事,这些故事由匿名用户提交,并包含社区评分。故事内容多样,可能包含强烈语言或性暗示。数据集旨在帮助模型生成不那么严格、企业化、无聊或学术化的文本。

该数据集包含从anonimowe wyzwania网站抓取的所有(28k)匿名波兰故事,这些故事由匿名用户提交,并包含社区评分。故事内容多样,可能包含强烈语言或性暗示。数据集旨在帮助模型生成不那么严格、企业化、无聊或学术化的文本。
提供机构:
JonaszPotoniec
原始信息汇总

数据集概述

数据集信息

  • 特征:
    • points: 数据类型为 int64
    • story: 数据类型为 string
  • 分割:
    • train: 字节数为 33017836,样本数为 27798
  • 下载大小: 22463377 字节
  • 数据集大小: 33017836 字节
  • 配置:
    • default: 数据文件路径为 data/train-*
  • 许可证: MIT
  • 任务类别: 文本生成
  • 语言: 波兰语
  • 标签: 不适合所有观众
  • 易读名称: Anonimowe wyzwania
  • 大小类别: 10K<n<100K

数据集描述

该数据集包含从 anonimowe wyzwania 网站于一月份收集的所有 28k 个匿名波兰语故事。这些故事由匿名用户提交,包含社区评分,可用于过滤。故事内容多样,有些悲伤,有些幽默。尽管数量庞大,但大多数由年轻人创作,有助于模型避免显得严肃、企业化、枯燥或学术化。默认排序基于社区评分。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作