five

zeio/batch

收藏
Hugging Face2023-12-13 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/zeio/batch
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含从2ch存档的/b/板块解析的线程。数据集以三种形式表示:未压缩、压缩和语音。未压缩形式以txt文件组织,压缩形式为tar.xz文件,语音形式为mp3文件。每个线程由多个主题组成,每个主题包含多个帖子。帖子是数据集的最小单位,以纯文本形式存在。

This dataset contains threads parsed from the /b/ board archived on 2channel. It is provided in three distinct formats: uncompressed, compressed, and audio. The uncompressed format is organized into TXT files, the compressed format is packaged as tar.xz archives, and the audio format adopts MP3 files. Each thread is composed of multiple topics, and each topic encompasses multiple posts. Posts represent the smallest unit of the dataset, stored in plain text.
提供机构:
zeio
原始信息汇总

数据集概述

数据集描述

  • 语言: 俄语, 英语
  • 许可证: Apache 2.0
  • 标签: 社交网络, 不适合所有观众
  • 注释创建者: 众包
  • 语言创建者: 众包
  • 数据集名称: batch
  • 数据集大小: 100K<n<1M
  • 任务类别: 文本生成, 文本分类, 问答

数据集摘要

该数据集包含从2ch档案库/b/板块解析的线程。数据集的示例读取和使用在此Colab笔记本中提供。

数据集结构

数据集以三种格式表示:压缩, 未压缩口语

  1. 未压缩格式是默认且最简单的格式 - 在此形式中,数据集的内容组织在txt文件中,这些文件被分组到threads文件夹中的集群中。分组是根据git的限制进行的,即不能在一个目录中拥有超过10000个文件。因此,每个集群包含10000个项目(最后一个集群可能包含较少的元素)。每个集群名称的格式为${START_PAGE}-${END_PAGE},其中${START_PAGE}档案库中第一个页面的索引,${END_PAGE}是最后一个页面的索引。
  2. 压缩格式比未压缩格式稍微复杂一些 - 它由一组tar.xz文件组成,这些文件是上述txt文件的压缩集群。此表示对应于threads-compressed文件夹
  3. 口语格式由mp3文件组成,这些文件是使用交替说话者语音模式为某些线程生成的语音,即第1个帖子由第一个说话者说出,第2个帖子由第二个说话者说出,依此类推。语音是使用TTS引擎自动生成的。mp3文件位于threads-spoken-compressed文件夹中,并使用tar.xz档案进行分组,方式与compressed数据集表示中的txt文件相同。

关于threads/*/文件夹下的特定txt文件,每个项目对应于一个线程,其组织如下:

  1. 每个非空行对应于用户的一个帖子;
  2. 如果非空行跟随另一个非空行,则应将其视为对上方帖子的评论,对上方请求的回复或对问题的回答
  3. 如果非空行跟随一个空行,则应将其视为讨论或主题的开始。

因此,数据集由线程组成,这些线程可以分为主题,这些主题又由帖子组成。帖子是数据集的最底层单位,不再进一步划分 - 它们应被解释为纯文本。

数据集实例

以下代码片段包含线程0000-0019/119540414的文本:

sh Всем привет. Нужна помощь богов фотошопа, на картинке надо изменить дату на 09/03/2016 и значения тесто на 86.500++ черес код елемента ебаш Опять ты, сука ебаная? Хули тебе опять надо?

СПАСИБО Размер шрифта не совпадает, але.

该线程包含两个主题,第一个主题包含3个帖子,第二个主题包含2个帖子。

因此,该数据集条目可以以以下JSON格式表示:

json { "title": "Всем привет. Нужна помощь богов фотошопа, на картинке надо изменить дату на 09/03/2016 и значения тесто на 86.500++", "topics": [ { "posts": [ { "text": "Всем привет. Нужна помощь богов фотошопа, на картинке надо изменить дату на 09/03/2016 и значения тесто на 86.500++" }, { "text": "черес код елемента ебаш" }, { "text": "Опять ты, сука ебаная? Хули тебе опять надо?" } ] }, { "posts": [ { "text": "СПАСИБО" }, { "text": "Размер шрифта не совпадает, але." } ] } ] }

数据集字段

written配置中,数据集表示为Thread对象的列表,每个Thread对象具有一个属性topics,其中包含Topic对象的列表。每个Topic对象具有一个属性posts,指向构成TopicPost对象的列表。每个Post对象包含一个属性text,其中包含帖子的文本表示(本质上texthtml代码,没有标签和显式链接指向其他帖子;仍然可能存在以>符号为前缀的隐式链接指向其他帖子)。作为附加字段,每个实例具有一个属性title,等同于线程的主要帖子内容。
spoken配置中,结构基本相同,但某些Thread对象具有附加属性speech,其中包含线程的口语表示。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作