zeio/batch
收藏数据集概述
数据集描述
- 语言: 俄语, 英语
- 许可证: Apache 2.0
- 标签: 社交网络, 不适合所有观众
- 注释创建者: 众包
- 语言创建者: 众包
- 数据集名称: batch
- 数据集大小: 100K<n<1M
- 任务类别: 文本生成, 文本分类, 问答
数据集摘要
该数据集包含从2ch档案库的/b/板块解析的线程。数据集的示例读取和使用在此Colab笔记本中提供。
数据集结构
数据集以三种格式表示:压缩, 未压缩和口语:
- 未压缩格式是默认且最简单的格式 - 在此形式中,数据集的内容组织在
txt文件中,这些文件被分组到threads文件夹中的集群中。分组是根据git的限制进行的,即不能在一个目录中拥有超过10000个文件。因此,每个集群包含10000个项目(最后一个集群可能包含较少的元素)。每个集群名称的格式为${START_PAGE}-${END_PAGE},其中${START_PAGE}是档案库中第一个页面的索引,${END_PAGE}是最后一个页面的索引。 - 压缩格式比未压缩格式稍微复杂一些 - 它由一组
tar.xz文件组成,这些文件是上述txt文件的压缩集群。此表示对应于threads-compressed文件夹。 - 口语格式由
mp3文件组成,这些文件是使用交替说话者语音模式为某些线程生成的语音,即第1个帖子由第一个说话者说出,第2个帖子由第二个说话者说出,依此类推。语音是使用TTS引擎自动生成的。mp3文件位于threads-spoken-compressed文件夹中,并使用tar.xz档案进行分组,方式与compressed数据集表示中的txt文件相同。
关于threads/*/文件夹下的特定txt文件,每个项目对应于一个线程,其组织如下:
- 每个非空行对应于用户的一个帖子;
- 如果非空行跟随另一个非空行,则应将其视为对上方帖子的评论,对上方请求的回复或对问题的回答;
- 如果非空行跟随一个空行,则应将其视为讨论或主题的开始。
因此,数据集由线程组成,这些线程可以分为主题,这些主题又由帖子组成。帖子是数据集的最底层单位,不再进一步划分 - 它们应被解释为纯文本。
数据集实例
以下代码片段包含线程0000-0019/119540414的文本:
sh Всем привет. Нужна помощь богов фотошопа, на картинке надо изменить дату на 09/03/2016 и значения тесто на 86.500++ черес код елемента ебаш Опять ты, сука ебаная? Хули тебе опять надо?
СПАСИБО Размер шрифта не совпадает, але.
该线程包含两个主题,第一个主题包含3个帖子,第二个主题包含2个帖子。
因此,该数据集条目可以以以下JSON格式表示:
json { "title": "Всем привет. Нужна помощь богов фотошопа, на картинке надо изменить дату на 09/03/2016 и значения тесто на 86.500++", "topics": [ { "posts": [ { "text": "Всем привет. Нужна помощь богов фотошопа, на картинке надо изменить дату на 09/03/2016 и значения тесто на 86.500++" }, { "text": "черес код елемента ебаш" }, { "text": "Опять ты, сука ебаная? Хули тебе опять надо?" } ] }, { "posts": [ { "text": "СПАСИБО" }, { "text": "Размер шрифта не совпадает, але." } ] } ] }
数据集字段
在written配置中,数据集表示为Thread对象的列表,每个Thread对象具有一个属性topics,其中包含Topic对象的列表。每个Topic对象具有一个属性posts,指向构成Topic的Post对象的列表。每个Post对象包含一个属性text,其中包含帖子的文本表示(本质上text是html代码,没有标签和显式链接指向其他帖子;仍然可能存在以>符号为前缀的隐式链接指向其他帖子)。作为附加字段,每个实例具有一个属性title,等同于线程的主要帖子内容。
在spoken配置中,结构基本相同,但某些Thread对象具有附加属性speech,其中包含线程的口语表示。



