five

alexandrainst/scandi-reddit-filtered

收藏
Hugging Face2024-04-17 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/alexandrainst/scandi-reddit-filtered
下载链接
链接失效反馈
官方服务:
资源简介:
ScandiRedditFiltered是一个手动筛选和后处理的语料库,包含来自ScandiReddit的评论。该数据集的主要用途是用于文本到语音(TTS)模型的训练。数据集包含丹麦语(da)的句子,每个数据实例包括句子、用户名、保留标记和索引。数据集的创建理由是斯堪的纳维亚语言缺乏开源社交媒体TTS数据集,原始数据通过PushShift收集。数据集由The Alexandra Institute的Anders Jess Pedersen维护,并采用CC0 1.0许可证。
提供机构:
alexandrainst
原始信息汇总

数据集卡片 ScandiRedditFiltered

数据集描述

数据集概述

ScandiRedditFiltered 是一个手动筛选和后处理的语料库,包含来自 ScandiReddit 的评论。该筛选后的句子主要用于文本到语音(TTS)模型。

支持的任务和排行榜

该数据集旨在用于训练语言模型,目前没有活跃的排行榜。

语言

数据集提供丹麦语(da)版本。

数据集结构

数据实例

数据集中的一个示例如下: json { "sentence": "Bergen er ødelagt. Det er ikke moro mer.", "username": "alexandra_0", "keep": "y", "index": 2 }

数据字段

所有分割的数据字段相同:

  • sentence: 字符串特征。
  • username: 字符串特征。
  • keep: 字符串特征。
  • index: 整数特征。

数据集创建

筛选理由

斯堪的纳维亚语言没有开放源代码的社交媒体TTS数据集。

源数据

原始Reddit数据通过 PushShift 收集。

附加信息

数据集策展人

Anders Jess Pedersen 来自 The Alexandra Institute 策展了此数据集。

许可信息

数据集根据 CC0 1.0 许可 进行许可。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作