alexandrainst/scandi-reddit-filtered

Name: alexandrainst/scandi-reddit-filtered
Creator: alexandrainst
Published: 2024-04-17 12:34:27
License: 暂无描述

Hugging Face2024-04-17 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/alexandrainst/scandi-reddit-filtered

下载链接

链接失效反馈

官方服务：

资源简介：

ScandiRedditFiltered是一个手动筛选和后处理的语料库，包含来自ScandiReddit的评论。该数据集的主要用途是用于文本到语音（TTS）模型的训练。数据集包含丹麦语（da）的句子，每个数据实例包括句子、用户名、保留标记和索引。数据集的创建理由是斯堪的纳维亚语言缺乏开源社交媒体TTS数据集，原始数据通过PushShift收集。数据集由The Alexandra Institute的Anders Jess Pedersen维护，并采用CC0 1.0许可证。

提供机构：

alexandrainst

原始信息汇总

数据集卡片 ScandiRedditFiltered

数据集描述

数据集概述

ScandiRedditFiltered 是一个手动筛选和后处理的语料库，包含来自 ScandiReddit 的评论。该筛选后的句子主要用于文本到语音（TTS）模型。

支持的任务和排行榜

该数据集旨在用于训练语言模型，目前没有活跃的排行榜。

语言

数据集提供丹麦语（da）版本。

数据集结构

数据实例

数据集中的一个示例如下： json { "sentence": "Bergen er ødelagt. Det er ikke moro mer.", "username": "alexandra_0", "keep": "y", "index": 2 }

数据字段

所有分割的数据字段相同：

sentence: 字符串特征。
username: 字符串特征。
keep: 字符串特征。
index: 整数特征。

数据集创建

筛选理由

斯堪的纳维亚语言没有开放源代码的社交媒体TTS数据集。

源数据

原始Reddit数据通过 PushShift 收集。

附加信息

数据集策展人

Anders Jess Pedersen 来自 The Alexandra Institute 策展了此数据集。

许可信息

数据集根据 CC0 1.0 许可进行许可。

5,000+

优质数据集

54 个

任务类型

进入经典数据集