alexandrainst/scandi-reddit-filtered
收藏Hugging Face2024-04-17 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/alexandrainst/scandi-reddit-filtered
下载链接
链接失效反馈官方服务:
资源简介:
ScandiRedditFiltered是一个手动筛选和后处理的语料库,包含来自ScandiReddit的评论。该数据集的主要用途是用于文本到语音(TTS)模型的训练。数据集包含丹麦语(da)的句子,每个数据实例包括句子、用户名、保留标记和索引。数据集的创建理由是斯堪的纳维亚语言缺乏开源社交媒体TTS数据集,原始数据通过PushShift收集。数据集由The Alexandra Institute的Anders Jess Pedersen维护,并采用CC0 1.0许可证。
提供机构:
alexandrainst
原始信息汇总
数据集卡片 ScandiRedditFiltered
数据集描述
数据集概述
ScandiRedditFiltered 是一个手动筛选和后处理的语料库,包含来自 ScandiReddit 的评论。该筛选后的句子主要用于文本到语音(TTS)模型。
支持的任务和排行榜
该数据集旨在用于训练语言模型,目前没有活跃的排行榜。
语言
数据集提供丹麦语(da)版本。
数据集结构
数据实例
数据集中的一个示例如下: json { "sentence": "Bergen er ødelagt. Det er ikke moro mer.", "username": "alexandra_0", "keep": "y", "index": 2 }
数据字段
所有分割的数据字段相同:
sentence: 字符串特征。username: 字符串特征。keep: 字符串特征。index: 整数特征。
数据集创建
筛选理由
斯堪的纳维亚语言没有开放源代码的社交媒体TTS数据集。
源数据
原始Reddit数据通过 PushShift 收集。
附加信息
数据集策展人
Anders Jess Pedersen 来自 The Alexandra Institute 策展了此数据集。
许可信息
数据集根据 CC0 1.0 许可 进行许可。



