DDSC/reddit-da
收藏Hugging Face2022-10-27 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/DDSC/reddit-da
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含1,908,887条丹麦语的Reddit帖子,这些帖子通过FastText检测筛选出来。数据集适用于语言建模任务,每条数据包含一个唯一的ID和一段丹麦语的Reddit评论。数据集以MIT许可证发布,并由[@saattrupdan](https://github.com/saattrupdan)贡献到Hugging Face Hub。
提供机构:
DDSC
原始信息汇总
数据集概述
数据集描述
数据集总结
- 包含1,908,887条来自Reddit的丹麦语帖子。
- 数据来源于Reddit dump,并使用FastText筛选出丹麦语内容。
语言
- 数据集语言:丹麦语(da)
数据集结构
数据实例
- 每个实例包含丹麦语的Reddit评论及一个唯一ID。
数据字段
id(str): 唯一标识符。text(str): 简短的Reddit评论。
附加信息
许可信息
- 数据集遵循MIT许可。



