Iker/Reddit-Post-Translation
收藏Hugging Face2024-06-03 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/Iker/Reddit-Post-Translation
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是一个用于机器翻译的Reddit帖子翻译数据集,包含约15K条从SophieTr/reddit_clean中检索的Reddit帖子,并使用GPT-4将其翻译成西班牙语。数据集的特点是专注于互联网上的非正式文本,特别是Reddit帖子,以弥补大多数机器翻译数据集基于正式文本的不足。数据集包含id、英语文本(en)和西班牙语文本(es)三个字段,训练集大小为46,255,558字节,包含15,203个样本。需要注意的是,数据集可能包含偏见、NSFW内容、粗俗语言等不安全内容。
该数据集是一个用于机器翻译的Reddit帖子翻译数据集,包含约15K条从SophieTr/reddit_clean中检索的Reddit帖子,并使用GPT-4将其翻译成西班牙语。数据集的特点是专注于互联网上的非正式文本,特别是Reddit帖子,以弥补大多数机器翻译数据集基于正式文本的不足。数据集包含id、英语文本(en)和西班牙语文本(es)三个字段,训练集大小为46,255,558字节,包含15,203个样本。需要注意的是,数据集可能包含偏见、NSFW内容、粗俗语言等不安全内容。
提供机构:
Iker
原始信息汇总
数据集概述
基本信息
- 名称: Reddit Post Translation
- 语言: 英语(en)、西班牙语(es)
- 许可证: Apache-2.0
- 任务类别: 翻译
- 标签: Reddit, 合成数据
数据集特征
- id: 整数类型(int64)
- en: 字符串类型(string),代表英语文本
- es: 字符串类型(string),代表西班牙语文本
数据集分割
- 训练集:
- 样本数量: 15203
- 数据大小: 46255558字节
- 下载大小: 28613258字节
警告
- 数据集包含来自Reddit的随机帖子,可能包含偏激的政治观点、不适当内容、粗鲁语言及其他不安全内容。



