Iker/Reddit-Post-Translation

Name: Iker/Reddit-Post-Translation
Creator: Iker
Published: 2024-06-03 09:47:34
License: 暂无描述

Hugging Face2024-06-03 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/Iker/Reddit-Post-Translation

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个用于机器翻译的Reddit帖子翻译数据集，包含约15K条从SophieTr/reddit_clean中检索的Reddit帖子，并使用GPT-4将其翻译成西班牙语。数据集的特点是专注于互联网上的非正式文本，特别是Reddit帖子，以弥补大多数机器翻译数据集基于正式文本的不足。数据集包含id、英语文本（en）和西班牙语文本（es）三个字段，训练集大小为46,255,558字节，包含15,203个样本。需要注意的是，数据集可能包含偏见、NSFW内容、粗俗语言等不安全内容。

提供机构：

Iker

原始信息汇总

数据集概述

基本信息

名称: Reddit Post Translation
语言: 英语（en）、西班牙语（es）
许可证: Apache-2.0
任务类别: 翻译
标签: Reddit, 合成数据

数据集特征

id: 整数类型（int64）
en: 字符串类型（string），代表英语文本
es: 字符串类型（string），代表西班牙语文本

数据集分割

训练集:
- 样本数量: 15203
- 数据大小: 46255558字节
- 下载大小: 28613258字节

警告

数据集包含来自Reddit的随机帖子，可能包含偏激的政治观点、不适当内容、粗鲁语言及其他不安全内容。

5,000+

优质数据集

54 个

任务类型

进入经典数据集