five

FrancophonIA/MTNT

收藏
Hugging Face2025-03-29 更新2025-04-12 收录
下载链接:
https://hf-mirror.com/datasets/FrancophonIA/MTNT
下载链接
链接失效反馈
官方服务:
资源简介:
MTNT是一个包含英文、法文和日文三种语言的Reddit评论数据集,包含从英文翻译到法文、日文,以及从法文、日文翻译到英文的双语平行语料。数据集的特别之处在于文本包含噪音,例如打字错误、语法错误和代码切换等。数据集分为单语部分和双语部分,其中双语部分包含训练集、验证集和测试集。单语数据提供带或不带分词的原始文本格式。

MTNT is a collection of Reddit comments in English, French, and Japanese, translated from and to English. The dataset is characterized by noisy text, including typos, grammar errors, code switching, etc. The dataset is divided into monolingual and bilingual parts, with the bilingual part including training, validation, and test sets. The monolingual data is provided in both raw text format with and without tokenization.
提供机构:
FrancophonIA
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作