News-crawl

data.statmt.org2019-01-01 更新2025-01-17 收录

下载链接：

https://data.statmt.org/news-crawl/

下载链接

链接失效反馈

资源简介：

The News-crawl corpus comprises news texts in 59 different languages. The texts are crawled from online newspaper resources. The corpus is utilized for the Workshop on Machine Translation (WMT) series of shared tasks.

新闻爬取语料库（News-crawl corpus）涵盖59种不同语言的新闻文本，所有文本均从在线报纸资源爬取获取。该语料库被用于机器翻译研讨会（Workshop on Machine Translation，WMT）系列共享任务。

提供机构：

UKRI

创建时间：

2019-01-01

搜集汇总

数据集介绍

背景与挑战

背景概述

News-crawl是一个多语言新闻数据集，按语言代码组织成多个文件夹，覆盖包括英语、中文、德语等在内的广泛语言。数据集包含README文档和可能的附加文档，最近更新于2025年2月，适用于机器翻译和跨语言自然语言处理研究。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集