five

News-crawl

收藏
data.statmt.org2019-01-01 更新2025-01-17 收录
下载链接:
https://data.statmt.org/news-crawl/
下载链接
链接失效反馈
资源简介:
The News-crawl corpus comprises news texts in 59 different languages. The texts are crawled from online newspaper resources. The corpus is utilized for the Workshop on Machine Translation (WMT) series of shared tasks.

新闻爬取语料库(News-crawl corpus)涵盖59种不同语言的新闻文本,所有文本均从在线报纸资源爬取获取。该语料库被用于机器翻译研讨会(Workshop on Machine Translation,WMT)系列共享任务。
提供机构:
UKRI
创建时间:
2019-01-01
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
News-crawl是一个多语言新闻数据集,按语言代码组织成多个文件夹,覆盖包括英语、中文、德语等在内的广泛语言。数据集包含README文档和可能的附加文档,最近更新于2025年2月,适用于机器翻译和跨语言自然语言处理研究。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作