Tilde MODEL Corpus (Tilde Multilingual Open Data for European Languages)

Name: Tilde MODEL Corpus (Tilde Multilingual Open Data for European Languages)
Creator: OpenDataLab
Published: 2026-05-31 10:30:22
License: 暂无描述

OpenDataLab2026-05-31 更新2024-05-09 收录

下载链接：

https://opendatalab.org.cn/OpenDataLab/Tilde_MODEL_Corpus

下载链接

链接失效反馈

官方服务：

资源简介：

Tilde MODEL Corpus 是一个针对欧洲语言的多语言语料库——尤其专注于较小的语言。收集的资源已被清理、对齐并格式化为语料库标准 TMX 格式，可用于开发新的语言技术产品和服务。它包含超过 1000 万个多语言开放数据段。这些数据是从允许免费使用和重复使用其内容的网站以及公共部门网站收集的。

The Tilde MODEL Corpus is a multilingual corpus focused on European languages, with a special emphasis on less-resourced languages. The collected resources have been cleaned, aligned, and formatted in the TMX (Translation Memory eXchange) standard corpus format, which is suitable for developing new language technology products and services. It contains over 10 million multilingual open data segments. This data was gathered from websites that allow free use and reuse of their content, as well as public sector websites.

提供机构：

OpenDataLab

创建时间：

2022-08-16

搜集汇总

数据集介绍