Tilde MODEL Corpus (Tilde Multilingual Open Data for European Languages)
收藏OpenDataLab2026-05-31 更新2024-05-09 收录
下载链接:
https://opendatalab.org.cn/OpenDataLab/Tilde_MODEL_Corpus
下载链接
链接失效反馈官方服务:
资源简介:
Tilde MODEL Corpus 是一个针对欧洲语言的多语言语料库——尤其专注于较小的语言。收集的资源已被清理、对齐并格式化为语料库标准 TMX 格式,可用于开发新的语言技术产品和服务。它包含超过 1000 万个多语言开放数据段。这些数据是从允许免费使用和重复使用其内容的网站以及公共部门网站收集的。
The Tilde MODEL Corpus is a multilingual corpus focused on European languages, with a special emphasis on less-resourced languages. The collected resources have been cleaned, aligned, and formatted in the TMX (Translation Memory eXchange) standard corpus format, which is suitable for developing new language technology products and services. It contains over 10 million multilingual open data segments. This data was gathered from websites that allow free use and reuse of their content, as well as public sector websites.
提供机构:
OpenDataLab
创建时间:
2022-08-16
搜集汇总
数据集介绍

背景与挑战
背景概述
Tilde MODEL Corpus 是一个专注于欧洲语言特别是小语种的多语言语料库,包含超过1000万个经过清理和对齐的数据段,数据来源于可自由使用的网站及公共部门。该语料库采用TMX格式,旨在支持语言技术产品和服务的开发。
以上内容由遇见数据集搜集并总结生成



