MULTEXT-East
收藏OpenDataLab2026-05-24 更新2024-05-09 收录
下载链接:
https://opendatalab.org.cn/OpenDataLab/MULTEXT-East
下载链接
链接失效反馈官方服务:
资源简介:
MULTEXT-East 资源是用于语言工程研究和开发的多语言数据集。它由 (1) MULTEXT-East 形态句法规范、定义类别(词性)、它们的形态句法特征(属性和值)以及紧凑的 MSD 标记集表示组成; (2)形态句法词汇,(3)带注释的平行“1984”语料库; (4) 一些可比较的文本和语音语料库。该规范适用于以下宏语言、语言和语言变体:阿尔巴尼亚语、保加利亚语、车臣语、捷克语、大马士尼语、英语、爱沙尼亚语、匈牙利语、马其顿语、波斯语、波兰语、Resian、罗马尼亚语、俄语、塞尔维亚克罗地亚语、斯洛伐克语、斯洛文尼亚语、 Torlak 和乌克兰语,而其他资源可用于这些语言的子集。
提供机构:
OpenDataLab
创建时间:
2022-08-16
搜集汇总
数据集介绍

背景与挑战
背景概述
MULTEXT-East是一个多语言数据集,专为语言工程研究与开发设计,包含形态句法规范、词汇、带注释的平行语料库等资源。它覆盖了阿尔巴尼亚语、保加利亚语、车臣语等19种语言和语言变体,适用于相关领域的应用。
以上内容由遇见数据集搜集并总结生成



