ZurichNLP/mediomatix-raw
收藏Hugging Face2026-03-21 更新2025-09-13 收录
下载链接:
https://hf-mirror.com/datasets/ZurichNLP/mediomatix-raw
下载链接
链接失效反馈官方服务:
资源简介:
Mediomatix语料库的一部分,包含罗曼什语五种方言的学校教科书文本数据,适用于研究目的。数据集分为训练集、验证集、测试集,以及一个额外的no_surmiran集(针对非rm-surmiran方言)。每个数据点包括文本ID、唯一ID、文本内容、HTML标记、章节名称和书籍编码。
A part of the Mediomatix corpus, containing schoolbook text data for five Romansh dialects, intended for research purposes. The dataset is split into training, validation, test sets, and an additional no_surmiran set (for dialects other than rm-surmiran). Each data point includes a text ID, unique ID, text content, HTML markup, chapter name, and book code.
提供机构:
ZurichNLP



