five

ZurichNLP/mediomatix-raw

收藏
Hugging Face2026-03-21 更新2025-09-13 收录
下载链接:
https://hf-mirror.com/datasets/ZurichNLP/mediomatix-raw
下载链接
链接失效反馈
官方服务:
资源简介:
Mediomatix语料库的一部分,包含罗曼什语五种方言的学校教科书文本数据,适用于研究目的。数据集分为训练集、验证集、测试集,以及一个额外的no_surmiran集(针对非rm-surmiran方言)。每个数据点包括文本ID、唯一ID、文本内容、HTML标记、章节名称和书籍编码。

A part of the Mediomatix corpus, containing schoolbook text data for five Romansh dialects, intended for research purposes. The dataset is split into training, validation, test sets, and an additional no_surmiran set (for dialects other than rm-surmiran). Each data point includes a text ID, unique ID, text content, HTML markup, chapter name, and book code.
提供机构:
ZurichNLP
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作