smugri4-data
收藏数据集概述
数据集基本信息
- 数据集名称: lingrel2025
- 许可证: CC-BY-NC-SA 4.0
- 主页: 未提供
- 仓库: 未提供
- 论文: 未提供
- 联系人: 未提供
数据集描述
数据集摘要
该数据集是标准爱沙尼亚语的许多亲属语言(即芬兰-乌戈尔语系的语言和方言,不包括芬兰语和匈牙利语)的单语和多语文本语料库的集合。多语语料库包含作为翻译对等语的其他语言,其中也包括爱沙尼亚语、芬兰语和匈牙利语。
其目标是为语言技术,首先是机器翻译,提供数据。
语言列表
芬兰-乌戈尔语系亲属语言
| ISO 639-3 | 语言 | 词元数量 |
|---|---|---|
| fit | 托尔讷河谷芬兰语 (Meänkieli) | 8750 |
| fkv | 克文语 (Kven Finnish) | 55506 |
| izh | 英格里亚语 (= Izhorian) | 249093 |
| kca | 汉特语 | 97611 |
| koi | 科米-彼尔米亚克语 | 382071 |
| kpv | 科米-兹梁语 | 18194967 |
| krl | 卡累利阿语 (Proper Karelian) | 981158 |
| liv | 利沃尼亚语 | 15035 |
| lud | 卢迪语 | 291293 |
| mdf | 莫克沙语 | 822508 |
| mhr | 草原马里语 | 6360111 |
| mns | 曼西语 | 263280 |
| mrj | 山地马里语 | 1494257 |
| myv | 埃尔齐亚语 | 2526670 |
| olo | 利维-卡累利阿语 (Olonets) | 1245935 |
| sjd | 基尔丁萨米语 | 1338 |
| sju | 于默萨米语 | 619 |
| sma | 南萨米语 | 1703932 |
| sme | 北萨米语 | 21540241 |
| smj | 吕勒萨米语 | 950311 |
| smn | 伊纳里萨米语 | 1217515 |
| sms | 斯科尔特萨米语 | 380250 |
| udm | 乌德穆尔特语 | 1294508 |
| vep | 维普斯语 | 2383752 |
| vot | 沃提克语 | 48107 |
| vro | 沃罗语 | 3266531 |
爱沙尼亚语方言
| 方言 | 词元数量 |
|---|---|
| hiiu | 9095 |
| kihnu | 66001 |
| mulgi | 26895 |
| ranna | 9887 |
| setu | 283598 |
翻译对等语语言
| ISO 639-3 | 语言 | 词元数量 |
|---|---|---|
| deu | 德语 | 5729 |
| eng | 英语 | 26160 |
| est | 爱沙尼亚语 | 1937069 |
| fin | 芬兰语 | 1690382 |
| fra | 法语 | 6300 |
| hun | 匈牙利语 | 1573 |
| lav | 拉脱维亚语 | 1529 |
| nno | 挪威尼诺斯克语 | 1734 |
| nob | 挪威博克马尔语 | 5466 |
| nor | 挪威语 | 4425857 |
| rus | 俄语 | 23503423 |
| swe | 瑞典语 | 6002 |
数据集结构
- 数据格式: 文本以JSON格式表示。结构、键和值在 pydantic_for_lingrel2025.py 中定义。
- 文本材料类型: 数据集区分具有不同粒度和连贯性的语言单元集合:
- 不相关的单词和短语(例如词典或短语手册)
- 不相关的句子(例如词典或短语手册)
- 连贯的段落和句子序列(例如带有结构标记的小说)
- 没有明确拆分为句子的连贯文本
- 元信息: 每个文件都包含文本本身以及详细说明该文本所有信息的元信息。
- 多语言性: 上述任何类型都可能适用于单语或多语源(即带有翻译的文本)。
- 附加信息: 除了粒度和单/多语性,数据集还包含关于方言和正字法的信息,以及关于原始资料(作者、标题、出版年份等)和来源(语料库、网页、文件名等)的信息。
- 文件组织: 数据按目录组织。文件路径名包含以下部分:语言ISO代码 / "mono" 或 "multi" / 来源语料库名称的专名 / 来源文件名的专名。
数据集创建
- 数据处理: 原始文本已转换为JSON。根据源数据的性质,分为四类(如上所述)。无法映射到任何这些类别的源数据被排除。
- 语言验证: 在某些情况下,使用 GlotLID 额外检查了源文本的语言,错误的语言文本被排除。
- 正字法: 正字法未经检查或修改。
源数据
该数据集基于各种已有的出版物和语料库构建:corpus_source.md
许可信息
所有原始文本内容均根据 知识共享许可协议(根据来源不同,可能是 CC-BY、CC-BY-SA、CC-BY-NC 或 CC-BY-NC-SA)或同等许可协议许可,或属于公共领域。
引用信息
@InProceedings{smugri4mt, title={SMUGRI-4: Machine-Translating Low-resource Finno-Ugric Languages and Dialects with Care and Caution}, authors={Lisa Yankovskaya and Mark Fishel and Elena Markus and Fedor Rozhanskiy and Heiki-Jaan Kaalep and Idaliia Fedotova and Ilia Moshnikov and Janek Vaab and Joshua Wilbur and Liisa Rätsep and Marili Tomingas and Michael Rie{ss}ler and Nikolay Kuznetsov and Taido Purason and Valts Ernv{s}treits }, year={2025}, booktitle={Proceedings of EACL, the 19th Conference of the European Chapter of the Association for Computational Linguistics: System Demonstrations}, pages={submitted}, address={Rabat, Morocco} }
贡献者
以下人员通过收集或处理原始数据做出了贡献: Britt-Kathleen Mere, Aleksei Ivanov, Tarmo Vaino, Annely-Maria Liivas, Kaire Koljal, Lisa Yankovskaya, Heiki-Jaan Kaalep, Mark Fišel




