DERMIT-Corpus
收藏github2024-02-08 更新2024-05-31 收录
下载链接:
https://github.com/eyldlv/DERMIT-Corpus
下载链接
链接失效反馈官方服务:
资源简介:
一个包含德语、罗曼什语和意大利语的多语言平行语料库,以JSON文件形式按年份提供,包含三种语言组合的平行句子数据。
A multilingual parallel corpus containing German, Romansh, and Italian, provided in JSON files organized by year, including parallel sentence data for the three language combinations.
创建时间:
2023-01-21
原始信息汇总
DERMIT-Corpus 概述
数据集描述
DERMIT-Corpus 是一个包含德语、罗曼什语和意大利语的多语言平行语料库。
数据格式
- 文件类型:JSON 文件,每年一个文件。
- 平行句子文件:以制表符分隔的文件,包含三种语言组合的平行句子。
语言组合统计
| 组合 | 句子数量 | 词数(德语-罗曼什语/罗曼什语-意大利语) | 词型(德语-罗曼什语/罗曼什语-意大利语) |
|---|---|---|---|
| DE-RM | 106091 | 1864886, 2377547 | 97385, 50869 |
| DE-IT | 103441 | 1848214, 2219378 | 96859, 58050 |
| RM-IT | 102757 | 2302374, 2165287 | 50014, 57642 |
版权信息
- 版权归属:格劳宾登州政府
- 使用许可:允许下载,禁止商业使用
金标准数据集
- 内容:600个德语-罗曼什语平行句子,手动标注了词对齐信息。
引用信息
若使用此语料库或金标准数据集,请引用以下论文: bibtex @inproceedings{dolev-2023-mbert, title = "Does m{BERT} understand {R}omansh? Evaluating word embeddings using word alignment.", author = "Dolev, Eyal Liron", editor = {Ghorbel, Hatem and Sokhn, Maria and Cieliebak, Mark and H{"u}rlimann, Manuela and de Salis, Emmanuel and Guerne, Jonathan}, booktitle = "Proceedings of the 8th edition of the Swiss Text Analytics Conference", month = jun, year = "2023", address = "Neuchatel, Switzerland", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/2023.swisstext-1.5", pages = "41--53", }
搜集汇总
数据集介绍

构建方式
DERMIT-Corpus数据集构建于多语言平行语料库的基础上,涵盖了德语、罗曼什语和意大利语三种语言。该数据集以JSON文件形式呈现,每年一个文件,包含了三种语言组合的平行句子:德语-罗曼什语(DE-RM)、德语-意大利语(DE-IT)以及罗曼什语-意大利语(RM-IT)。此外,数据集还包含了一个由600个德语-罗曼什语平行句子组成的黄金标准集,这些句子经过人工标注,用于词对齐任务。
特点
DERMIT-Corpus数据集的特点在于其多语言平行句子的丰富性,涵盖了德语、罗曼什语和意大利语三种语言的多种组合。数据集中每种语言组合的句子数量均超过10万条,且包含了大量的词汇类型,展示了语言的多样性和复杂性。黄金标准集的引入为词对齐任务提供了高质量的标注数据,进一步提升了数据集的实用性和研究价值。
使用方法
使用DERMIT-Corpus数据集时,研究人员可以通过JSON文件访问每年的平行语料,或通过制表符分隔的文件获取特定语言组合的平行句子。黄金标准集可用于评估词对齐模型的性能,或作为训练数据的一部分。在使用该数据集时,需遵守版权声明,确保非商业用途,并引用相关论文以尊重数据集作者的贡献。
背景与挑战
背景概述
DERMIT-Corpus是一个多语言平行语料库,涵盖了德语、罗曼什语和意大利语三种语言。该数据集由瑞士格劳宾登州政府发布的新闻稿构建而成,旨在支持多语言自然语言处理研究,特别是跨语言词对齐和机器翻译任务。数据集的核心研究问题在于评估多语言预训练模型(如mBERT)在处理低资源语言(如罗曼什语)时的表现。该数据集于2023年由Eyal Liron Dolev等研究人员在瑞士文本分析会议上首次发布,其研究成果为多语言模型在低资源语言环境下的应用提供了重要参考。
当前挑战
DERMIT-Corpus在构建和应用过程中面临多重挑战。首先,罗曼什语作为一种低资源语言,其语料稀缺且标注难度较大,这对数据集的构建质量和规模提出了较高要求。其次,跨语言词对齐任务需要精确的语义匹配,尤其是在语言结构和词汇差异较大的情况下,这对标注的准确性和一致性构成了挑战。此外,数据集的版权限制和商业使用禁令也在一定程度上限制了其广泛应用。尽管数据集提供了高质量的金标准标注,但在实际应用中,如何有效利用这些标注数据提升模型性能仍需进一步探索。
常用场景
经典使用场景
在跨语言自然语言处理研究中,DERMIT-Corpus作为一个多语言平行语料库,广泛应用于机器翻译、跨语言信息检索以及多语言词嵌入模型的训练与评估。其包含的德语、罗曼什语和意大利语平行句子为研究者提供了丰富的语言对比数据,特别是在低资源语言处理领域,罗曼什语的数据尤为珍贵。
实际应用
在实际应用中,DERMIT-Corpus被用于开发多语言翻译工具,特别是在瑞士多语言环境中,支持德语、罗曼什语和意大利语之间的互译。此外,该数据集还被用于构建跨语言搜索引擎,帮助用户在多语言文档中快速定位相关信息,提升信息获取效率。
衍生相关工作
基于DERMIT-Corpus,研究者们开展了多项经典工作,例如跨语言词嵌入模型的性能评估与优化,以及低资源语言机器翻译系统的开发。特别是Eyal Liron Dolev的研究,利用该数据集评估了mBERT模型在罗曼什语中的表现,为多语言模型的改进提供了重要参考。
以上内容由遇见数据集搜集并总结生成



