Crowdsourced Piedmontese Parallel Corpus
收藏arXiv2026-02-16 更新2026-02-18 收录
下载链接:
http://hdl.handle.net/11372/LRT-6086
下载链接
链接失效反馈官方服务:
资源简介:
该数据集由查尔斯大学团队构建,收录145条意大利语-皮埃蒙特语平行句对,源文本来自Flores+多语言语料库,并通过母语者自然拼写风格翻译构建,辅以人工词汇对齐标注。数据源自众包翻译任务,覆盖非标准化拼写的皮埃蒙特语真实使用场景,包含3003个对齐词汇跨度。其核心价值在于为低资源濒危语言的机器翻译、分词分析和主题分类等NLP任务提供基准测试资源,尤其关注语言模型对非标准正字法的适应能力。
This dataset was constructed by a team from Charles University, containing 145 Italian-Piedmontese parallel sentence pairs. The source texts are derived from the Flores+ multilingual corpus, and the translations were produced in the natural spelling style of native speakers, supplemented with manual word alignment annotations. The data originates from crowdsourced translation tasks, covers real-world usage scenarios of Piedmontese with non-standardized spelling, and includes 3003 aligned word spans. Its core value lies in providing benchmark resources for NLP tasks such as machine translation, word segmentation analysis, and topic classification for low-resource endangered languages, with a particular focus on the adaptability of language models to non-standard orthography.
提供机构:
查尔斯大学·数学与物理学院·形式与应用语言学研究所
创建时间:
2026-02-16
搜集汇总
数据集介绍
构建方式
在濒危语言资源稀缺的背景下,Crowdsourced Piedmontese Parallel Corpus采用众包策略构建。研究者通过在线问卷招募皮埃蒙特语使用者,要求他们以自然拼写风格将意大利语句子翻译为皮埃蒙特语,而非遵循标准化正字法。源句子选自Flores+多语言平行语料库,最终收集了145对意大利语-皮埃蒙特语平行句,并辅以人工词对齐标注。这一过程特别关注了语言的实际使用变体,通过同行评审机制过滤低质量翻译,确保了数据的真实性与多样性。
特点
该数据集的核心特征在于其非标准正字法的自然语言表达。与基于维基百科等标准化资源的现有语料不同,它捕捉了皮埃蒙特语书写中常见的拼写变异,如不一致的变音符号使用和个性化拼写习惯。数据集包含精细的词级对齐信息,为跨语言研究提供了结构基础。此外,数据集附带了丰富的标注者社会语言学元数据,包括年龄、语言熟练度和正字法观念,为语言变异研究提供了宝贵语境。这些特点使其成为评估语言模型对非标准语言变体处理能力的独特资源。
使用方法
该数据集主要用于评估大语言模型在皮埃蒙特语上的性能。研究者可将其应用于词符化均衡性分析,衡量模型处理低资源语言的计算效率;在主题分类任务中测试模型的语言理解能力;在机器翻译任务中评估双向翻译质量,尤其关注向皮埃蒙特语生成的挑战。数据集提供的词对齐信息支持跨语言对齐研究。使用时应考虑其规模限制,可采用零样本评估设置,或结合意大利语作为枢轴语言改进翻译结果。数据集的自然拼写特性要求评估指标能容忍正字法变异,避免对表面形式差异过度惩罚。
背景与挑战
背景概述
在濒危语言保护与自然语言处理技术交叉领域,针对非标准正字法语言资源的构建日益受到关注。Crowdsourced Piedmontese Parallel Corpus数据集由查尔斯大学形式与应用语言学研究所的Gianluca Vico和Jindřich Libovický于2026年创建,旨在解决皮埃蒙特语——一种意大利西北部濒危罗曼语——在自然书写中存在的正字法变异问题。该数据集基于Flores+多语言平行语料库,通过众包方式收集了145对意大利语-皮埃蒙特语句子对,并辅以人工词汇对齐标注。其核心研究在于探索当前大语言模型对非标准化书写变体的处理能力,为低资源语言在分词均衡性、主题分类和机器翻译等任务上的性能评估提供了关键基准。
当前挑战
该数据集主要应对两大挑战:在领域问题层面,它致力于解决非标准正字法濒危语言的机器翻译与理解难题,特别是皮埃蒙特语因其正字法不统一导致的模型生成困难,以及从皮埃蒙特语到高资源语言翻译性能的不对称性。在构建过程中,挑战体现在众包标注的设计与实施:需引导母语者采用自然书写风格而非标准化拼写,同时克服键盘输入特殊字符的技术障碍;此外,样本规模有限且标注者群体存在年龄与语言背景偏差,难以全面捕捉语言的地域与社会变异,这为数据代表性与模型评估的普适性带来了固有局限。
常用场景
经典使用场景
在濒危语言保护与计算语言学的交叉领域,皮埃蒙特语平行语料库为评估大型语言模型在非标准正字法文本上的性能提供了基准。该数据集通过众包方式收集了145对意大利语-皮埃蒙特语句子,其独特价值在于保留了说话者自然书写风格中的拼写变体,而非遵循标准化正字法。研究者利用该资源系统评测了多种大语言模型在分词均衡性、主题分类和机器翻译任务上的表现,揭示了模型对低资源语言的实际处理能力与局限。
解决学术问题
该数据集有效解决了濒危语言自然语言处理中的核心学术问题。首先,它量化了皮埃蒙特语相较于高资源罗曼语的分词惩罚,为语言模型的计算效率研究提供了实证依据。其次,通过对比模型在主题分类任务中接近意大利语、法语和英语的表现,验证了跨语言理解能力的迁移边界。更重要的是,数据集揭示了机器翻译的不对称性:模型能够将皮埃蒙特语译为高资源语言,但反向生成仍面临挑战,这为低资源语言生成模型的优化指明了方向。
衍生相关工作
该数据集催生了多项经典衍生研究。基于其构建的评估框架被扩展至其他意大利地区语言(如利古里亚语、伦巴第语)的模型评测中。其众包数据收集方法启发了AlpiLinK项目对阿尔卑斯地区口语语料的系统采集。在技术层面,数据集支撑的tokenization parity分析推动了多语言分词器的优化研究,而机器翻译的不对称性发现则促进了低资源语言生成中pivot翻译策略的改进。这些工作共同深化了对非标准正字法语言处理机制的理解。
以上内容由遇见数据集搜集并总结生成



