SwissGov-RSD
收藏Hugging Face2025-11-26 更新2025-11-27 收录
下载链接:
https://huggingface.co/datasets/ZurichNLP/SwissGov-RSD
下载链接
链接失效反馈官方服务:
资源简介:
SwissGov-RSD是一个自然主义、人工注释的文档级别的跨语种数据集,用于标记层面的语义差异识别(RSD)。它包含了224对多语种平行瑞士政府文档,涉及英语与德语、英语与法语、英语与意大利语之间的对照,每个标记都标注有细致的语义差异标签(0-5)。该数据集针对的是由于翻译错误、异步更新或明确表述而导致的跨语种内容差异的实际场景。
提供机构:
University of Zurich, Department of Computational Linguistics
创建时间:
2025-11-26
原始信息汇总
SwissGov-RSD 数据集概述
数据集基本信息
- 许可证: CC-BY-4.0
- 支持语言: 德语(de)、法语(fr)、意大利语(it)、英语(en)
- 配置: 德语(de)、意大利语(it)、法语(fr)
数据集描述
SwissGov-RSD 是一个自然、人工标注、文档级、跨语言的数据集,用于词级语义差异识别(RSD)。该数据集包含:
- 224个多语言并行的瑞士政府文档
- 文档来源:admin.ch
- 语言对:英语-德语、英语-法语、英语-意大利语
- 标注粒度:词级语义差异标签(0-5)
- 应用场景:针对因翻译错误、异步更新或显式化导致的跨语言内容差异的真实场景
数据集结构
数据规模
- 每个语言对包含224个文档对
样本结构
每个样本包含以下字段:
text_a: 文档对的英语端文本(字符串)text_b: 文档对的非英语端文本(字符串)labels_a: 英语端每个词的标签(按空格分隔)labels_b: 非英语端每个词的标签(按空格分隔)page_en: 英语语言抓取网页的URLpage_other: 非英语语言抓取网页的URLsubset: 根据语言的子集名称id: 样本ID
引用信息
- 文献引用信息:[待补充]
- BibTeX格式:[待补充]
- APA格式:[待补充]
搜集汇总
数据集介绍

构建方式
在跨语言语义分析领域,SwissGov-RSD数据集通过系统化采集瑞士政府门户网站admin.ch的多语言文档构建而成。其核心方法涵盖224组平行文档的遴选,覆盖英语与德语、法语及意大利语的三向对照体系。采用人工标注策略对每个词汇单元施加0至5级语义差异标签,确保标注粒度达到词级精度。文档来源均附带原始网页链接,为追踪内容演变提供可靠溯源基础。
特点
该数据集显著特征体现在其真实场景下的语义差异捕捉能力。文档内容源自政府实务场景,天然包含因翻译偏差、异步更新或文化适配产生的语义分歧。多段落文档级结构配合词级标注体系,既能反映宏观语境影响,又可精准定位局部语义偏移。四语言平行文本的对称设计,为跨语言语义研究提供了罕见的对照基准。
使用方法
研究者可借助text_a/text_b字段获取平行文本,通过labels_a/labels_b字段解析词汇语义差异等级。使用时需注意标签与文本的空格切分对应关系,建议结合page_en/page_other字段验证文档版本。该数据集适用于训练跨语言语义差异检测模型,亦可用于评估机器翻译一致性,各语言对可通过subset字段进行定向调用。
背景与挑战
背景概述
跨语言语义差异识别作为自然语言处理领域的前沿课题,旨在解决多语言文本对齐中的语义偏差问题。SwissGov-RSD数据集由瑞士政府机构于2023年构建,收录224组多语言平行政府文档,涵盖英语与德语、法语、意大利语三组语言对。该数据集通过人工标注在词汇层面标记0-5级语义差异,专门针对政府文档中因翻译错误、异步更新或显化表达导致的语义分歧现象,为跨语言信息检索和机器翻译质量评估提供了重要基准。
当前挑战
在语义差异识别领域,核心挑战在于区分细微的语义变化与文体差异,特别是处理政府文档中特有的术语一致性和法律效力问题。数据集构建过程中面临双重困难:多语言平行语料需要保持文档级对齐,而人工标注需克服语言学家稀缺的瓶颈;网页抓取阶段需处理动态更新的政府网站,确保多语言版本的时间同步性,同时标注体系设计需平衡细粒度标签的精确性与标注者间一致性。
常用场景
经典使用场景
在跨语言信息处理领域,SwissGov-RSD数据集为语义差异识别提供了关键支持。该数据集通过标注多语言政府文档中的词汇级语义差异,广泛应用于机器翻译质量评估、跨语言内容一致性检测等任务。研究者利用其精细的标签体系,能够深入分析翻译过程中的语义偏移现象,为自然语言处理模型的优化奠定数据基础。
实际应用
在实际应用层面,SwissGov-RSD已成为多语言政务系统质量监控的重要工具。政府机构借助该数据集开发的检测系统,能够自动识别官方文件在不同语言版本间的语义偏差,确保政策传达的准确性与一致性。这种应用不仅提升了跨国政务沟通效率,也为法律文档、国际条约等多语言文本的质量保障提供了技术范式。
衍生相关工作
基于该数据集衍生的经典研究包括跨语言语义相似度计算框架的构建。众多学者利用其标注体系开发了新型差异检测算法,这些成果进一步推动了多语言预训练模型的发展。相关研究不仅深化了对语言间语义映射规律的理解,也为构建下一代智能翻译系统提供了重要参考。
以上内容由遇见数据集搜集并总结生成



