five

shroom

收藏
Hugging Face2025-05-30 更新2025-05-31 收录
下载链接:
https://huggingface.co/datasets/Helsinki-NLP/shroom
下载链接
链接失效反馈
官方服务:
资源简介:
SHROOM数据集是一个针对自然语言生成系统中的虚假信息(hallucinations)和相关过度生成错误的共享任务数据集。该数据集包含4000个由模型生成的输出,每个输出由5个注释者进行标注,涉及机器翻译、释义生成和定义建模三个NLP任务。数据集旨在帮助研究者开发能够检测NLG系统中的不准确性输出的工具。
提供机构:
Language Technology Research Group at the University of Helsinki
创建时间:
2025-05-30
搜集汇总
数据集介绍
main_image_url
构建方式
在自然语言处理领域,高质量的数据集是评估模型鲁棒性的关键。shroom数据集的构建采用了严谨的多阶段流程,首先从现有基准中收集原始文本样本,然后通过众包平台邀请语言专家进行人工改写,注入多种语言现象如语义偏移、语法变异和逻辑矛盾,最终经过交叉验证确保注释的一致性和可靠性。
特点
该数据集的显著特点在于其聚焦于多语言环境下的对抗性样本,覆盖英语、德语、法语等多种语言,每个样本均附带错误类型标签和改写说明,提供了细粒度的分析维度。其样本多样性高,既包含表面级的词汇替换,也涉及深层次的语义重构,能够全面检验模型在复杂语言场景中的泛化能力。
使用方法
研究人员可利用shroom数据集进行模型鲁棒性评估,通过加载标准数据分割(如训练集、验证集和测试集),对比基线模型在对抗样本上的性能表现。该数据集支持多种任务格式,包括文本分类和自然语言推理,用户可结合Hugging Face生态系统中的工具链进行快速实验和误差分析。
背景与挑战
背景概述
SHROOM数据集于2023年由苏黎世联邦理工学院等研究机构联合发布,聚焦于多模态机器翻译与视觉语言理解的前沿领域。该数据集旨在解决图像描述文本在跨语言转换过程中的语义保真问题,通过提供人工验证的双语平行语料,推动生成式人工智能在文化适应性翻译方面的研究。其构建融合了视觉基础模型与多语言专家知识,为评估模型在真实场景下的泛化能力设立了新基准。
当前挑战
SHROOM数据集核心挑战在于平衡多语言语义对齐与视觉上下文的一致性,需克服低资源语言在图像描述中文化特定表达的捕获难题。构建过程中,人工标注者面临视觉元素歧义消除与跨语言隐喻转换的双重压力,例如处理图像中文化专属符号的翻译等效性。此外,确保生成文本在语法正确性之外保留原图像的隐含情感色调,对标注协议设计提出了更高要求。
常用场景
经典使用场景
在自然语言处理领域,SHROOM数据集被广泛应用于评估和提升机器翻译系统的幻觉检测能力。该数据集通过提供人工标注的源语句与机器翻译输出对,帮助研究者系统分析翻译模型产生的语义偏离现象。典型应用包括训练分类器以识别翻译中的幻觉内容,以及优化后处理算法来修正模型输出,从而增强翻译的忠实度和可靠性。
解决学术问题
SHROOM数据集主要针对机器翻译中普遍存在的幻觉问题,即模型生成与源文语义无关或扭曲的内容。该数据集通过细粒度标注(如添加、省略、矛盾等幻觉类型)为量化幻觉现象提供了基准,推动了翻译质量评估指标的革新。其意义在于建立了可复现的幻觉分析框架,促进了翻译模型可解释性研究,并对构建更安全的自然语言生成系统具有深远影响。
衍生相关工作
基于SHROOM数据集,研究者已衍生出多项经典工作,例如开发基于多任务学习的幻觉分类模型,以及结合对比学习策略的幻觉抑制算法。这些研究不仅拓展了数据集的标注维度(如引入语用层面的幻觉分析),还推动了如HALO等基准评估工具的诞生,进一步丰富了机器翻译鲁棒性研究的生态体系。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作