forePLay
收藏arXiv2024-12-23 更新2024-12-25 收录
下载链接:
http://arxiv.org/abs/2412.17533v1
下载链接
链接失效反馈官方服务:
资源简介:
forePLay是一个专门为波兰语情色内容检测设计的手动标注数据集,由NASK国家研究所创建。该数据集包含24,768条句子,涵盖了从在线小说和波兰文学作品中提取的内容,具有多维度的标注体系,包括模糊性、暴力和社会不可接受性等维度。数据集的创建过程包括从不同来源的文本中进行系统采样,并进行详细的预处理和标注,确保了数据集的多样性和代表性。该数据集主要用于开发语言感知的内容审核系统,旨在解决非英语情色内容检测的挑战,特别是在形态复杂的语言中。
forePLay is a manually annotated dataset specifically designed for Polish-language erotic content detection, created by NASK, the National Research Institute. Comprising 24,768 sentences, the dataset features content extracted from online fiction and Polish literary works, and employs a multi-dimensional annotation framework covering ambiguity, violence, social unacceptability, and other relevant dimensions. The dataset development process includes systematic sampling of texts from diverse sources, followed by rigorous preprocessing and annotation, which guarantees the dataset's diversity and representativeness. This dataset is primarily utilized for developing language-aware content moderation systems, with the goal of addressing the challenges in non-English erotic content detection, particularly in morphologically complex languages.
提供机构:
NASK国家研究所
创建时间:
2024-12-23
搜集汇总
数据集介绍

构建方式
forePLay数据集的构建过程基于对波兰语语料库的系统性采样,涵盖了来自在线小说故事库和波兰文学作品的两大主要来源。数据集包含24,768个句子,其中69%来自在线故事,31%来自文学作品。为确保多样性,数据集特别纳入了LGBTQ+相关内容的代表性样本,并通过NLTK库进行句子边界检测,保留了原始语言特征,包括非标准语言模式和拼写变体。每个句子由三名标注者独立标注,最终标签通过多数投票确定,确保了标注的可靠性和一致性。
特点
forePLay数据集的特点在于其多维度的标注体系,涵盖了模糊性、暴力和社会不可接受性等多个维度。数据集不仅包含明确的色情内容,还特别关注了模糊语境下的句子,以及涉及暴力和社会不可接受行为的内容。这种细粒度的标注方式使得数据集能够更好地捕捉色情内容的复杂性,尤其是在波兰语这种形态复杂的语言中。此外,数据集的多样性体现在其来源的广泛性,既包括网络小说,也涵盖了文学作品,确保了不同语言风格和社会背景的覆盖。
使用方法
forePLay数据集主要用于训练和评估波兰语色情内容检测模型。研究人员可以通过该数据集进行多类别分类任务,包括二分类(中性 vs. 色情)、三分类(中性、色情、模糊)以及更复杂的四分类和五分类任务。数据集特别适用于评估波兰语专用模型(如HerBERT和Polish RoBERTa)以及多语言大模型(如GPT-4o和Mixtral)在色情内容检测中的表现。通过对比不同模型在不同标签配置下的性能,研究人员可以深入探讨语言模型在处理复杂语境和模糊内容时的能力,进而为开发更精准的内容审核系统提供支持。
背景与挑战
背景概述
随着在线内容的激增,尤其是在非英语语境中,现有的内容检测工具表现出显著的局限性,迫切需要开发更为鲁棒的检测系统。为此,NASK国家研究所与独立研究人员合作,于2024年推出了forePLay数据集,这是首个专注于波兰语情色内容检测的标注数据集。该数据集包含超过24,000条标注句子,采用多维分类法,涵盖模糊性、暴力和社会不可接受性等维度。通过全面的评估,研究表明,专门针对波兰语的语言模型在处理不平衡类别时表现优于多语言模型,尤其是基于Transformer架构的模型。forePLay数据集的发布为开发具有语言感知能力的内容审核系统提供了重要框架,同时也为扩展此类能力到形态复杂的语言中提供了关键参考。
当前挑战
forePLay数据集在构建和应用过程中面临多重挑战。首先,情色内容的检测本身具有高度主观性,尤其是在波兰语这种形态复杂的语言中,语义的细微变化可能导致分类的模糊性。其次,数据集的构建过程中,标注者之间的标签差异(Human Label Variation, HLV)显著,尤其是在处理模糊类别时,标注者可能倾向于使用模糊标签来缓解不确定性,这影响了数据集的标注质量。此外,数据集的类别不平衡问题也带来了挑战,尤其是在处理暴力和社会不可接受行为等稀有类别时,模型的性能显著下降。最后,尽管波兰语专用模型在多语言模型中表现优异,但其在处理多类别分类任务时,性能随着类别数量的增加而下降,这表明在更复杂的分类任务中,模型的鲁棒性仍需进一步提升。
常用场景
经典使用场景
forePLay数据集在波兰语色情内容检测领域具有广泛的应用,特别是在构建和优化多维度分类模型时。该数据集通过提供超过24,000条带有精细标注的句子,涵盖了模糊性、暴力和社会不可接受性等多个维度,为研究人员提供了丰富的训练和测试资源。其经典使用场景包括训练和评估波兰语专用的自然语言处理模型,尤其是基于Transformer架构的模型,以提升其在处理不平衡类别数据时的表现。
实际应用
forePLay数据集在实际应用中主要用于构建和优化在线内容审核系统,特别是在波兰语社交媒体和内容平台中。通过使用该数据集训练的模型,平台能够更有效地检测和过滤色情内容,从而保护用户,尤其是未成年人,免受不当内容的影响。此外,该数据集还可用于法律合规和伦理审查,帮助平台遵守相关法律法规,确保内容的合法性和道德性。
衍生相关工作
forePLay数据集的发布推动了多个相关领域的研究工作。基于该数据集,研究人员开发了多种波兰语专用的Transformer模型,如HerBERT和Polish RoBERTa,这些模型在色情内容检测任务中表现出色。此外,该数据集还激发了关于多语言内容审核系统的研究,特别是在处理形态复杂语言时的挑战。一些衍生工作还探讨了如何在其他语言中构建类似的标注框架,以提升全球范围内的内容审核能力。
以上内容由遇见数据集搜集并总结生成



