X-Sensitive
收藏arXiv2024-11-30 更新2024-12-03 收录
下载链接:
https://huggingface.co/datasets/cardiffnlp/x_sensitive
下载链接
链接失效反馈官方服务:
资源简介:
X-Sensitive数据集是由卡迪夫大学创建的,专门用于社交媒体内容敏感性分类的综合数据集。该数据集包含8000条推文,涵盖了六个敏感类别:冲突性语言、亵渎、性显性材料、毒品相关内容、自残和垃圾邮件。数据集通过一致的检索策略和标注指南进行收集和标注,旨在解决先前研究中的不足。X-Sensitive数据集的应用领域广泛,主要用于社交媒体内容审核,旨在提高对多种敏感内容的检测准确性。
The X-Sensitive dataset, created by Cardiff University, is a comprehensive resource specifically designed for sensitive content classification of social media posts. It contains 8,000 Tweets covering six sensitive categories: offensive language, profanity, sexually explicit material, drug-related content, self-harm, and spam. The dataset was collected and annotated in accordance with a consistent retrieval strategy and annotation guidelines, aiming to address the limitations of prior research. The X-Sensitive dataset has a wide range of application scenarios, primarily used for social media content moderation, with the goal of improving the detection accuracy of various sensitive contents.
提供机构:
卡迪夫大学
创建时间:
2024-11-30
搜集汇总
数据集介绍

构建方式
X-Sensitive数据集的构建基于对社交媒体内容中敏感类别的全面覆盖,涵盖了冲突性语言、亵渎、性显式材料、毒品相关内容、自残和垃圾邮件等六个类别。通过采用一致的检索策略和标注指南,数据集的构建过程确保了数据质量的统一性。研究团队从多个社交媒体平台收集数据,并进行了细致的手动标注,以确保每个类别的准确性和一致性。此外,数据集的构建还采用了关键词扩展技术,结合词嵌入和聚类方法,以增强数据覆盖的广度和深度。
特点
X-Sensitive数据集的主要特点在于其多标签分类的复杂性和广泛性。该数据集不仅涵盖了常见的毒性语言检测,还扩展到了其他较少研究的敏感类别,如毒品相关内容和自残。数据集的多标签特性使得每条推文可以同时属于多个敏感类别,从而更真实地反映了社交媒体内容的多样性和复杂性。此外,数据集的标注过程经过严格的质量控制,确保了标注结果的可靠性和一致性。
使用方法
X-Sensitive数据集适用于多种自然语言处理任务,特别是社交媒体内容审核和敏感内容检测。研究者和开发者可以使用该数据集进行模型训练和评估,以提高对敏感内容的识别能力。数据集支持二分类和多标签分类两种设置,用户可以根据具体需求选择合适的分类方式。此外,数据集还提供了详细的标注指南和统计信息,帮助用户更好地理解和利用数据。X-Sensitive数据集的开放获取和详细文档支持,使其成为研究社交媒体内容审核技术的宝贵资源。
背景与挑战
背景概述
X-Sensitive数据集由Cardiff NLP和Cardiff University的研究团队创建,旨在解决社交媒体内容审核中的敏感内容检测问题。该数据集的构建始于对现有审核工具局限性的认识,如定制性不足、跨类别准确性低以及隐私问题。X-Sensitive数据集涵盖了六个敏感类别:冲突性语言、亵渎、性显式材料、药物相关内容、自残和垃圾信息。通过一致的数据收集和标注策略,该数据集填补了以往研究中的空白,特别是在检测非毒性语言之外的敏感类别方面。其研究成果表明,在X-Sensitive数据集上微调的大型语言模型(LLMs)在检测性能上显著优于现成的开源和专有模型,为社交媒体内容审核提供了新的工具和方法。
当前挑战
X-Sensitive数据集面临的挑战主要集中在两个方面。首先,构建过程中遇到的挑战包括数据收集的多样性和标注的一致性。由于敏感内容的多样性,确保数据集覆盖所有相关类别且标注质量一致是一项复杂任务。其次,该数据集旨在解决的领域问题,即社交媒体中的敏感内容检测,本身具有高度复杂性。这包括识别不同类型的敏感内容、处理多标签分类问题以及应对模型在某些类别(如药物和自残)上的低准确率。此外,数据集的构建还需考虑隐私和伦理问题,确保用户数据的匿名性和标注过程的公正性。
常用场景
经典使用场景
X-Sensitive数据集的经典使用场景主要集中在社交媒体内容审核领域。该数据集通过涵盖冲突性语言、亵渎、性显式材料、毒品相关内容、自残和垃圾邮件等六类敏感内容,为研究人员和内容审核人员提供了一个全面且细致的资源。通过使用X-Sensitive数据集,研究人员可以训练和评估大规模语言模型(LLMs)在检测和分类这些敏感内容方面的性能,从而提高内容审核工具的准确性和定制化能力。
实际应用
在实际应用中,X-Sensitive数据集为社交媒体平台和内容审核服务提供商提供了一个强大的工具。通过使用该数据集训练的模型,平台可以更准确地识别和过滤有害内容,从而提升用户体验和平台安全性。此外,X-Sensitive还支持多标签分类,使得模型能够同时识别一条内容中的多个敏感类别,这在实际的内容审核工作中尤为重要。
衍生相关工作
X-Sensitive数据集的发布催生了一系列相关研究工作。例如,研究人员利用该数据集开发了新的内容审核模型,这些模型在检测敏感内容方面表现出色。此外,X-Sensitive还促进了跨学科的研究合作,特别是在自然语言处理(NLP)和平台治理领域。通过提供一个全面的数据集,X-Sensitive为学术界和工业界提供了一个共同的基础,推动了内容审核技术的进一步发展。
以上内容由遇见数据集搜集并总结生成



