nlu-toxicity_detection
收藏Hugging Face2024-12-19 更新2024-12-20 收录
下载链接:
https://huggingface.co/datasets/aisingapore/nlu-toxicity_detection
下载链接
链接失效反馈官方服务:
资源简介:
SEA Toxicity Detection数据集用于评估模型识别文本中的有毒内容(如仇恨言论和辱骂语言)的能力。数据集包含印尼语、泰语和越南语的样本,分别来自MLHSD、TTD和ViHSD。数据集被分为不同语言的子集,并包含少样本示例的额外分割。数据集的统计信息包括每个分割的示例数量、GPT-4o、Gemma 2和Llama 3的token数量。数据集的许可证信息也已提供。
提供机构:
AI Singapore
创建时间:
2024-12-11
搜集汇总
数据集介绍

构建方式
SEA Toxicity Detection数据集的构建基于对多语言文本中仇恨言论和辱骂性语言的识别需求,从印尼语、泰语和越南语的公开数据集中采样而来。具体而言,数据集分别从MLHSD、TTD和ViHSD三个来源获取数据,这些数据集经过严格的筛选和标注,确保了数据的质量和适用性。每个语言的数据集都包含标准分割和少样本分割,以支持不同规模的模型评估和训练需求。
特点
该数据集的显著特点在于其多语言覆盖和多样化的分割方式。它不仅涵盖了印尼语、泰语和越南语三种语言,还提供了标准分割和少样本分割,以适应不同应用场景的需求。此外,数据集的标注精细,能够有效评估模型在识别仇恨言论和辱骂性语言方面的能力,特别适用于大型语言模型的评估和优化。
使用方法
SEA Toxicity Detection数据集主要用于评估和优化大型语言模型在多语言环境下识别仇恨言论和辱骂性语言的能力。用户可以通过加载数据集的不同语言分割和少样本分割,进行模型训练和评估。数据集的结构设计便于用户进行多语言模型的对比分析,同时支持在少样本学习场景下的模型性能测试,为研究者和开发者提供了丰富的实验资源。
背景与挑战
背景概述
SEA Toxicity Detection数据集旨在评估模型识别文本中包含的仇恨言论和辱骂性语言的能力。该数据集由AI Singapore主导开发,汇集了来自印度尼西亚、泰国和越南的多语言数据,分别基于MLHSD、TTD和ViHSD数据源。其核心研究问题聚焦于跨语言的毒性内容检测,旨在为东南亚地区的语言模型提供一个全面的评估基准。通过整合这些数据源,SEA Toxicity Detection不仅推动了多语言文本分类技术的发展,还为大型语言模型在处理多样化语言和文化背景下的毒性内容检测提供了宝贵的资源。
当前挑战
SEA Toxicity Detection数据集面临的挑战主要集中在多语言和跨文化背景下的毒性内容识别。首先,不同语言的语法结构和文化背景差异使得毒性内容的定义和识别标准难以统一。其次,数据集构建过程中需要处理不同语言的标注一致性和数据质量问题,确保标注的准确性和可靠性。此外,由于涉及多种语言,数据集的扩展和维护也面临技术上的挑战,如数据源的多样性和版权问题。这些挑战不仅影响了数据集的构建,也对模型的训练和评估提出了更高的要求。
常用场景
经典使用场景
SEA Toxicity Detection数据集的经典使用场景主要集中在对大型语言模型(LLMs)进行毒性内容检测的评估。该数据集通过提供多语言(印尼语、泰语和越南语)的毒性文本样本,帮助研究者和开发者训练和验证模型在识别仇恨言论和辱骂性语言方面的能力。其设计初衷是为了支持聊天或指令调优的LLMs,特别是在东南亚语言环境下的应用。
解决学术问题
SEA Toxicity Detection数据集解决了在多语言环境下毒性内容检测的学术研究问题。通过提供印尼语、泰语和越南语的毒性文本数据,该数据集填补了这些语言在毒性检测领域的数据空白,促进了跨语言毒性检测模型的开发与评估。这对于提升多语言社交媒体内容监管的准确性和效率具有重要意义,同时也为相关领域的研究提供了宝贵的资源。
衍生相关工作
基于SEA Toxicity Detection数据集,研究者们开发了多种跨语言毒性检测模型,并将其应用于更广泛的东南亚语言和文化环境中。例如,BHASA项目利用该数据集进行东南亚语言和文化的大型语言模型评估,进一步推动了多语言毒性检测技术的发展。此外,该数据集还激发了针对特定语言和文化的毒性检测方法的研究,为相关领域的学术和工业应用提供了新的思路和工具。
以上内容由遇见数据集搜集并总结生成



