five

Paparare/toxic_benchmark_2024|自然语言处理数据集|有毒语言检测数据集

收藏
arXiv2024-10-17 更新2024-10-22 收录
自然语言处理
有毒语言检测
下载链接:
http://arxiv.org/abs/2410.13313v1
下载链接
链接失效反馈
资源简介:
Paparare/toxic_benchmark_2024是由哥伦比亚大学Xinmeng Hou创建的一个用于检测有毒语言的综合性标注基准数据集。该数据集包含1942条数据,旨在通过人文研究为基础的规范性标注框架,确保对冒犯性语言的一致且无偏见的标注。数据集的创建过程结合了多源语言模型标注数据,通过小规模统计分析和实验验证了其有效性。该数据集主要应用于自然语言处理领域,旨在解决语言多样性保护和偏见减少的问题,特别是在非主流和非标准语言使用中。
提供机构:
哥伦比亚大学
创建时间:
2024-10-17
AI搜集汇总
数据集介绍
main_image_url
构建方式
Paparare/toxic_benchmark_2024数据集的构建基于人文研究,旨在通过规范化的标注框架确保对冒犯性语言的一致且无偏见的标注。该数据集通过结合人类标注员和语言模型(LLM)的标注,显著提高了标注者间的一致性。具体而言,研究团队设计了明确的标注标准,区分了语言意图的方向(DI)和攻击性水平(AG),并通过多源LLM标注数据微调小型模型,使其在有限数据条件下表现优于单一来源的人类标注数据集。
使用方法
Paparare/toxic_benchmark_2024数据集的使用方法主要包括两个步骤:首先,用户可以根据数据集提供的标注标准,对文本进行意图方向(DI)和攻击性水平(AG)的分类。其次,用户可以利用该数据集微调自然语言处理模型,特别是在资源有限的情况下,通过多源LLM标注数据提升模型的鲁棒性。该数据集适用于冒犯性语言检测、社交媒体内容审核等领域,尤其适合处理非主流语言和低资源场景下的语言多样性问题。
背景与挑战
背景概述
Paparare/toxic_benchmark_2024 数据集由哥伦比亚大学的研究人员 Xinmeng Hou 等人于2024年提出,旨在通过人文研究的基础,构建一个规范化的标注基准,以减少对非主流语言使用的偏见,并确保对冒犯性语言的一致标注。该数据集的核心研究问题是如何在数据标注过程中揭示潜在的语言模式,同时最小化对非标准语言使用的偏见影响,从而保护语言的多样性。研究还探讨了在缺乏专业标注者的情况下,大型语言模型(LLMs)是否可以作为有效的替代方案。该数据集通过引入结构化标注指南,显著提高了标注者之间的一致性,并在小数据集上表现出色,展示了其在资源有限情况下的应用潜力。
当前挑战
Paparare/toxic_benchmark_2024 数据集面临的挑战主要集中在两个方面。首先,冒犯性语言的检测本身具有高度主观性,尤其是在涉及非主流语言或文化背景时,标注者可能会因文化差异而产生偏见,导致误标或漏标。其次,数据集的构建过程中,如何确保标注的一致性是一个重要挑战。尽管通过引入结构化标注指南和多样化标注团队可以减少偏见,但标注者之间的分歧仍然难以完全消除。此外,数据集中包含的非主流语言和低资源语言的标注数据较为稀缺,这进一步增加了标注的难度。研究还表明,尽管LLMs在标注任务中表现出色,但其在区分轻度与重度攻击性语言方面的能力仍有待提升。
常用场景
经典使用场景
Paparare/toxic_benchmark_2024数据集在自然语言处理领域中被广泛用于有毒语言检测的研究。该数据集通过提供标准化的注释框架,帮助研究人员在社交媒体、论坛等平台上识别和分类有毒语言。其经典使用场景包括训练和评估机器学习模型,特别是那些用于自动检测和过滤网络上有害内容的模型。通过该数据集,研究者能够更好地理解有毒语言的特征,并开发出更精确的检测工具。
解决学术问题
Paparare/toxic_benchmark_2024数据集解决了有毒语言检测中的多个学术问题。首先,它通过引入标准化的注释框架,减少了注释过程中的主观偏差,确保了数据标签的一致性和可靠性。其次,该数据集特别关注非主流语言和少数群体语言的使用,避免了这些语言被误判为有毒语言的情况。此外,该数据集还探讨了在缺乏专业注释者的情况下,使用大型语言模型(LLMs)进行注释的可行性,为资源有限的研究提供了新的解决方案。
实际应用
在实际应用中,Paparare/toxic_benchmark_2024数据集被广泛用于社交媒体平台的有毒内容过滤系统。通过该数据集训练的模型能够自动识别和屏蔽含有侮辱性、攻击性或仇恨言论的内容,从而维护网络环境的健康和安全。此外,该数据集还可用于教育领域,帮助开发语言学习工具,教导用户如何避免使用有毒语言,并促进跨文化交流中的语言多样性。
数据集最近研究
最新研究方向
在自然语言处理领域,Paparare/toxic_benchmark_2024数据集的最新研究方向聚焦于通过结构化标注框架减少主观偏差,提升对非主流语言和少数群体语言的保护。该数据集通过引入基于人文研究的标注基准,确保了对冒犯性语言的一致性和无偏标注。研究表明,语言模型(LLMs)在缺乏专业标注者的情况下,能够作为有效的替代方案,尤其是在多源LLM标注数据上微调的较小模型,表现优于基于单一来源人类标注数据的模型。这一发现不仅强调了结构化指导在减少主观变异性中的价值,还为在有限数据条件下保持模型性能提供了新的思路。此外,该数据集的研究还推动了语言多样性的保护,特别是在处理非主流语言和少数群体语言时,减少了误判和偏见。
相关研究论文
  • 1
    Mitigating Biases to Embrace Diversity: A Comprehensive Annotation Benchmark for Toxic Language哥伦比亚大学 · 2024年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

学生课堂行为数据集 (SCB-dataset3)

学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。

arXiv 收录

HazyDet

HazyDet是由解放军工程大学等机构创建的一个大规模数据集,专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例,收集自自然雾霾环境和正常场景中人工添加的雾霾效果,以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型,确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测,旨在提高无人机在复杂环境中的感知能力。

arXiv 收录

Materials Project

材料项目是一组标有不同属性的化合物。数据集链接: MP 2018.6.1(69,239 个材料) MP 2019.4.1(133,420 个材料)

OpenDataLab 收录

典型分布式光伏出力预测数据集

光伏电站出力数据每5分钟从电站机房监控系统获取;气象实测数据从气象站获取,气象站建于电站30号箱变附近,每5分钟将采集的数据通过光纤传输到机房;数值天气预报数据利用中国电科院新能源气象应用机房的WRF业务系统(包括30TF计算刀片机、250TB并行存储)进行中尺度模式计算后输出预报产品,每日8点前通过反向隔离装置推送到电站内网预测系统。

国家基础学科公共科学数据中心 收录

GME Data

关于2021年GameStop股票活动的数据,包括每日合并的GME短期成交量数据、每日失败交付数据、可借股数、期权链数据以及不同时间框架的开盘/最高/最低/收盘/成交量条形图。

github 收录