多语言毒性数据集
收藏github2024-08-22 更新2024-08-24 收录
下载链接:
https://github.com/patronus-ai/llama-3-toxicity-experiments
下载链接
链接失效反馈官方服务:
资源简介:
该数据集用于评估多语言环境下的毒性检测任务,包含来自流行英语和多语言毒性数据集的500个样本。
This dataset is intended for evaluating toxicity detection tasks in multilingual environments, consisting of 500 samples sourced from popular English and multilingual toxicity datasets.
创建时间:
2024-08-20
原始信息汇总
Llama Guard Toxicity Analysis 数据集概述
数据集描述
该数据集用于多语言毒性检测任务的实验,包含500个样本,分别来自流行的英语和多语言毒性数据集的有毒部分。
实验结果
实验发现,Llama-Guard-3模型在与基础模型进行简单的毒性检测提示比较时表现不佳。通过实验结果,可以得出结论,将Llama-Guard-3添加到处理流程中可能是多余的。
参考文献
- Ji, J., Liu, M., Dai, J., Pan, X., Zhang, C., Bian, C., ... & Yang, Y. (2024). Beavertails: Towards improved safety alignment of llm via a human-preference dataset. Advances in Neural Information Processing Systems, 36.
- Li, L., Dong, B., Wang, R., Hu, X., Zuo, W., Lin, D., ... & Shao, J. (2024). Salad-bench: A hierarchical and comprehensive safety benchmark for large language models. https://aclanthology.org/2024.findings-acl.235.
- Lin, Z., Wang, Z., Tong, Y., Wang, Y., Guo, Y., Wang, Y., & Shang, J. (2023). Toxicchat: Unveiling hidden challenges of toxicity detection in real-world user-ai conversation. https://aclanthology.org/2023.findings-emnlp.311/.
- Kluge, N. (2022). Nkluge-correa/Aira-EXPERT: release v.01. Zenodo.
- cjadams, Jeffrey Sorensen, Julia Elliott, Lucas Dixon, Mark McDonald, nithum, Will Cukierski. (2017). Toxic Comment Classification Challenge. Kaggle. https://kaggle.com/competitions/jigsaw-toxic-comment-classification-challenge
- Röttger, P., Kirk, H. R., Vidgen, B., Attanasio, G., Bianchi, F., & Hovy, D. (2023). Xstest: A test suite for identifying exaggerated safety behaviours in large language models. arXiv preprint arXiv:2308.01263.
- Tonneau, M., Liu, D., Fraiberger, S., Schroeder, R., Hale, S. A., & Röttger, P. (2024). From Languages to Geographies: Towards Evaluating Cultural Bias in Hate Speech Datasets. arXiv preprint arXiv:2404.17874.
- Sirihattasak, S., Komachi, M., & Ishikawa, H. (2018, May). Annotation and classification of toxicity for Thai Twitter. In TA-COS 2018: 2nd Workshop on Text Analytics for Cybersecurity and Online Safety (p. 1).
- Çöltekin, Ç. (2020, May). A corpus of Turkish offensive language on social media. In Proceedings of the Twelfth language resources and evaluation conference (pp. 6174-6184).
- İ. Mayda, Y. E. Demir, T. Dalyan and B. Diri, "Hate Speech Dataset from Turkish Tweets," Innovations in Intelligent Systems and Applications Conference (ASYU), Elazig, Turkey, 2021, pp. 1-6, doi: 10.1109/ASYU52992.2021.9599042.
- Kadir Bulut Ozler, "5k turkish tweets with incivil content", 2020, "https://www.kaggle.com/datasets/kbulutozler/5k-turkish-tweets-with-incivil-content
- Overfit-GM/turkish-toxic-language · Datasets at Hugging Face. (n.d.). https://huggingface.co/datasets/Overfit-GM/turkish-toxic-language
- Daryna Dementieva, Valeriia Khylenko, Nikolay Babakov, and Georg Groh. 2024. Toxicity Classification in Ukrainian. In Proceedings of the 8th Workshop on Online Abuse and Harms (WOAH 2024), pages 244–255, Mexico City, Mexico. Association for Computational Linguistics
搜集汇总
数据集介绍

构建方式
多语言毒性数据集的构建基于对多种语言环境中毒性检测任务的深入研究。该数据集整合了来自不同语言背景的毒性数据,包括英语及其他多语言数据集的毒性样本。通过精心挑选和标注,确保数据集的多样性和代表性,从而为多语言环境下的毒性检测提供了丰富的训练和测试资源。
特点
此数据集的显著特点在于其多语言覆盖和高质量标注。不仅涵盖了英语,还包括了其他多种语言的毒性数据,如土耳其语、泰语和乌克兰语等。这种多语言特性使得该数据集在跨文化毒性检测研究中具有重要价值。此外,数据集的标注精细,确保了每个样本的毒性程度得到准确评估,从而提高了模型的训练效果。
使用方法
使用该数据集时,首先需设置Python环境并安装相关依赖,可通过运行`pip install -r requirements.txt`完成。随后,设置Together AI的API密钥以确保模型查询的顺利进行。执行实验时,运行`bash run.sh`脚本即可,该脚本将生成包含所有输出结果的CSV文件,并实时显示每个数据集的准确率。用户可根据需要调整`run.sh`参数,以适应不同的实验需求。
背景与挑战
背景概述
多语言毒性数据集是由一组研究人员和机构共同创建的,旨在解决多语言环境下的毒性检测问题。该数据集的构建始于2024年,主要研究人员包括Ji, J., Liu, M., Dai, J.等人,他们通过结合Llama-Guard-3模型与Llama-3.1-8B模型,进行了一系列实验,以评估多语言毒性检测的性能。此数据集不仅涵盖了英语,还包含了多种其他语言的毒性数据,旨在为多语言环境下的毒性检测提供一个全面的基准。其核心研究问题是如何在多语言背景下准确识别和分类毒性内容,这对于提升全球网络环境的安全性具有重要意义。
当前挑战
多语言毒性数据集在构建和应用过程中面临多项挑战。首先,多语言环境下的毒性检测需要处理不同语言间的语义差异和文化背景,这增加了模型的复杂性和误差率。其次,数据集的构建过程中,研究人员发现Llama-Guard-3模型在简单毒性检测提示下的表现不如预期,这表明现有模型在处理多语言毒性数据时仍存在局限性。此外,数据集的多样性和规模也带来了数据标注和模型训练的挑战,如何在保证数据质量的同时,提高模型的泛化能力,是当前研究的重点。
常用场景
经典使用场景
多语言毒性数据集在多语言环境下的毒性检测任务中展现了其经典应用。该数据集通过分析不同语言中的毒性表达,为模型提供了丰富的训练样本,从而提升了模型在多语言毒性检测中的准确性和鲁棒性。其经典使用场景包括但不限于社交媒体内容审核、在线论坛管理以及跨文化交流中的语言安全监控。
衍生相关工作
多语言毒性数据集的发布催生了多项相关研究工作。例如,Ji等人(2024)在其研究中利用该数据集改进了大型语言模型的安全对齐;Li等人(2024)则基于此数据集构建了一个综合的安全基准测试平台。此外,Lin等人(2023)的研究揭示了在真实用户与AI对话中毒性检测的隐藏挑战,进一步扩展了该数据集的应用领域。
数据集最近研究
最新研究方向
在多语言毒性检测领域,最新的研究方向集中在提升模型的跨语言适应性和准确性。研究者们致力于通过整合多语言数据集,如Llama-Guard-3模型,来增强对不同语言中潜在毒性内容的识别能力。此外,研究还关注于如何通过人机协作的方式,进一步优化模型的安全性和可靠性,特别是在处理复杂和多变的网络语言环境时。这些研究不仅有助于提升语言模型的社会责任感,也为构建更加安全和健康的网络环境提供了技术支持。
以上内容由遇见数据集搜集并总结生成



