Italian Hate Speech Corpus (IHSC)

github2024-03-24 更新2024-05-31 收录

下载链接：

https://github.com/msang/hate-speech-corpus

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个Twitter数据集，旨在代表和分析意大利某些少数群体（特别是移民、穆斯林和罗姆人）所遭受的仇恨言论。数据集包含1,827条经过专家注释的推文，可以通过Twitter API使用对应的ID检索每条推文的内容。

This is a Twitter dataset designed to represent and analyze hate speech directed at certain minority groups in Italy, particularly immigrants, Muslims, and the Roma community. The dataset comprises 1,827 tweets that have been annotated by experts, and the content of each tweet can be retrieved using the corresponding ID via the Twitter API.

创建时间：

2017-09-21

原始信息汇总

数据集概述

数据集名称

Italian Hate Speech Corpus (IHSC)

数据集描述

IHSC是一个Twitter语料库，旨在代表和分析意大利对某些少数群体（特别是移民、穆斯林和罗姆人）的仇恨言论。该数据集包含1,827条经过专家注释的推文，并且已扩展了新的数据，部分由专家注释，部分由CrowdFlower贡献者注释。

数据集内容

数据集仅包含推文的ID及其注释。推文内容可通过Twitter API使用相应的ID进行检索。

数据集开发背景

该数据集是Hate Speech Monitoring项目的一部分，由意大利都灵大学计算机科学系协调。

引用信息

若使用此资源，请引用以下文献：

@InProceedings{SanguinettiEtAlLREC2018, author = {Manuela Sanguinetti and Fabio Poletino and Cristina Bosco and Viviana Patti and Marco Stranisci}, title = {An Italian Twitter Corpus of Hate Speech against Immigrants}, booktitle = {Proceedings of the 11th Conference on Language Resources and Evaluation (LREC2018), May 2018, Miyazaki, Japan}, month = {}, year = {2018}, address = {}, publisher = {}, pages = {2798--2895}, url = {} }

其他参考文献

Poletino F., Stranisci M., Sanguinetti M., Patti V., Bosco C. (2017) Hate speech annotation: Analysis of an Italian Twitter corpus. In: Proceedings of the 4th Italian Conference on Computational Linguistics (CLiC-it 2017), Rome, Italy.

资金支持

该工作由Progetto di Ateneo/CSP 2016（项目S1618_L2_BOSC_01）和Fondazione CRT（项目n. 2016.0688）资助。

搜集汇总

数据集介绍

构建方式

Italian Hate Speech Corpus (IHSC)的构建过程体现了对社交媒体中仇恨言论的深入分析与研究。该数据集主要聚焦于意大利社交媒体平台上针对移民、穆斯林和罗姆人等少数群体的仇恨言论。数据收集自Twitter平台，通过专家注释和CrowdFlower众包平台的双重标注，确保了数据的准确性和代表性。数据集中包含1,827条推文的ID及其注释，推文内容需通过Twitter API根据ID进行检索。该数据集的开发由都灵大学计算机科学系协调的Hate Speech Monitoring项目支持，旨在为仇恨言论的监测与分析提供可靠的数据基础。

使用方法

使用Italian Hate Speech Corpus (IHSC)时，研究者首先需要通过Twitter API根据推文ID检索推文内容。数据集中提供的注释信息可用于训练和评估仇恨言论检测模型，或进行相关社会语言学分析。由于数据集仅包含推文ID，研究者需遵守Twitter平台的使用条款，确保数据获取的合法性与合规性。此外，使用该数据集时需引用相关文献，以尊重数据开发者的知识产权。数据集的灵活性和高质量注释使其成为研究意大利语境下仇恨言论的重要资源，为相关领域的研究提供了坚实的基础。

背景与挑战

背景概述

意大利仇恨言论语料库（Italian Hate Speech Corpus, IHSC）由意大利都灵大学计算机科学系主导开发，旨在分析和研究针对意大利少数群体，尤其是移民、穆斯林和罗姆人的仇恨言论。该语料库的构建始于2016年，作为“仇恨言论监测”项目的一部分，得到了Progetto di Ateneo/CSP 2016和Fondazione CRT的资助。语料库主要基于Twitter数据，包含1,827条经过专家和众包平台CrowdFlower标注的推文。其研究成果于2018年在第11届语言资源与评估会议（LREC2018）上发表，为意大利语仇恨言论的识别与分析提供了重要的数据支持。

当前挑战

IHSC语料库在构建过程中面临多重挑战。首先，仇恨言论的界定具有主观性，不同文化背景下的表达方式差异显著，导致标注过程中存在较高的歧义性。其次，推文内容涉及敏感话题，数据获取与处理需严格遵守Twitter的API使用政策，增加了数据收集的复杂性。此外，语料库的规模相对较小，难以全面覆盖意大利语仇恨言论的多样性，限制了模型的泛化能力。最后，由于推文内容随时间快速变化，语料库的时效性也成为一大挑战，需不断更新以保持其研究价值。

常用场景

经典使用场景

Italian Hate Speech Corpus (IHSC) 数据集在社交媒体文本分析领域具有重要应用，特别是在针对意大利少数群体的仇恨言论检测中。该数据集通过收集并标注了大量推特数据，为研究人员提供了丰富的语料库，用于训练和评估自然语言处理模型。其经典使用场景包括仇恨言论的自动识别、情感分析以及社交媒体监控系统的开发。

解决学术问题

IHSC 数据集解决了仇恨言论检测中的关键学术问题，尤其是在多语言和特定文化背景下的挑战。通过提供高质量的标注数据，该数据集支持了针对意大利语仇恨言论的算法开发与优化，填补了意大利语仇恨言论研究领域的空白。其意义在于为跨文化仇恨言论研究提供了重要参考，推动了社交媒体内容监控技术的发展。

实际应用

在实际应用中，IHSC 数据集被广泛用于社交媒体平台的自动化内容审核系统。通过基于该数据集训练的模型，平台能够更高效地识别并处理仇恨言论，从而维护网络环境的健康与安全。此外，该数据集还被用于开发教育工具，帮助公众提高对仇恨言论的认知与防范意识。

数据集最近研究