Italian Hate Speech Corpus (IHSC)
收藏数据集概述
数据集名称
Italian Hate Speech Corpus (IHSC)
数据集描述
IHSC是一个Twitter语料库,旨在代表和分析意大利对某些少数群体(特别是移民、穆斯林和罗姆人)的仇恨言论。该数据集包含1,827条经过专家注释的推文,并且已扩展了新的数据,部分由专家注释,部分由CrowdFlower贡献者注释。
数据集内容
数据集仅包含推文的ID及其注释。推文内容可通过Twitter API使用相应的ID进行检索。
数据集开发背景
该数据集是Hate Speech Monitoring项目的一部分,由意大利都灵大学计算机科学系协调。
引用信息
若使用此资源,请引用以下文献:
@InProceedings{SanguinettiEtAlLREC2018, author = {Manuela Sanguinetti and Fabio Poletino and Cristina Bosco and Viviana Patti and Marco Stranisci}, title = {An Italian Twitter Corpus of Hate Speech against Immigrants}, booktitle = {Proceedings of the 11th Conference on Language Resources and Evaluation (LREC2018), May 2018, Miyazaki, Japan}, month = {}, year = {2018}, address = {}, publisher = {}, pages = {2798--2895}, url = {} }
其他参考文献
Poletino F., Stranisci M., Sanguinetti M., Patti V., Bosco C. (2017) Hate speech annotation: Analysis of an Italian Twitter corpus. In: Proceedings of the 4th Italian Conference on Computational Linguistics (CLiC-it 2017), Rome, Italy.
资金支持
该工作由Progetto di Ateneo/CSP 2016(项目S1618_L2_BOSC_01)和Fondazione CRT(项目n. 2016.0688)资助。




