Cancel Culture Corpus
收藏github2022-10-02 更新2024-05-31 收录
下载链接:
https://github.com/Justus-Jonas/Cancel-Culture-Corpus
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含超过2.3百万条推文,用于研究取消文化这一互联网现象。数据集通过自然语言处理技术进行分析,包括情感分析和情绪检测等模型,以帮助理解和评估取消文化。
This dataset comprises over 2.3 million tweets, aimed at investigating the internet phenomenon known as cancel culture. The dataset is analyzed using natural language processing techniques, including sentiment analysis and emotion detection models, to aid in understanding and evaluating cancel culture.
创建时间:
2022-05-21
原始信息汇总
数据集概述
- 名称: Cancel Culture Corpus
- 来源: 由Justus-Jonas Erker, Catalina Goanta和Jerry Spanakis共同创建。
- 数据规模: 包含超过2.3 million条推文。
- 目的: 用于研究取消文化(Cancel Culture)现象,通过自然语言处理技术进行测量、识别和评估。
- 数据特征: 基于多种模型,包括情感分析和情绪检测,以帮助特征化取消文化。
- 学术引用: latex @InProceedings{erker-goanta-spanakis:2022:LATERAISSE, author = {Erker, Justus-Jonas and Goanta, Catalina and Spanakis, Gerasimos}, title = {A Cancel Culture Corpus through the Lens of Natural Language Processing}, booktitle = {Proceedings of The First Workshop on Language Technology and Resources for a Fair, Inclusive, and Safe Society within the 13th Language Resources and Evaluation Conference}, month = {June}, year = {2022}, address = {Marseille, France}, publisher = {European Language Resources Association}, pages = {17--25}, abstract = {Cancel Culture as an Internet phenomenon has been previously explored from a social and legal science perspective. This paper demonstrates how Natural Language Processing tasks can be derived from this previous work, underlying techniques on how cancel culture can be measured, identified and evaluated. As part of this paper, we introduce a first cancel culture data set with of over 2.3 million tweets and a framework to enlarge it further. We provide a detailed analysis of this data set and propose a set of features, based on various models including sentiment analysis and emotion detection that can help characterizing cancel culture.}, url = {https://aclanthology.org/2022.lateraisse-1.3} }
搜集汇总
数据集介绍

构建方式
Cancel Culture Corpus的构建基于对互联网现象的深入分析,特别是社交媒体平台上的言论。研究者通过收集超过230万条推文,构建了一个初步的数据集,并设计了一个框架以进一步扩展数据规模。数据集的构建过程中,研究者结合了自然语言处理技术,如情感分析和情绪检测,以确保数据的多样性和代表性。
特点
该数据集的特点在于其广泛的覆盖范围和深度分析能力。数据集不仅包含了大量的推文,还通过多种模型进行了特征提取,如情感分析和情绪检测,这些特征有助于更全面地理解和刻画取消文化的现象。此外,数据集的设计允许进一步扩展,以适应未来研究的需要。
使用方法
Cancel Culture Corpus的使用方法包括数据集的下载和预处理。研究者可以通过提供的框架对数据集进行扩展和定制,以适应特定的研究需求。数据集的分析可以借助自然语言处理技术,如情感分析和情绪检测,来探索取消文化的多维度特征。此外,数据集的使用应遵循学术引用规范,确保研究的透明性和可重复性。
背景与挑战
背景概述
Cancel Culture Corpus数据集由Justus-Jonas Erker、Catalina Goanta和Jerry Spanakis等研究人员于2022年创建,旨在通过自然语言处理技术对互联网上的“取消文化”现象进行量化与分析。该数据集包含超过230万条推文,并结合情感分析和情绪检测等多种模型,提供了对取消文化的详细特征描述。作为首个专注于取消文化的大规模数据集,它不仅填补了该领域在数据资源上的空白,还为社会科学与法律科学的研究提供了新的视角和方法。该数据集在2022年语言资源与评估会议(LREC)的“公平、包容与安全社会的语言技术与资源”研讨会上首次发布,迅速成为研究互联网文化与语言技术交叉领域的重要资源。
当前挑战
Cancel Culture Corpus数据集在构建与应用过程中面临多重挑战。首先,取消文化作为一种复杂的社会现象,其定义和边界往往模糊不清,导致数据标注和分类的难度较大。其次,推文数据的多样性和动态性使得情感分析和情绪检测模型的准确性难以保证,尤其是在处理讽刺、隐喻等复杂语言现象时。此外,数据集的扩展性也是一个重要问题,尽管研究者提供了一个框架以进一步扩充数据,但如何确保新增数据的质量和代表性仍需深入研究。最后,隐私和伦理问题也不容忽视,如何在保护用户隐私的同时进行有效的数据分析,是未来研究需要解决的关键挑战。
常用场景
经典使用场景
在社交媒体分析领域,Cancel Culture Corpus数据集被广泛应用于研究网络文化现象,特别是‘取消文化’的传播机制和影响。通过分析超过230万条推文,研究者能够深入探讨公众对特定事件或人物的集体反应,揭示网络舆论的动态变化。
解决学术问题
该数据集解决了如何量化与识别‘取消文化’这一复杂社会现象的学术难题。通过结合情感分析和情绪检测模型,研究者能够从大量社交媒体数据中提取关键特征,进而评估‘取消文化’的强度、范围和影响,为社会科学和计算语言学提供了新的研究视角。
衍生相关工作
基于Cancel Culture Corpus数据集,研究者已开展多项经典工作。例如,利用该数据集开发了新的情感分析模型,能够更准确地捕捉网络舆论中的细微情绪变化。此外,该数据集还被用于研究‘取消文化’对个人声誉和社会信任的长期影响,推动了相关领域的跨学科研究。
以上内容由遇见数据集搜集并总结生成



