LGBTQ+ Hope Speech Dataset

Name: LGBTQ+ Hope Speech Dataset
Creator: Rochester Institute of Technology, Drexel University
Published: 2025-02-13 14:49:14
License: 暂无描述

arXiv2025-02-13 更新2025-02-27 收录

下载链接：

http://arxiv.org/abs/2502.09004v1

下载链接

链接失效反馈

官方服务：

资源简介：

LGBTQ+ Hope Speech Dataset是由Rochester Institute of Technology和Drexel University的研究人员创建的。该数据集包含3,750条经过精细标注的实例，涵盖中性、不相关、积极（希望言语）和消极四种类型。数据集的构建旨在分析主流美国新闻媒体中LGBTQ+新闻内容的观众互动和情感动态，为LGBTQ+社区提供一个重要的资源。

The LGBTQ+ Hope Speech Dataset was created by researchers from the Rochester Institute of Technology and Drexel University. This dataset contains 3,750 finely annotated instances covering four categories: neutral, irrelevant, positive (hope speech), and negative. It was constructed to analyze audience engagement and emotional dynamics of LGBTQ+ news content from mainstream U.S. news media, serving as a critical resource for the LGBTQ+ community.

提供机构：

Rochester Institute of Technology, Drexel University

创建时间：

2025-02-13

搜集汇总

数据集介绍

构建方式

LGBTQ+ Hope Speech Dataset的构建方式是通过从YouTube上收集了超过1300万条评论，这些评论来自3161个主流美国有线电视新闻频道的新闻视频。研究人员首先使用大型语言模型（LLM）GPT-4o筛选出与LGBTQ+相关的视频，然后从这些视频中收集了1419047条用户评论。为了构建一个细粒度的希望话语分类器，研究人员与专注于LGBTQ+健康的公共卫生专家合作，对收集到的评论进行了标注。标注过程采用了三人标注制度，每个评论由一个共和党、一个民主党和一个独立人士进行标注，以确保政治观点的多样性。此外，还进行了主动学习，包括少数类确定性采样和边缘采样，以解决类别不平衡问题。

特点

LGBTQ+ Hope Speech Dataset的特点是它包含了一个细粒度标注的评论数据集，其中包括中性、不相关、积极（希望话语）和消极内容。每个实例由三个标注者进行标注，确保了政治观点的多样性和平衡。此外，该数据集还提供了详细的标注者人口统计学信息。数据集的构建不仅考虑了负面内容，还特别关注了积极内容，旨在为LGBTQ+社区提供一个重要的资源。通过这个数据集，研究人员揭示了评分者政治信仰与他们对边缘化社区相关内容的评分之间的强关联，以及模型在现实世界中的显著分歧。此外，该数据集还揭示了零样本大型语言模型（LLMs）与自由派评分者的一致性。

使用方法

LGBTQ+ Hope Speech Dataset的使用方法包括希望话语检测、用户参与度分析和情绪动态研究。研究人员使用Mistral和Llama 3等大型语言模型进行细粒度标注和分类。此外，数据集还可以用于研究评分者政治信仰与他们对LGBTQ+社区相关内容的评分之间的关联。数据集的标注结果还可以用于训练和评估希望话语检测模型。通过使用该数据集，研究人员可以更好地理解LGBTQ+讨论在美国主流政治话语中的情况，并为LGBTQ+社区提供一个重要的资源。

背景与挑战

背景概述

在当代美国政治话语中，LGBTQ+议题的讨论日益凸显。该数据集的研究背景在于，主流的美国有线电视新闻媒体如何报道LGBTQ+群体，以及用户如何与这些新闻内容互动。研究重点关注了用户对LGBTQ+新闻内容的积极和消极互动。通过分析超过1300万条YouTube评论，该研究旨在理解主流美国政治话语中LGBTQ+讨论的定位。研究不仅关注了对LGBTQ+群体的负面讨论，而且还操作化了积极、希望性言论的检测，以支持社会中的弱势少数群体。

当前挑战

该数据集相关的挑战包括：1)如何准确识别和分类积极（希望性）言论，这在网络空间中对于面临大量仇恨言论的群体至关重要；2)如何解决构建过程中的挑战，例如注释过程中注释者政治信仰对内容评级的影响，以及如何减少由于政治信仰差异导致的模型性能下降。

常用场景

经典使用场景

LGBTQ+ Hope Speech Dataset是用于研究用户如何与LGBTQ+相关新闻内容互动的大型数据集。该数据集包含了来自美国主流有线电视新闻频道的YouTube视频评论，并使用细粒度分类器对这些评论进行分类，识别出积极的（希望话语）、消极的、中性的和无关的内容。该数据集可以用于训练模型以识别和促进LGBTQ+社区的支持性话语，从而在主流媒体中为该社区创造更加包容和积极的环境。

实际应用

LGBTQ+ Hope Speech Dataset的实际应用场景包括社交媒体平台、新闻机构以及研究机构。社交媒体平台可以使用该数据集来训练模型，以识别和推广支持LGBTQ+社区的话语，从而创造更加包容和积极的环境。新闻机构可以使用该数据集来分析用户如何与LGBTQ+相关新闻内容互动，从而更好地理解该社区的需求和关注点。研究机构可以使用该数据集来研究LGBTQ+社区在主流媒体中的话语，以及如何通过技术手段促进该社区的支持性话语。

衍生相关工作

LGBTQ+ Hope Speech Dataset衍生了多个相关的经典工作。其中一个经典工作是使用该数据集来训练模型，以识别和促进LGBTQ+社区的支持性话语。另一个经典工作是研究评论者政治信仰与他们如何评价与边缘化社区相关内容之间的关联。此外，该数据集还揭示了训练在个人政治信仰上的模型在现实世界中的不一致性，以及零样本大型语言模型（LLMs）与自由主义评论者的观点更加一致。这些发现对于理解LGBTQ+社区在主流媒体中的话语，以及如何通过技术手段促进该社区的支持性话语具有重要意义。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集