ALONE (AdoLescents ON twittEr)

Name: ALONE (AdoLescents ON twittEr)
Creator: 人工智能研究所，南卡罗来纳大学
Published: 2020-08-15 01:02:55
License: 暂无描述

arXiv2020-08-15 更新2024-08-06 收录

下载链接：

http://arxiv.org/abs/2008.06465v1

下载链接

链接失效反馈

官方服务：

资源简介：

ALONE数据集是由南卡罗来纳大学人工智能研究所创建的，专注于青少年在Twitter上的有害行为。该数据集包含688个互动实例，每个实例包括推文、图片、表情符号及相关元数据。数据集通过分析高中学生的公开Twitter数据构建，旨在通过多模态数据揭示有害行为的复杂性。数据集的应用领域包括研究网络欺凌、有害语言的识别以及青少年心理健康的影响，旨在通过深入分析社交媒体互动，提供对有害行为更全面的理解。

The ALONE Dataset was created by the Institute for Artificial Intelligence at the University of South Carolina, focusing on harmful behaviors of teenagers on Twitter. It contains 688 interaction instances, each including tweets, images, emojis and relevant metadata. Constructed by analyzing public Twitter data from high school students, this dataset aims to reveal the complexity of harmful behaviors through multimodal data. Its application areas include research on cyberbullying, harmful language identification and the impact on adolescent mental health, with the goal of providing a more comprehensive understanding of harmful behaviors via in-depth analysis of social media interactions.

提供机构：

人工智能研究所，南卡罗来纳大学

创建时间：

2020-08-15

搜集汇总

数据集介绍

构建方式

在社交媒体毒性行为研究领域，ALONE数据集的构建体现了对青少年群体在线互动的精准捕捉。研究团队首先通过公开渠道获取了143名高中生的名单，并利用Twitter API确认其用户身份，以此作为种子语料库。随后，通过分析这些种子账户的好友与关注关系，扩展至456个经过验证的学生账户，确保数据来源的真实性与代表性。数据收集聚焦于用户间的双向互动，包括提及、回复和转发行为，并设定至少包含三条推文的阈值以保留足够的上下文信息。最终，利用预定义的骚扰词典筛选出688组互动，涵盖16,901条推文，构建了一个以交互为核心的多模态数据集。

使用方法

ALONE数据集为研究在线毒性行为提供了重要的实证基础，尤其适用于机器学习模型的训练与评估。研究者可利用该数据集开发语境感知的毒性检测算法，通过分析互动序列中的文本、表情符号及图像特征，提升模型对复杂社交场景的判别能力。数据集支持时间序列分析，允许探究毒性行为的动态演变模式。在使用过程中，需遵循严格的伦理协议，仅限研究用途，且不得公开传播原始数据。通过深入挖掘多模态元素与交互语境，该数据集有望推动社交媒体安全、青少年心理健康等跨学科领域的前沿探索。

背景与挑战

背景概述

随着社交媒体普及，网络毒性行为对青少年心理健康构成严峻威胁，ALONE数据集应运而生。该数据集由南卡罗来纳大学AI研究所、莱特州立大学及佐治亚大学的研究团队于2020年联合创建，聚焦于推特平台上高中生之间的毒性互动。其核心研究问题在于如何通过多模态交互语境识别真实的毒性行为，突破传统单条推文或用户层面分析的局限。该数据集通过独特的学生身份确认与交互聚合方法，为社交媒体毒性检测领域提供了首个针对青少年群体的高质量基准，推动了语境感知计算模型的发展，并对网络心理健康干预研究产生深远影响。

当前挑战

ALONE数据集致力于解决社交媒体中毒性行为检测的复杂挑战，尤其在青少年群体中，毒性语言常与讽刺、玩笑交织，需依赖交互历史与多模态语境进行精准判别。构建过程中面临多重挑战：首先，数据收集需平衡隐私伦理与真实性，通过严格的身份验证与网络扩展策略筛选真实高中生账户；其次，毒性标注高度依赖语境理解，标注者需经过系统训练以区分恶意攻击与友好调侃，标注一致性维护困难；此外，数据呈现多模态特性，需整合文本、表情符号及图像信息，但图像内容识别与表情符号语义解析增加了技术复杂性；最后，数据分布不均衡，毒性互动仅占17.15%，对机器学习模型的鲁棒性提出更高要求。

常用场景

经典使用场景

在社交媒体内容分析领域，ALONE数据集为青少年群体中的毒性行为研究提供了关键资源。该数据集通过捕捉高中生之间的双向互动历史，包括文本、图像和表情符号等多模态元素，使得研究者能够深入探究在线交流中的复杂语境。其经典应用场景在于训练和评估机器学习模型，以识别和分类社交媒体对话中的毒性内容，尤其侧重于从互动语境中区分恶意攻击与朋友间的戏谑或讽刺，从而提升模型在真实社交环境中的泛化能力。

解决学术问题

ALONE数据集有效解决了社交媒体研究中长期存在的若干学术难题。传统方法往往局限于单条推文或用户层面的分析，难以捕捉互动语境中的细微差别，导致误判。该数据集通过整合双向交互历史，为区分针对性毒性与无害粗俗语言提供了实证基础。它助力于深化对在线骚扰、仇恨言论和网络欺凌等复杂社会现象的理解，推动了语境感知计算模型的发展，为构建更精准的毒性检测算法奠定了数据基石。

实际应用

在实际应用层面，ALONE数据集为开发更智能的社交媒体内容审核工具提供了重要支持。基于该数据集训练的模型可被集成到平台监控系统中，自动识别青少年用户间可能存在的有害互动，从而进行早期预警或干预。这有助于保护青少年心理健康，减少网络欺凌导致的负面后果。此外，教育机构和心理健康研究者可利用其分析结果，制定针对性的网络素养教育方案或干预策略，促进更安全的在线交流环境。

数据集最近研究