civility-lab/incivility-arizona-daily-star-comments

Name: civility-lab/incivility-arizona-daily-star-comments
Creator: civility-lab
Published: 2023-02-15 23:18:17
License: 暂无描述

Hugging Face2023-02-15 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/civility-lab/incivility-arizona-daily-star-comments

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含2011年Arizona Daily Star新闻文章的6000多条评论，这些评论已被手动注释为各种形式的不文明行为，包括诽谤、辱骂、讽刺和粗俗等。每个实例对应一个评论，包含评论文本和多个不文明行为的二进制标签。数据集分为训练集、验证集和测试集。数据集的创建基于两项研究，分别是关于在线不文明行为模式的研究和社交媒体用户行为的研究。注释者主要是西方、受过教育、工业化、富裕和民主（WEIRD）背景的人，这可能影响了他们对不文明行为的评估。

提供机构：

civility-lab

原始信息汇总

数据集概述

数据集名称

名称: Incivility in Arizona Daily Star Comments
别名: incivility-arizona-daily-star-comments

数据集属性

语言: 英语 (en)
多语言性: 单语种
许可证: Apache-2.0
来源: 原始数据
标签: 社交媒体, 不文明行为, 诽谤, 夸张, 谎言, 辱骂, 不合作, 贬义, 讽刺, 粗俗
任务类别: 文本分类
任务ID: 多标签分类

数据集大小

大小类别: 1K<n<10K
下载大小: 1400753字节
数据集大小: 2453700字节
训练集: 3910个样本, 1568771字节
验证集: 976个样本, 398667字节
测试集: 1228个样本, 486262字节

数据集结构

特征:
- text: 字符串, 评论文本
- aspersion, hyperbole, lying, namecalling, noncooperation, offtopic, pejorative, sarcasm, vulgarity, other_incivility: 整数64, 二元标签
- __index_level_0__: 整数64
分割: 训练, 验证, 测试

数据集创建

原始标注: 专家生成
转换描述: 由Farig Sadeque在2019年的博士论文中描述, 2023年转换为huggingface数据集格式

使用考虑

目的: 研究不文明行为
限制: 不应用于训练生成不文明行为的模型
标注者背景: 主要为WEIRD群体, 可能影响不文明行为的评估

引用信息

bibtex @article{10.1111/jcom.12104, author = {Coe, Kevin and Kenski, Kate and Rains, Stephen A.}, title = {Online and Uncivil? Patterns and Determinants of Incivility in Newspaper Website Comments}, journal = {Journal of Communication}, volume = {64}, number = {4}, pages = {658-679}, year = {2014}, month = {06}, issn = {0021-9916}, doi = {10.1111/jcom.12104}, url = {https://doi.org/10.1111/jcom.12104}, }

5,000+

优质数据集

54 个

任务类型

进入经典数据集