civility-lab/incivility-arizona-daily-star-comments
收藏Hugging Face2023-02-15 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/civility-lab/incivility-arizona-daily-star-comments
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含2011年Arizona Daily Star新闻文章的6000多条评论,这些评论已被手动注释为各种形式的不文明行为,包括诽谤、辱骂、讽刺和粗俗等。每个实例对应一个评论,包含评论文本和多个不文明行为的二进制标签。数据集分为训练集、验证集和测试集。数据集的创建基于两项研究,分别是关于在线不文明行为模式的研究和社交媒体用户行为的研究。注释者主要是西方、受过教育、工业化、富裕和民主(WEIRD)背景的人,这可能影响了他们对不文明行为的评估。
提供机构:
civility-lab
原始信息汇总
数据集概述
数据集名称
- 名称: Incivility in Arizona Daily Star Comments
- 别名: incivility-arizona-daily-star-comments
数据集属性
- 语言: 英语 (en)
- 多语言性: 单语种
- 许可证: Apache-2.0
- 来源: 原始数据
- 标签: 社交媒体, 不文明行为, 诽谤, 夸张, 谎言, 辱骂, 不合作, 贬义, 讽刺, 粗俗
- 任务类别: 文本分类
- 任务ID: 多标签分类
数据集大小
- 大小类别: 1K<n<10K
- 下载大小: 1400753字节
- 数据集大小: 2453700字节
- 训练集: 3910个样本, 1568771字节
- 验证集: 976个样本, 398667字节
- 测试集: 1228个样本, 486262字节
数据集结构
- 特征:
text: 字符串, 评论文本aspersion,hyperbole,lying,namecalling,noncooperation,offtopic,pejorative,sarcasm,vulgarity,other_incivility: 整数64, 二元标签__index_level_0__: 整数64
- 分割: 训练, 验证, 测试
数据集创建
- 原始标注: 专家生成
- 转换描述: 由Farig Sadeque在2019年的博士论文中描述, 2023年转换为huggingface数据集格式
使用考虑
- 目的: 研究不文明行为
- 限制: 不应用于训练生成不文明行为的模型
- 标注者背景: 主要为WEIRD群体, 可能影响不文明行为的评估
引用信息
bibtex @article{10.1111/jcom.12104, author = {Coe, Kevin and Kenski, Kate and Rains, Stephen A.}, title = {Online and Uncivil? Patterns and Determinants of Incivility in Newspaper Website Comments}, journal = {Journal of Communication}, volume = {64}, number = {4}, pages = {658-679}, year = {2014}, month = {06}, issn = {0021-9916}, doi = {10.1111/jcom.12104}, url = {https://doi.org/10.1111/jcom.12104}, }



