five

civility-lab/incivility-arizona-daily-star-comments

收藏
Hugging Face2023-02-15 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/civility-lab/incivility-arizona-daily-star-comments
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含2011年Arizona Daily Star新闻文章的6000多条评论,这些评论已被手动注释为各种形式的不文明行为,包括诽谤、辱骂、讽刺和粗俗等。每个实例对应一个评论,包含评论文本和多个不文明行为的二进制标签。数据集分为训练集、验证集和测试集。数据集的创建基于两项研究,分别是关于在线不文明行为模式的研究和社交媒体用户行为的研究。注释者主要是西方、受过教育、工业化、富裕和民主(WEIRD)背景的人,这可能影响了他们对不文明行为的评估。
提供机构:
civility-lab
原始信息汇总

数据集概述

数据集名称

  • 名称: Incivility in Arizona Daily Star Comments
  • 别名: incivility-arizona-daily-star-comments

数据集属性

  • 语言: 英语 (en)
  • 多语言性: 单语种
  • 许可证: Apache-2.0
  • 来源: 原始数据
  • 标签: 社交媒体, 不文明行为, 诽谤, 夸张, 谎言, 辱骂, 不合作, 贬义, 讽刺, 粗俗
  • 任务类别: 文本分类
  • 任务ID: 多标签分类

数据集大小

  • 大小类别: 1K<n<10K
  • 下载大小: 1400753字节
  • 数据集大小: 2453700字节
  • 训练集: 3910个样本, 1568771字节
  • 验证集: 976个样本, 398667字节
  • 测试集: 1228个样本, 486262字节

数据集结构

  • 特征:
    • text: 字符串, 评论文本
    • aspersion, hyperbole, lying, namecalling, noncooperation, offtopic, pejorative, sarcasm, vulgarity, other_incivility: 整数64, 二元标签
    • __index_level_0__: 整数64
  • 分割: 训练, 验证, 测试

数据集创建

  • 原始标注: 专家生成
  • 转换描述: 由Farig Sadeque在2019年的博士论文中描述, 2023年转换为huggingface数据集格式

使用考虑

  • 目的: 研究不文明行为
  • 限制: 不应用于训练生成不文明行为的模型
  • 标注者背景: 主要为WEIRD群体, 可能影响不文明行为的评估

引用信息

bibtex @article{10.1111/jcom.12104, author = {Coe, Kevin and Kenski, Kate and Rains, Stephen A.}, title = {Online and Uncivil? Patterns and Determinants of Incivility in Newspaper Website Comments}, journal = {Journal of Communication}, volume = {64}, number = {4}, pages = {658-679}, year = {2014}, month = {06}, issn = {0021-9916}, doi = {10.1111/jcom.12104}, url = {https://doi.org/10.1111/jcom.12104}, }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作