five

rulefollower_parsed

收藏
Hugging Face2026-01-28 更新2026-01-29 收录
下载链接:
https://huggingface.co/datasets/RuleFollower/rulefollower_parsed
下载链接
链接失效反馈
官方服务:
资源简介:
RuleFollower项目包含多个经过解析的数据集,涵盖社交媒体内容审核、仇恨言论检测、虚假信息分类、政治偏见预测和礼貌程度分析等多个领域。每个数据集均包含标准化的列:'Text'(文本输入)、'id'(唯一标识符)、'source'(原始数据集或论文名称)和可选的'ground_truth'(黄金标签)。数据集规模上限为5k样本(若原始数据集小于5k则全部使用)。具体数据集包括: 1. **RumorEval**:包含对谣言事件的回复文本,用于分类回复立场(支持、否认、询问或评论)。 2. **HateCoT**:整合了8个仇恨/攻击性言论数据集,标准化为三类标签(良性、攻击性、仇恨性)。 3. **Tweets系列**:包含2017至2023年的推文,支持内容审核相关性、问题/解决方案框架、政策框架、Section 230立场和主题分类等任务。 4. **Misinfo/Misinfo Cancer**:新闻标题数据集,用于分类是否为虚假信息。 5. **Implicit Hate**:标注了显性和隐性仇恨言论的推文数据集。 6. **GWSD**:全球变暖新闻观点数据集,标注对“气候变化是严重问题”的立场(同意、中立、不同意)。 7. **Bureaucracies**:国际危机中的官僚通信文本,标注信息类型(政治或军事)和确定性。 8. **Yelp Reviews**:Yelp餐厅评论,用于情感分析。 9. **Article Bias Prediction**:新闻文章数据集,标注政治偏见(左、中、右)。 10. **Politeness Wiki/Stack**:维基百科和StackExchange的请求文本,标注礼貌程度(礼貌、中性、不礼貌)。 每个数据集的详细描述见README。
创建时间:
2026-01-15
原始信息汇总

RuleFollower – Parsed Datasets 概述

数据集基本信息

  • 数据集名称: RuleFollower – Parsed Datasets
  • 存储库地址: https://huggingface.co/datasets/RuleFollower/rulefollower_parsed
  • 内容描述: 该存储库包含 RuleFollower 项目中使用的已解析数据集。

包含的数据集列表

  • GWSD
  • Misinfo
  • Misinfo Cancer
  • Bureaucracies
  • Tweets23
  • Tweets Congress
  • Tweets News
  • Tweets
  • Rumoureval2019
  • Hatecot
  • Implicit Hate
  • Yelp Reviews
  • Article Bias Prediction
  • Politeness Wiki
  • Politeness Stack

数据文件通用格式

  • 每个文件夹包含一个 data.csv 文件,其中包含已解析的标注。
  • 每个数据集最多包含 5k 个样本(如果原始数据集小于 5k,则使用完整数据集)。
  • 每个数据文件包含标准化列:
    • Text: 用于标注的文本输入。
    • id: 行的唯一标识符。
    • source: 原始数据集或论文的名称。
    • ground_truth: (可选)黄金标签(如果原始数据集中可用)。

各数据集详情

RumorEval

  • 文本内容: 关于传闻事件的源推文的回复。
  • 来源: Gorrell et al (2019) (https://aclanthology.org/S19-2147/)
  • 原始数据集地址: https://huggingface.co/datasets/strombergnlp/rumoureval_2019
  • 标注目标: 将回复立场分类为 supportdenyquerycomment
  • 黄金标签: 已提供(立场标签)。
  • 备注: 仅保留回复文本用于分类。

HateCoT

  • 文本内容: 来自 8 个仇恨/冒犯性言论数据集的社交媒体帖子。
  • 来源: Nghiem and Daumé III (2024) (https://arxiv.org/abs/2403.11456)
  • 原始数据集地址: https://github.com/hnghiem-nlp/hatecot?tab=readme-ov-file
  • 标注目标: 将帖子分类为 benignoffensivehateful
  • 黄金标签: 已提供。
  • 备注: 原始 HateCoT 数据集结合了来自 8 个具有不同标注方案的仇恨言论数据集的样本。我们将其许多细粒度标签标准化为 3 个统一类别:
    • 0 = Benign(例如,“Not Hate”、“Normal”、“Neutral”)。
    • 1 = Offensive(例如,“Toxic”、“Offensive”)。
    • 2 = Hateful(例如,“Hate”、“Dehumanization”、“Directed Abuse”)。

Tweets(2023) / Tweets News(2017) / Tweets(2020-2021)

  • 文本内容: 来自 2017 年至 2023 年不同公共 Twitter 样本的推文,侧重于内容审核及相关辩论。样本量因年份和来源而异。
  • 来源: Gilardi et al (2023) (https://arxiv.org/abs/2303.15056)
  • 原始数据集地址: https://dataverse.harvard.edu/dataset.xhtml?persistentId=doi:10.7910/DVN/PQYF6M
  • 黄金标签: 未提供。
  • 支持的任务(来自标注代码手册,不包括政治内容任务):
    • T1 - 内容审核相关性: 推文是否关于内容审核?标签:relevant (1), irrelevant (0)。
    • T3 - 问题/解决方案框架: 推文是将内容审核描述为问题、解决方案还是两者都不是?标签:problem, solution, neutral
    • T4 - 政策框架(审核): 什么政策维度构成了内容审核问题的框架?标签示例:morality, fairness, security, equality, health 等。
    • T6 - 对第 230 条的立场: 推文是支持、反对还是对美国法律第 230 条持中立态度?标签:positive, negative, neutral
    • T7 - 主题分类: 与内容审核相关的主题是什么?标签示例:section 230, trump ban, complaints, platform policies 等。
  • 备注:
    • 每个任务在 prompt/task_descriptions/ 下都有专用的 .txt 任务描述。
    • 同一数据集可以在多个任务中重复使用;任务选择由所选提示控制。
    • 美国国会议员的推文(用于政治内容)单独处理(见下文)。

Tweets Congressional

  • 文本内容: 美国国会议员的推文(2017–2022)。
  • 来源: Gilardi et al (2023) (https://arxiv.org/abs/2303.15056)
  • 原始数据集地址: https://dataverse.harvard.edu/dataset.xhtml?persistentId=doi:10.7910/DVN/PQYF6M
  • 标注目标: 二元分类:推文是否具有政治性
  • 黄金标签: 未提供。

Misinfo / Misinfo Cancer

  • 文本内容: 新闻标题(Misinfo Reaction Frames 语料库是一个包含 2.5 万个新闻标题的数据集,这些标题指向经过事实核查的文章。文章内容可能涉及 Covid-19、癌症或气候变化)。
  • 来源: Gabriel et al. (2022) (https://arxiv.org/abs/2104.08790)
  • 原始数据集地址: https://github.com/skgabriel/mrf-modeling
  • 标注目标: 将标题分类为错误信息非错误信息
  • 黄金标签: 已提供。

Implicit Hate

  • 文本内容: 一个英文推文数据集,标注用于捕获显性和隐性仇恨言论。隐性仇恨包括刻板印象、讽刺或可能不公开表达仇恨的编码语言。数据最初从 Twitter 和 Social Bias Inference Corpus 收集。
  • 来源: Elsafoury et al. (2021) (https://aclanthology.org/2021.emnlp-main.29/)
  • 原始数据集地址: https://github.com/SALT-NLP/implicit-hate
  • 标注目标: 将帖子分类为 explicit_hateimplicit_hatenot_hate
  • 黄金标签: 已提供。
  • 解析阶段: 我们使用第 1 阶段标注进行解析:
    • explicit_hate: 公开的仇恨言论。
    • implicit_hate: 间接的仇恨言论(例如,刻板印象、讽刺)。
    • not_hate: 无仇恨内容。
  • 备注:
    • 原始数据集包含多个标注阶段(例如,细粒度子类型、隐含陈述)。
    • 第 2 阶段(细粒度)或第 3 阶段(目标/隐含含义)的额外解析将在稍后添加。

GWSD (Global Warming Stance Dataset)

  • 文本内容: 新闻片段(从 2000 年 1 月 1 日至 2020 年 4 月 12 日期间由美国各种新闻来源发布的全球变暖新闻文章中提取的观点片段)。
  • 来源: Luo et al. (2020) (https://aclanthology.org/2020.findings-emnlp.296/)
  • 原始数据集地址: https://github.com/yiweiluo/GWStance/blob/master/GWSD.tsv
  • 标注目标: 对“气候变化是一个严重问题”这一陈述的立场进行分类。标签:agreeneutraldisagree
  • 黄金标签: 已提供。

Bureaucracies

  • 文本内容: 危机沟通文本(来自国际危机的官僚电报和备忘录)。
  • 来源: Schub (2022) (https://www.cambridge.org/core/journals/american-political-science-review/article/informing-the-leader-bureaucracies-and-international-crises/EE9C4DF3F68A2DA31E753450DA910053)
  • 原始数据集地址: https://dataverse.harvard.edu/dataset.xhtml?persistentId=doi:10.7910/DVN/PXXUCO
  • 标注目标:
    • 信息类型任务:分类文本是否传达与冷战危机决策相关的 politicalmilitary 信息。
    • 确定性任务:确定顾问是以确定性还是不确定性表达信息。
  • 黄金标签: 仅“信息类型任务”可用。

Yelp Reviews

  • 文本内容: Yelp 餐厅评论。
  • 原始数据集地址: https://www.yelp.com/dataset
  • 标注目标:
    • 情感任务:对 Yelp 餐厅评论中表达的整体评价进行分类。
  • 黄金标签: 已提供。

Article Bias Prediction

  • 文本内容: 新闻文章(一组来自报道美国的媒体来源的文章。数据从 https://www.allsides.com/ 抓取。)。
  • 来源: Baly et al. (2020) (https://aclanthology.org/2020.emnlp-main.404/)
  • 原始数据集地址: https://github.com/ramybaly/Article-Bias-Prediction
  • 标注目标: 根据新闻文章的内容对其表达的政治倾向进行分类。标签:0(左)、1(中)、2(右)。
  • 黄金标签: 已提供。

Politeness Wiki

  • 文本内容: 维基百科编辑在用户讨论页上的请求。
  • 来源: Danescu-Niculescu-Mizil et al. (2013) (https://aclanthology.org/P13-1025.pdf)
  • 原始数据集地址: https://convokit.cornell.edu/documentation/wiki_politeness.html
  • 标注目标: 对文本的礼貌程度进行分类。标签:1(礼貌)、0(中性)、-1(不礼貌)。
  • 黄金标签: 已提供。

Politeness Stack

  • 文本内容: 来自 StackExchange 问答社区的请求。这些通常是用户对现有帖子发表评论,要求提供更多信息或建议编辑。
  • 来源: Danescu-Niculescu-Mizil et al. (2013) (https://aclanthology.org/P13-1025.pdf)
  • 原始数据集地址: https://convokit.cornell.edu/documentation/stack_politeness.html
  • 标注目标: 对文本的礼貌程度进行分类。标签:1(礼貌)、0(中性)、-1(不礼貌)。
  • 黄金标签: 已提供。
搜集汇总
数据集介绍
main_image_url
构建方式
RuleFollower_parsed数据集通过整合多个公开数据集构建而成,涵盖社交媒体、新闻、评论等多元文本类型。构建过程首先从原始数据源提取文本,并统一格式化为标准列结构,包括文本内容、唯一标识符、数据来源及可选的真实标签。为确保数据规模的一致性,每个子数据集被限制在五千个样本以内,若原始数据不足此数则全部保留。这种构建方式不仅保留了各原始数据集的标注任务与领域特性,还通过标准化处理增强了数据的可比性与复用性。
特点
该数据集的核心特点在于其多任务与多领域的覆盖范围,囊括了谣言检测、仇恨言论识别、立场分析、情感分类等十余项自然语言处理任务。数据集中的文本源自推特、新闻头条、学术论文、在线评论等多种渠道,时间跨度从2000年至2023年,体现了文本的时效性与多样性。此外,部分子数据集如HateCoT和Implicit Hate还进行了标签统一化处理,将细粒度标注映射为更通用的类别,提升了数据在跨任务评估中的适用性。
使用方法
使用该数据集时,研究者可根据具体任务选择相应的子数据集与标注列。每个子数据集均配有详细的任务描述文件,用户可通过指定任务标识符来调用对应的标注体系。数据集支持文本分类、立场检测、情感分析等多种下游应用,且同一文本可复用於不同任务,只需切换提示描述即可。对于无真实标签的数据,如部分推特数据集,其适用于模型生成或人工标注的评估场景;而带有真实标签的数据则直接可用於监督学习或基准测试。
背景与挑战
背景概述
RuleFollower Parsed数据集是RuleFollower项目的重要组成部分,该项目由相关研究团队于近年构建,旨在系统整合与解析多个异构的社交媒体与文本语料库,以支持对复杂语言行为与内容属性的统一建模。该数据集汇聚了包括谣言立场分类、仇恨言论检测、政治偏见分析、礼貌性评估等在内的十余个子集,涵盖从推特推文到新闻头条、从危机公文到在线评论的多样化文本类型。其核心研究问题聚焦于如何通过标准化的数据表示与任务框架,促进自然语言处理模型在理解社会语境、识别隐含意图及遵循复杂规则方面的能力发展,对计算社会科学与可信人工智能领域产生了显著的交叉影响。
当前挑战
该数据集所针对的领域问题涉及多维度社会语言理解,其首要挑战在于如何设计统一的模型以同时处理立场分类、情感分析、偏见检测等高度异质的语义任务,并克服不同子集间在语言风格、领域知识和标注准则上的巨大差异。在构建过程中,研究团队面临数据整合与标准化的严峻考验,包括将来自八个仇恨言论数据集的细粒度标签映射为统一的三个类别,以及对不同来源的原始标注方案进行对齐与清洗。此外,部分数据如推特内容缺乏黄金标准标签,需依赖任务描述文件引导模型推理,这进一步增加了构建可靠评估基准的复杂性。
常用场景
经典使用场景
在自然语言处理领域,rulefollower_parsed数据集为研究社会媒体内容分析与文本分类提供了丰富的多任务基准。该数据集整合了谣言检测、仇恨言论识别、立场分析等多个子集,其经典使用场景在于评估和训练模型在复杂社会语境下的泛化能力。研究者常利用该数据集进行跨领域迁移学习实验,探索模型在应对不同标注任务时的适应性,从而推动语言模型在理解社会动态方面的进展。
解决学术问题
该数据集有效解决了社会计算研究中标注数据分散、任务定义不统一的难题。通过整合多个权威子集并统一标注格式,它为比较不同算法在谣言立场分类、隐式仇恨检测、政治偏见预测等任务上的性能提供了标准化平台。其意义在于促进了跨任务评估框架的发展,使研究者能够系统性地探索语言模型在社会语境理解中的局限性与潜力,为构建更稳健的社会媒体分析工具奠定基础。
衍生相关工作
围绕该数据集衍生的经典工作主要集中在多任务学习框架与社会语境建模方向。例如,研究者利用其统一标注结构开发了可同时处理谣言检测与仇恨言论的分类器;基于跨数据集对比分析的研究揭示了模型在社会偏见传递中的规律;还有工作通过结合其多个子集,构建了能够理解政策辩论语境中隐含立场的社会语言理解模型,推动了计算社会科学与NLP的交叉创新。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作