five

copenlu/scientific-exaggeration-detection

收藏
Hugging Face2024-07-03 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/copenlu/scientific-exaggeration-detection
下载链接
链接失效反馈
官方服务:
资源简介:
公众对科学的信任依赖于科学论文的诚实和事实性沟通。然而,最近的研究表明,新闻媒体倾向于通过夸大其发现来歪曲科学论文。鉴于此,我们提出了科学沟通中夸大检测问题的形式化和研究。虽然有许多科学论文和关于它们的流行媒体文章,但很少有文章直接链接到原始论文,这使得数据收集具有挑战性。我们通过从现有的专家注释研究中整理出一组标记的新闻稿/摘要对来解决这个问题,这些对适用于在任务上对机器学习模型的性能进行基准测试。利用来自此和之前关于科学夸大检测研究的有限数据,我们引入了MT-PET,一种多任务版本的Pattern Exploiting Training (PET),它利用来自补充的填空式QA任务的知识来改进少样本学习。我们证明,当数据有限时,以及当主要任务有大量数据时,MT-PET优于PET和监督学习。
提供机构:
copenlu
原始信息汇总

数据集概述

  • 名称: Scientific Exaggeration Detection
  • 别名: 科学夸张检测
  • 语言: 英语
  • 许可证: GPL-3.0
  • 多语言性: 单语种
  • 任务类别: 文本分类
  • 任务ID: 自然语言推理, 多输入文本分类
  • 标签: 科学文本, 学术文本, 推理, 事实核查, 错误信息
  • 大小类别: 小于1K
  • 注释创建者: 专家生成
  • 语言创建者: 发现

数据集描述

  • 摘要: 该数据集旨在解决科学论文新闻媒体中的夸张问题,通过提供一组标记的新闻发布/摘要对,用于评估机器学习模型在夸张检测任务上的性能。数据集利用了来自InSciOut研究的有限数据,并引入了MT-PET,一种多任务版本的Pattern Exploiting Training,以改善少样本学习。

数据集结构

  • 数据来源: 训练和测试数据源自Sumner et al. 2014和Bratton et al. 2019的研究。
  • 数据字段:
    • original_file_id: 原始数据表ID
    • press_release_conclusion: 新闻发布结论句
    • press_release_strength: 新闻发布强度标签
    • abstract_conclusion: 摘要结论句
    • abstract_strength: 摘要强度标签
    • exaggeration_label: 最终夸张标签(same, exaggerates, downplays)
    • strength_label: 强度标签(0: 无关系声明, 1: 相关性声明, 2: 条件因果声明, 3: 因果声明)

数据集创建

  • 详细信息: 数据集的详细创建过程参见论文第4节。
  • 原始数据: 原始InSciOut数据可在此处找到。

引用信息

@inproceedings{wright2021exaggeration, title={{Semi-Supervised Exaggeration Detection of Health Science Press Releases}}, author={Dustin Wright and Isabelle Augenstein}, booktitle = {Proceedings of EMNLP}, publisher = {Association for Computational Linguistics}, year = 2021 }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作