copenlu/scientific-exaggeration-detection

Name: copenlu/scientific-exaggeration-detection
Creator: copenlu
Published: 2024-07-03 13:16:52
License: 暂无描述

Hugging Face2024-07-03 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/copenlu/scientific-exaggeration-detection

下载链接

链接失效反馈

官方服务：

资源简介：

公众对科学的信任依赖于科学论文的诚实和事实性沟通。然而，最近的研究表明，新闻媒体倾向于通过夸大其发现来歪曲科学论文。鉴于此，我们提出了科学沟通中夸大检测问题的形式化和研究。虽然有许多科学论文和关于它们的流行媒体文章，但很少有文章直接链接到原始论文，这使得数据收集具有挑战性。我们通过从现有的专家注释研究中整理出一组标记的新闻稿/摘要对来解决这个问题，这些对适用于在任务上对机器学习模型的性能进行基准测试。利用来自此和之前关于科学夸大检测研究的有限数据，我们引入了MT-PET，一种多任务版本的Pattern Exploiting Training (PET)，它利用来自补充的填空式QA任务的知识来改进少样本学习。我们证明，当数据有限时，以及当主要任务有大量数据时，MT-PET优于PET和监督学习。

提供机构：

copenlu

原始信息汇总

数据集概述

名称: Scientific Exaggeration Detection
别名: 科学夸张检测
语言: 英语
许可证: GPL-3.0
多语言性: 单语种
任务类别: 文本分类
任务ID: 自然语言推理, 多输入文本分类
标签: 科学文本, 学术文本, 推理, 事实核查, 错误信息
大小类别: 小于1K
注释创建者: 专家生成
语言创建者: 发现

数据集描述

摘要: 该数据集旨在解决科学论文新闻媒体中的夸张问题，通过提供一组标记的新闻发布/摘要对，用于评估机器学习模型在夸张检测任务上的性能。数据集利用了来自InSciOut研究的有限数据，并引入了MT-PET，一种多任务版本的Pattern Exploiting Training，以改善少样本学习。

数据集结构

数据来源: 训练和测试数据源自Sumner et al. 2014和Bratton et al. 2019的研究。
数据字段:
- original_file_id: 原始数据表ID
- press_release_conclusion: 新闻发布结论句
- press_release_strength: 新闻发布强度标签
- abstract_conclusion: 摘要结论句
- abstract_strength: 摘要强度标签
- exaggeration_label: 最终夸张标签（same, exaggerates, downplays）
- strength_label: 强度标签（0: 无关系声明, 1: 相关性声明, 2: 条件因果声明, 3: 因果声明）

数据集创建

详细信息: 数据集的详细创建过程参见论文第4节。
原始数据: 原始InSciOut数据可在此处找到。

引用信息

@inproceedings{wright2021exaggeration, title={{Semi-Supervised Exaggeration Detection of Health Science Press Releases}}, author={Dustin Wright and Isabelle Augenstein}, booktitle = {Proceedings of EMNLP}, publisher = {Association for Computational Linguistics}, year = 2021 }

5,000+

优质数据集

54 个

任务类型

进入经典数据集