copenlu/scientific-exaggeration-detection
收藏Hugging Face2024-07-03 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/copenlu/scientific-exaggeration-detection
下载链接
链接失效反馈官方服务:
资源简介:
公众对科学的信任依赖于科学论文的诚实和事实性沟通。然而,最近的研究表明,新闻媒体倾向于通过夸大其发现来歪曲科学论文。鉴于此,我们提出了科学沟通中夸大检测问题的形式化和研究。虽然有许多科学论文和关于它们的流行媒体文章,但很少有文章直接链接到原始论文,这使得数据收集具有挑战性。我们通过从现有的专家注释研究中整理出一组标记的新闻稿/摘要对来解决这个问题,这些对适用于在任务上对机器学习模型的性能进行基准测试。利用来自此和之前关于科学夸大检测研究的有限数据,我们引入了MT-PET,一种多任务版本的Pattern Exploiting Training (PET),它利用来自补充的填空式QA任务的知识来改进少样本学习。我们证明,当数据有限时,以及当主要任务有大量数据时,MT-PET优于PET和监督学习。
提供机构:
copenlu
原始信息汇总
数据集概述
- 名称: Scientific Exaggeration Detection
- 别名: 科学夸张检测
- 语言: 英语
- 许可证: GPL-3.0
- 多语言性: 单语种
- 任务类别: 文本分类
- 任务ID: 自然语言推理, 多输入文本分类
- 标签: 科学文本, 学术文本, 推理, 事实核查, 错误信息
- 大小类别: 小于1K
- 注释创建者: 专家生成
- 语言创建者: 发现
数据集描述
- 摘要: 该数据集旨在解决科学论文新闻媒体中的夸张问题,通过提供一组标记的新闻发布/摘要对,用于评估机器学习模型在夸张检测任务上的性能。数据集利用了来自InSciOut研究的有限数据,并引入了MT-PET,一种多任务版本的Pattern Exploiting Training,以改善少样本学习。
数据集结构
- 数据来源: 训练和测试数据源自Sumner et al. 2014和Bratton et al. 2019的研究。
- 数据字段:
- original_file_id: 原始数据表ID
- press_release_conclusion: 新闻发布结论句
- press_release_strength: 新闻发布强度标签
- abstract_conclusion: 摘要结论句
- abstract_strength: 摘要强度标签
- exaggeration_label: 最终夸张标签(same, exaggerates, downplays)
- strength_label: 强度标签(0: 无关系声明, 1: 相关性声明, 2: 条件因果声明, 3: 因果声明)
数据集创建
- 详细信息: 数据集的详细创建过程参见论文第4节。
- 原始数据: 原始InSciOut数据可在此处找到。
引用信息
@inproceedings{wright2021exaggeration, title={{Semi-Supervised Exaggeration Detection of Health Science Press Releases}}, author={Dustin Wright and Isabelle Augenstein}, booktitle = {Proceedings of EMNLP}, publisher = {Association for Computational Linguistics}, year = 2021 }



