copenlu/spiced

Name: copenlu/spiced
Creator: copenlu
Published: 2024-07-01 15:38:51
License: 暂无描述

Hugging Face2024-07-01 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/copenlu/spiced

下载链接

链接失效反馈

官方服务：

资源简介：

SPICED（科学释义和信息变化数据集）是一个包含来自科学论文、新闻媒体和Twitter的配对科学发现的数据集。配对类型包括<论文, 新闻>和<论文, 推文>。每对句子都标注了信息相似度评分（IMS），评分范围为1到5。数据集从S2ORC中提取科学文本，并通过Altmetric匹配新闻文章和推文。实例由专家通过Prolific平台和Potato进行标注。数据集支持的任务是预测两个科学句子之间的IMS，优选指标为均方误差和皮尔逊相关系数。数据集的语言为英语，数据字段包括DOI、实例ID、新闻发现、论文发现、新闻上下文、论文上下文、评分、学术领域、数据集分割、最终评分、来源和新闻URL。数据集分为训练集（4721个实例）、验证集（664个实例）和测试集（640个实例）。

提供机构：

copenlu

原始信息汇总

数据集概述：SPICED

数据集描述

数据集总结

名称: SPICED (Scientific Paraphrase and Information ChangE Dataset)
内容: 包含科学论文、新闻媒体和Twitter中的科学发现配对数据集。配对类型包括<paper, news>和<paper, tweet>。
标注: 每个配对根据描述的发现信息相似度进行1-5分的标注，称为_Information Matching Score (IMS)_。
来源: 数据来源于S2ORC，新闻文章和推文通过Altmetric匹配。
使用指南: 使用时请引用以下文献：

@article{modeling-information-change, title={{Modeling Information Change in Science Communication with Semantically Matched Paraphrases}}, author={Wright, Dustin and Pei, Jiaxin and Jurgens, David and Augenstein, Isabelle}, year={2022}, booktitle = {Proceedings of EMNLP}, publisher = {Association for Computational Linguistics}, year = 2022 }

支持的任务和排行榜

任务: 预测两个科学句子之间的IMS，范围为1至5。
评估指标: 均方误差和皮尔逊相关系数。

语言

语言: 英语

数据集结构

数据字段

DOI: 原始科学文章的DOI
instance_id: 样本的唯一实例ID
News Finding: 新闻或推文发现的文本
Paper Finding: 论文发现的文本
News Context: 新闻实例的周围两句话，推文则为推文本身
Paper Context: 论文发现的周围两句话
scores: 移除低能力标注者后的标注者分数
field: 论文的学术领域（计算机科学、医学、生物学、心理学）
split: 数据集分割（训练、验证、测试）
final_score: 实例的IMS
source: 来源类型（新闻或推文）
News Url: 新闻实例的源文章URL或推文的推文ID

数据分割

训练: 4721个实例
验证: 664个实例
测试: 640个实例

数据集创建

来源数据

科学文本: S2ORC
新闻文章和推文: 通过Altmetric收集
语言生产者: 科学家、记者和Twitter用户

许可信息

许可: MIT

5,000+

优质数据集

54 个

任务类型

进入经典数据集