tabilab/biosses|生物医学数据集|文本相似度评分数据集

hugging_face2024-01-10 更新2024-05-25 收录

生物医学

文本相似度评分

下载链接：

https://hf-mirror.com/datasets/tabilab/biosses

下载链接

链接失效反馈

资源简介：

BIOSSES是一个用于生物医学句子相似性估计的基准数据集。该数据集包含100个句子对，每个句子对选自TAC（文本分析会议）生物医学摘要跟踪训练数据集中的生物医学领域文章。句子对由五位不同的人类专家评估其相似性，并给出0（无关系）到4（等价）的评分。在原始论文中，五位人类注释者评分的平均值被作为黄金标准。使用Pearson相关系数作为评估指标，评估模型估计的评分与黄金标准评分之间的相关性。

提供机构：

tabilab

原始信息汇总

数据集概述

数据集名称

名称: BIOSSES
别名: BIOSSES

数据集基本信息

语言: 英语
许可证: GPL-3.0
多语言性: 单语
大小类别: 小于1K
源数据集: 原始
任务类别: 文本分类
任务ID: 文本评分, 语义相似度评分

数据集结构

特征:
- sentence1: 字符串
- sentence2: 字符串
- score: 浮点数（32位）
数据分割:
- 训练集: 100个样本, 32775字节

数据集创建

来源数据: TAC (Text Analysis Conference) Biomedical Summarization Track Training Dataset
注释: 由五位不同的人类专家评估句子对相似性并给出评分，评分范围从0（无关）到4（等同）。

使用数据集的注意事项

许可证: 根据GNU通用公共许可证v.3.0提供
引用信息:

@article{souganciouglu2017biosses, title={BIOSSES: a semantic sentence similarity estimation system for the biomedical domain}, author={So{u{g}}anc{i}o{u{g}}lu, Gizem and {"O}zt{"u}rk, Hakime and {"O}zg{"u}r, Arzucan}, journal={Bioinformatics}, volume={33}, number={14}, pages={i49--i58}, year={2017}, publisher={Oxford University Press} }

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

中国食物成分数据库

食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源，是提供人类基本需求和基本社会保障的先决条件；也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础，兼具学术、经济、社会等多种价值。本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分（含胆固醇）数据，657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。

国家人口健康科学数据中心收录

中国空气质量数据集（2014-2020年）

数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI，包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台，每日更新。数据集的原始文件为CSV的文本记录，通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。

国家地球系统科学数据中心收录

UniProt

UniProt（Universal Protein Resource）是全球公认的蛋白质序列与功能信息权威数据库，由欧洲生物信息学研究所（EBI）、瑞士生物信息学研究所（SIB）和美国蛋白质信息资源中心（PIR）联合运营。该数据库以其广度和深度兼备的蛋白质信息资源闻名，整合了实验验证的高质量数据与大规模预测的自动注释内容，涵盖从分子序列、结构到功能的全面信息。UniProt核心包括注释详尽的UniProtKB知识库（分为人工校验的Swiss-Prot和自动生成的TrEMBL），以及支持高效序列聚类分析的UniRef和全局蛋白质序列归档的UniParc。其卓越的数据质量和多样化的检索工具，为基础研究和药物研发提供了无可替代的支持，成为生物学研究中不可或缺的资源。

www.uniprot.org 收录

DALY

DALY数据集包含了全球疾病负担研究（Global Burden of Disease Study）中的伤残调整生命年（Disability-Adjusted Life Years, DALYs）数据。该数据集提供了不同国家和地区在不同年份的DALYs指标，用于衡量因疾病、伤害和早逝导致的健康损失。

ghdx.healthdata.org 收录

MedDialog

MedDialog数据集（中文）包含了医生和患者之间的对话（中文）。它有110万个对话和400万个话语。数据还在不断增长，会有更多的对话加入。原始对话来自好大夫网。

github 收录