five

EMBO/soda-vec-data-full_pmc_title_abstract_paired

收藏
Hugging Face2025-10-02 更新2025-10-25 收录
下载链接:
https://hf-mirror.com/datasets/EMBO/soda-vec-data-full_pmc_title_abstract_paired
下载链接
链接失效反馈
官方服务:
资源简介:
SODA-VEC配对数据集是专门为负采样训练而格式化的SODA-VEC数据集的一个版本。该数据集包含26,573,900个配对示例,每个示例由一篇科学文章的标题(锚点)、摘要(正例)和PubMed Central ID组成。该数据集用于训练带有负采样的句子转换器,数据来源于EMBO/soda-vec-data-full_pmc_title_abstract数据集,并遵循对比学习格式。该数据集在CC-BY-4.0许可下发布。

The SODA-VEC Paired Dataset is a version of the SODA-VEC dataset specifically formatted for negative sampling training. It contains 26,573,900 paired examples, each consisting of a scientific articles title (anchor), abstract (positive), and PubMed Central ID. The dataset is used for training sentence transformers with negative sampling and is sourced from the EMBO/soda-vec-data-full_pmc_title_abstract dataset, formatted for contrastive learning. The dataset is released under the CC-BY-4.0 license.
提供机构:
EMBO
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作