five

EMBO/soda-vec-data-full_pmc_title_abstract

收藏
Hugging Face2025-07-31 更新2025-10-25 收录
下载链接:
https://hf-mirror.com/datasets/EMBO/soda-vec-data-full_pmc_title_abstract
下载链接
链接失效反馈
官方服务:
资源简介:
SODA-VEC Clean Dataset是一个经过清洗和过滤的SODA-VEC数据集,包含了来自PubMed Central (PMC)文章的高质量生物医学标题-摘要对。该数据集经过长度过滤等质量控制步骤,以确保数据的高质量。它适用于科学文本嵌入、生物医学自然语言处理、语义相似性学习和信息检索等应用。

The SODA-VEC Clean Dataset is a cleaned and filtered version of the SODA-VEC dataset, containing high-quality biomedical title-abstract pairs from PubMed Central (PMC) articles. The dataset has undergone quality control measures including length filtering to ensure high-quality data. It is suitable for applications such as scientific text embeddings, biomedical NLP, semantic similarity learning, and information retrieval.
提供机构:
EMBO
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作