ATLASBIOINFO/pubmed_embedding
收藏Hugging Face2024-05-21 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/ATLASBIOINFO/pubmed_embedding
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含从PubMed数据集中生成的嵌入,嵌入是使用NeuML/pubmedbert-base-embedding模型生成的。每个嵌入以列表形式表示,并包含文章的标题、第一作者、PubMed ID、发布日期等元数据。数据集的结构如下:每个节点的唯一标识符为`node-{tpubmed}-{idx}`,其中`tpubmed`是PubMed ID,`idx`是条目的索引。元数据包括文章的标题、第一作者、PubMed ID、发布日期等。数据集的原始数据来源于https://huggingface.co/datasets/ncbi/pubmed。
该数据集包含从PubMed数据集中生成的嵌入,嵌入是使用NeuML/pubmedbert-base-embedding模型生成的。每个嵌入以列表形式表示,并包含文章的标题、第一作者、PubMed ID、发布日期等元数据。数据集的结构如下:每个节点的唯一标识符为`node-{tpubmed}-{idx}`,其中`tpubmed`是PubMed ID,`idx`是条目的索引。元数据包括文章的标题、第一作者、PubMed ID、发布日期等。数据集的原始数据来源于https://huggingface.co/datasets/ncbi/pubmed。
提供机构:
ATLASBIOINFO
原始信息汇总
数据集概述
基本信息
- 名称: PubMed Embeddings Dataset
- 许可证: MIT
- 任务类别: 文本生成
- 语言: 英语
- 标签: pubmed embedding
- 大小类别: 100M<n<1B
数据集结构
-
每行代表一个嵌入,格式如下: python node.id_ = f"node-{tpubmed}-{idx}" node.metadata["title"] = ttitle node.metadata["author"] = firstAuthor node.metadata["pubmed"] = tpubmed node.metadata["date"] = tdate node.metadata["key"] = tpubmed node.metadata["source"] = "Pubmed"
node.id_: 唯一标识符,格式为node-{tpubmed}-{idx}node.metadata["title"]: PubMed文章标题node.metadata["author"]: PubMed文章的第一作者node.metadata["pubmed"]: PubMed文章IDnode.metadata["date"]: 文章发表日期node.metadata["key"]: PubMed文章ID(与node.metadata["pubmed"]相同)node.metadata["source"]: 数据来源,始终为"Pubmed"
使用方法
- 加载: 使用首选的数据处理库或工具加载数据集
- 访问: 通过上述定义的键访问每个嵌入的元数据
原始数据源
- 链接: https://huggingface.co/datasets/ncbi/pubmed
- 注意事项: 请参考原始数据集的文档和许可证以获取更多信息
嵌入模型
- 模型: NeuML/pubmedbert-base-embedding
- 信息获取: 请参阅模型文档以了解更多关于模型及其性能的信息



