EMBO/biolang
收藏Hugging Face2023-01-11 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/EMBO/biolang
下载链接
链接失效反馈官方服务:
资源简介:
BioLang数据集是一个基于欧洲PubMed Central开放获取部分的摘要构建的数据集,主要用于生物学领域的语言模型训练。数据集支持多种任务,包括随机掩码语言建模和特定词性掩码语言建模。数据集的创建目的是为了训练细胞和分子生物学领域的语言模型,数据来源包括论文摘要和图表说明。数据集的注释是通过Spacy的`en_core_web_sm`模型自动进行的。数据集的语言为英语,大小为超过100万条数据。
提供机构:
EMBO
原始信息汇总
数据集概述
数据集基本信息
- 名称: BioLang
- 语言: 英语
- 许可证: CC-BY 4.0
- 多语言性: 单语种
- 大小: 超过100万条数据
- 注释创建者: 机器生成
- 语言创建者: 专家生成
数据集描述
数据集摘要
BioLang 数据集基于 EuropePubMed Central 的开放获取部分,用于训练生物学领域的语言模型。该数据集可用于随机掩码语言建模或仅使用特定词性掩码的语言建模。
支持的任务和排行榜
MLM: 掩码语言建模DET: 词性掩码语言模型,带有限定词 (DET) 标记SMALL: 词性掩码语言模型,带有“小”词 (DET,CCONJ,SCONJ,ADP,PRON) 标记VERB: 词性掩码语言模型,带有动词 (VERB) 标记
数据集结构
数据实例
每个数据实例包含以下字段:
input_ids: 整数列表,表示输入的标识符。label_ids: 字符串列表,表示标签标识符。special_tokens_mask: 整数列表,表示特殊标记的掩码。
数据字段
MLM:input_ids: 整数列表special_tokens_mask: 整数列表
DET,VERB,SMALL:input_ids: 整数列表tag_mask: 整数列表
数据分割
train: 包含 input_ids 和 special_tokens_mask,共 12,005,390 行。test: 包含 input_ids 和 special_tokens_mask,共 37,112 行。validation: 包含 input_ids 和 special_tokens_mask,共 36,713 行。
数据集创建
数据收集和规范化
数据从 EuropePMC 的开放获取部分收集,使用 roberta-base 分词器和 Spacy 的 en_core_web_sm 模型进行词性标记。
注释过程
词性标记是自动完成的,使用 Spacy 的 en_core_web_sm 模型。
源语言生产者
源语言由专家科学家生产。
搜集汇总
数据集介绍

背景与挑战
背景概述
BioLang是一个基于欧洲PubMed Central开放获取摘要构建的英文数据集,专门用于训练生物学领域的语言模型。它支持多种掩码语言建模任务,包括随机掩码和基于特定词性(如动词、限定词)的掩码,数据规模较大,训练集超过1200万行,总大小约5.3 GB,适用于专业语言模型开发。
以上内容由遇见数据集搜集并总结生成



