VietAI/vi_pubmed
收藏Hugging Face2024-01-09 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/VietAI/vi_pubmed
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含2000万条越南语PubMed生物医学摘要,这些摘要是通过最先进的英越翻译项目从英语翻译而来的。数据集被用作无标签数据集,用于预训练越南生物医学领域的Transformer模型。原始数据来自PubMed,翻译后的越南语摘要由英越翻译项目生成。数据集的结构包括英语和越南语序列,数据集的下载大小为23041004247字节,数据集大小为44360028980字节。
提供机构:
VietAI
原始信息汇总
数据集概述
数据集信息
- 许可证: cc
- 语言:
- 英语 (en)
- 越南语 (vi)
- 任务类别:
- 文本生成
- 填充掩码
- 任务ID:
- 语言建模
- 掩码语言建模
- paperswithcode ID: pubmed
数据集特征
- 特征名称与数据类型:
- en: 字符串
- vi: 字符串
数据集分割
- 分割名称: pubmed22
- 数据大小: 44360028980 字节
- 示例数量: 20087006
- 下载大小: 23041004247 字节
- 数据集大小: 44360028980 字节
数据集描述
- 内容: 20M越南语PubMed生物医学摘要,由state-of-the-art English-Vietnamese Translation project翻译。该数据已被用作pretraining a Vietnamese Biomedical-domain Transformer model的无标签数据集。
语言信息
- 英语: 原始生物医学摘要来自Pubmed
- 越南语: 由state-of-the-art English-Vietnamese Translation project翻译的合成摘要
数据集结构
- 英语序列: 未提供具体信息
- 越南语序列: 未提供具体信息



