tmnam20/ViPubMed
收藏Hugging Face2024-03-25 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/tmnam20/ViPubMed
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含约2000万条越南语的PubMed生物医学摘要,这些摘要是通过最先进的英越翻译项目从英语翻译而来。数据集主要用于无标签数据预训练越南语生物医学领域的Transformer模型。
该数据集包含约2000万条越南语的PubMed生物医学摘要,这些摘要是通过最先进的英越翻译项目从英语翻译而来。数据集主要用于无标签数据预训练越南语生物医学领域的Transformer模型。
提供机构:
tmnam20
原始信息汇总
数据集概述
数据集基本信息
- 许可证: cc
- 语言:
- 英语 (en)
- 越南语 (vi)
- 任务类别:
- 文本生成
- 填空模型
- 任务ID:
- 语言建模
- 掩码语言建模
- Papers with Code ID: pubmed
数据集特征
- 特征名称与数据类型:
- en: 字符串
- vi: 字符串
数据集分割
- 分割名称: pubmed22
- 数据大小: 44360028980 字节
- 示例数量: 20087006
下载与数据集大小
- 下载大小: 23041004247 字节
- 数据集大小: 44360028980 字节
数据集内容
- 英语: 原始生物医学摘要,来源自 PubMed
- 越南语: 由先进的英语-越南语翻译项目翻译的摘要
数据集用途
- 用于预训练越南语生物医学领域的Transformer模型



