five

tmnam20/ViPubMed

收藏
Hugging Face2024-03-25 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/tmnam20/ViPubMed
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含约2000万条越南语的PubMed生物医学摘要,这些摘要是通过最先进的英越翻译项目从英语翻译而来。数据集主要用于无标签数据预训练越南语生物医学领域的Transformer模型。

该数据集包含约2000万条越南语的PubMed生物医学摘要,这些摘要是通过最先进的英越翻译项目从英语翻译而来。数据集主要用于无标签数据预训练越南语生物医学领域的Transformer模型。
提供机构:
tmnam20
原始信息汇总

数据集概述

数据集基本信息

  • 许可证: cc
  • 语言:
    • 英语 (en)
    • 越南语 (vi)
  • 任务类别:
    • 文本生成
    • 填空模型
  • 任务ID:
    • 语言建模
    • 掩码语言建模
  • Papers with Code ID: pubmed

数据集特征

  • 特征名称与数据类型:
    • en: 字符串
    • vi: 字符串

数据集分割

  • 分割名称: pubmed22
  • 数据大小: 44360028980 字节
  • 示例数量: 20087006

下载与数据集大小

  • 下载大小: 23041004247 字节
  • 数据集大小: 44360028980 字节

数据集内容

  • 英语: 原始生物医学摘要,来源自 PubMed
  • 越南语: 由先进的英语-越南语翻译项目翻译的摘要

数据集用途

  • 用于预训练越南语生物医学领域的Transformer模型
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作