five

VietAI/vi_pubmed

收藏
Hugging Face2024-01-09 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/VietAI/vi_pubmed
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含2000万条越南语PubMed生物医学摘要,这些摘要是通过最先进的英越翻译项目从英语翻译而来的。数据集被用作无标签数据集,用于预训练越南生物医学领域的Transformer模型。原始数据来自PubMed,翻译后的越南语摘要由英越翻译项目生成。数据集的结构包括英语和越南语序列,数据集的下载大小为23041004247字节,数据集大小为44360028980字节。
提供机构:
VietAI
原始信息汇总

数据集概述

数据集信息

  • 许可证: cc
  • 语言:
    • 英语 (en)
    • 越南语 (vi)
  • 任务类别:
    • 文本生成
    • 填充掩码
  • 任务ID:
    • 语言建模
    • 掩码语言建模
  • paperswithcode ID: pubmed

数据集特征

  • 特征名称与数据类型:
    • en: 字符串
    • vi: 字符串

数据集分割

  • 分割名称: pubmed22
  • 数据大小: 44360028980 字节
  • 示例数量: 20087006
  • 下载大小: 23041004247 字节
  • 数据集大小: 44360028980 字节

数据集描述

语言信息

数据集结构

  • 英语序列: 未提供具体信息
  • 越南语序列: 未提供具体信息
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作