five

HiTZ/Multilingual-BioASQ-6B

收藏
Hugging Face2024-05-03 更新2024-04-19 收录
下载链接:
https://hf-mirror.com/datasets/HiTZ/Multilingual-BioASQ-6B
下载链接
链接失效反馈
官方服务:
资源简介:
Multilingual BioASQ-6B数据集是一个多语言问答和摘要数据集,包含英语、西班牙语、法语和意大利语四个版本。每个版本的数据集包括训练集和测试集,特征包括id、type、body、ideal_answer、exact_answer、snippets、documents、triples和concepts。数据集主要用于生物学和医学领域的问答和摘要任务。数据集是通过将BioASQ-6B英语问答数据集翻译成其他语言生成的,使用了NLLB200 3B参数模型进行翻译。ideal_answer字段的翻译质量已经过验证,但exact_answer字段可能包含翻译错误,因为NLLB200在处理单句翻译时质量较低。

Multilingual BioASQ-6B数据集是一个多语言问答和摘要数据集,包含英语、西班牙语、法语和意大利语四个版本。每个版本的数据集包括训练集和测试集,特征包括id、type、body、ideal_answer、exact_answer、snippets、documents、triples和concepts。数据集主要用于生物学和医学领域的问答和摘要任务。数据集是通过将BioASQ-6B英语问答数据集翻译成其他语言生成的,使用了NLLB200 3B参数模型进行翻译。ideal_answer字段的翻译质量已经过验证,但exact_answer字段可能包含翻译错误,因为NLLB200在处理单句翻译时质量较低。
提供机构:
HiTZ
原始信息汇总

数据集概述

数据集名称

  • Multilingual BioASQ-6B

数据集语言

  • 英语 (en)
  • 西班牙语 (es)
  • 法语 (fr)
  • 意大利语 (it)

数据集特征

  • id (字符串类型)
  • type (字符串类型)
  • body (字符串类型)
  • ideal_answer (字符串序列)
  • exact_answer (字符串序列)
  • snippets (字符串序列)
  • documents (字符串序列)
  • triples (列表类型,包含三个字符串类型的元素:p, s, o)
  • concepts (字符串序列)

数据集分割

  • 训练集 (train)
    • 英语:2251个示例,10827410字节
    • 西班牙语:2251个示例,11694723字节
    • 法语:2251个示例,11760491字节
    • 意大利语:2251个示例,11241823字节
  • 测试集 (test)
    • 英语:500个示例,1709411字节
    • 西班牙语:500个示例,1808733字节
    • 法语:500个示例,1799313字节
    • 意大利语:500个示例,1737683字节

数据集大小

  • 英语:下载大小5185124字节,数据集大小12536821字节
  • 西班牙语:下载大小5417329字节,数据集大小13503456字节
  • 法语:下载大小5402467字节,数据集大小13559804字节
  • 意大利语:下载大小5320580字节,数据集大小12979506字节

数据集配置

  • 英语:训练集路径为en/train-*,测试集路径为en/test-*
  • 西班牙语:训练集路径为es/train-*,测试集路径为es/test-*
  • 法语:训练集路径为fr/train-*,测试集路径为fr/test-*
  • 意大利语:训练集路径为it/train-*,测试集路径为it/test-*

数据集许可证

  • Apache-2.0

数据集任务类别

  • 问答
  • 摘要

数据集标签

  • 生物学
  • 医学
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作