HiTZ/Multilingual-BioASQ-6B
收藏Hugging Face2024-05-03 更新2024-04-19 收录
下载链接:
https://hf-mirror.com/datasets/HiTZ/Multilingual-BioASQ-6B
下载链接
链接失效反馈官方服务:
资源简介:
Multilingual BioASQ-6B数据集是一个多语言问答和摘要数据集,包含英语、西班牙语、法语和意大利语四个版本。每个版本的数据集包括训练集和测试集,特征包括id、type、body、ideal_answer、exact_answer、snippets、documents、triples和concepts。数据集主要用于生物学和医学领域的问答和摘要任务。数据集是通过将BioASQ-6B英语问答数据集翻译成其他语言生成的,使用了NLLB200 3B参数模型进行翻译。ideal_answer字段的翻译质量已经过验证,但exact_answer字段可能包含翻译错误,因为NLLB200在处理单句翻译时质量较低。
Multilingual BioASQ-6B数据集是一个多语言问答和摘要数据集,包含英语、西班牙语、法语和意大利语四个版本。每个版本的数据集包括训练集和测试集,特征包括id、type、body、ideal_answer、exact_answer、snippets、documents、triples和concepts。数据集主要用于生物学和医学领域的问答和摘要任务。数据集是通过将BioASQ-6B英语问答数据集翻译成其他语言生成的,使用了NLLB200 3B参数模型进行翻译。ideal_answer字段的翻译质量已经过验证,但exact_answer字段可能包含翻译错误,因为NLLB200在处理单句翻译时质量较低。
提供机构:
HiTZ
原始信息汇总
数据集概述
数据集名称
- Multilingual BioASQ-6B
数据集语言
- 英语 (en)
- 西班牙语 (es)
- 法语 (fr)
- 意大利语 (it)
数据集特征
- id (字符串类型)
- type (字符串类型)
- body (字符串类型)
- ideal_answer (字符串序列)
- exact_answer (字符串序列)
- snippets (字符串序列)
- documents (字符串序列)
- triples (列表类型,包含三个字符串类型的元素:p, s, o)
- concepts (字符串序列)
数据集分割
- 训练集 (train)
- 英语:2251个示例,10827410字节
- 西班牙语:2251个示例,11694723字节
- 法语:2251个示例,11760491字节
- 意大利语:2251个示例,11241823字节
- 测试集 (test)
- 英语:500个示例,1709411字节
- 西班牙语:500个示例,1808733字节
- 法语:500个示例,1799313字节
- 意大利语:500个示例,1737683字节
数据集大小
- 英语:下载大小5185124字节,数据集大小12536821字节
- 西班牙语:下载大小5417329字节,数据集大小13503456字节
- 法语:下载大小5402467字节,数据集大小13559804字节
- 意大利语:下载大小5320580字节,数据集大小12979506字节
数据集配置
- 英语:训练集路径为
en/train-*,测试集路径为en/test-* - 西班牙语:训练集路径为
es/train-*,测试集路径为es/test-* - 法语:训练集路径为
fr/train-*,测试集路径为fr/test-* - 意大利语:训练集路径为
it/train-*,测试集路径为it/test-*
数据集许可证
- Apache-2.0
数据集任务类别
- 问答
- 摘要
数据集标签
- 生物学
- 医学



