Gabriel/pubmed_swe
收藏Hugging Face2022-10-29 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Gabriel/pubmed_swe
下载链接
链接失效反馈官方服务:
资源简介:
瑞典版PubMed数据集是通过机器翻译从英文版PubMed数据集转换而来,旨在改进瑞典语摘要生成任务的下游微调。数据集包含文档和摘要两个字段,数据分割与原始英文版相同,仅包含训练集,共有90,000个实例。
The Swedish PubMed Dataset is constructed via machine translation from the English-language PubMed dataset, and is aimed at improving downstream fine-tuning for Swedish abstract generation tasks. The dataset consists of two fields: document and summary. Its data splitting scheme is consistent with that of the original English version, and it only includes the training split, with a total of 90,000 instances.
提供机构:
Gabriel
原始信息汇总
瑞典PubMed数据集概述
数据集描述
- 语言: 瑞典语
- 许可证: 其他
- 大小类别: 10K<n<100K
- 源数据集: https://github.com/huggingface/datasets/tree/master/datasets/pubmed
- 任务类别:
- 摘要生成
- 文本到文本生成
- 标签: 条件文本生成
数据集概要
瑞典PubMed数据集仅通过机器翻译,以改善瑞典语摘要生成任务的下游微调。
数据字段
document: 包含论文主体的字符串summary: 包含论文摘要的字符串
数据分割
瑞典PubMed数据集遵循与原始英语版本相同的分割,并具有1个分割:train。
| 数据集分割 | 分割中的实例数量 |
|---|---|
| 训练 | 90,000 |



