qanastek/MORFITT
收藏Hugging Face2023-08-25 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/qanastek/MORFITT
下载链接
链接失效反馈官方服务:
资源简介:
MORFITT是第一个用于医学领域专业分类的多标签法语语料库。该数据集包含3,624篇来自PubMed的科学文章摘要,标注了12个专业领域。文章详细描述了语料库、实验以及使用基于预训练语言模型CamemBERT的分类器获得的初步结果。数据集还提供了详细的分布情况,包括文档分布、多标签分布、每个文档的标签数量分布以及标签共现分布。
MORFITT是第一个用于医学领域专业分类的多标签法语语料库。该数据集包含3,624篇来自PubMed的科学文章摘要,标注了12个专业领域。文章详细描述了语料库、实验以及使用基于预训练语言模型CamemBERT的分类器获得的初步结果。数据集还提供了详细的分布情况,包括文档分布、多标签分布、每个文档的标签数量分布以及标签共现分布。
提供机构:
qanastek
原始信息汇总
数据集概述
基本信息
- 数据集名称: MORFITT
- 许可证: Apache-2.0
- 任务类别: 文本分类
- 语言: 法语
- 标签: 医学、生物学
- 数据集大小: 1K<n<10K
数据集描述
MORFITT是首个针对医学领域中法语文献的多标签分类语料库,包含3,624篇来自PubMed的科学文章摘要,被标注为12个专业领域。该数据集用于训练基于预训练语言模型CamemBERT的分类器,并已取得初步实验结果。
数据集结构
-
文档分布:
- 训练集: 1,514篇
- 验证集: 1,022篇
- 测试集: 1,088篇
-
多标签分布:
- 共12个专业领域,包括兽医学、病因学、心理学等,每个领域的训练、验证和测试集的文档数量均有详细记录。
使用方法
- 通过HuggingFace Transformers加载数据集的示例代码如下: python from datasets import load_dataset dataset = load_dataset("qanastek/MORFITT") print(dataset)
许可证和引用
- 代码许可证: Apache-2.0
- 数据集许可证: CC BY-SA 4.0
- 引用: 如在研究中使用此数据集,请引用相关论文。



