qanastek/MORFITT

Name: qanastek/MORFITT
Creator: qanastek
Published: 2023-08-25 10:41:05
License: 暂无描述

Hugging Face2023-08-25 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/qanastek/MORFITT

下载链接

链接失效反馈

官方服务：

资源简介：

MORFITT是第一个用于医学领域专业分类的多标签法语语料库。该数据集包含3,624篇来自PubMed的科学文章摘要，标注了12个专业领域。文章详细描述了语料库、实验以及使用基于预训练语言模型CamemBERT的分类器获得的初步结果。数据集还提供了详细的分布情况，包括文档分布、多标签分布、每个文档的标签数量分布以及标签共现分布。

提供机构：

qanastek

原始信息汇总

数据集概述

基本信息

数据集名称: MORFITT
许可证: Apache-2.0
任务类别: 文本分类
语言: 法语
标签: 医学、生物学
数据集大小: 1K<n<10K

数据集描述

MORFITT是首个针对医学领域中法语文献的多标签分类语料库，包含3,624篇来自PubMed的科学文章摘要，被标注为12个专业领域。该数据集用于训练基于预训练语言模型CamemBERT的分类器，并已取得初步实验结果。

数据集结构

文档分布:
- 训练集: 1,514篇
- 验证集: 1,022篇
- 测试集: 1,088篇
多标签分布:
- 共12个专业领域，包括兽医学、病因学、心理学等，每个领域的训练、验证和测试集的文档数量均有详细记录。

使用方法

通过HuggingFace Transformers加载数据集的示例代码如下: python from datasets import load_dataset dataset = load_dataset("qanastek/MORFITT") print(dataset)

许可证和引用

代码许可证: Apache-2.0
数据集许可证: CC BY-SA 4.0
引用: 如在研究中使用此数据集，请引用相关论文。

5,000+

优质数据集

54 个

任务类型

进入经典数据集