five

qanastek/MORFITT

收藏
Hugging Face2023-08-25 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/qanastek/MORFITT
下载链接
链接失效反馈
官方服务:
资源简介:
MORFITT是第一个用于医学领域专业分类的多标签法语语料库。该数据集包含3,624篇来自PubMed的科学文章摘要,标注了12个专业领域。文章详细描述了语料库、实验以及使用基于预训练语言模型CamemBERT的分类器获得的初步结果。数据集还提供了详细的分布情况,包括文档分布、多标签分布、每个文档的标签数量分布以及标签共现分布。

MORFITT是第一个用于医学领域专业分类的多标签法语语料库。该数据集包含3,624篇来自PubMed的科学文章摘要,标注了12个专业领域。文章详细描述了语料库、实验以及使用基于预训练语言模型CamemBERT的分类器获得的初步结果。数据集还提供了详细的分布情况,包括文档分布、多标签分布、每个文档的标签数量分布以及标签共现分布。
提供机构:
qanastek
原始信息汇总

数据集概述

基本信息

  • 数据集名称: MORFITT
  • 许可证: Apache-2.0
  • 任务类别: 文本分类
  • 语言: 法语
  • 标签: 医学、生物学
  • 数据集大小: 1K<n<10K

数据集描述

MORFITT是首个针对医学领域中法语文献的多标签分类语料库,包含3,624篇来自PubMed的科学文章摘要,被标注为12个专业领域。该数据集用于训练基于预训练语言模型CamemBERT的分类器,并已取得初步实验结果。

数据集结构

  • 文档分布:

    • 训练集: 1,514篇
    • 验证集: 1,022篇
    • 测试集: 1,088篇
  • 多标签分布:

    • 共12个专业领域,包括兽医学、病因学、心理学等,每个领域的训练、验证和测试集的文档数量均有详细记录。

使用方法

  • 通过HuggingFace Transformers加载数据集的示例代码如下: python from datasets import load_dataset dataset = load_dataset("qanastek/MORFITT") print(dataset)

许可证和引用

  • 代码许可证: Apache-2.0
  • 数据集许可证: CC BY-SA 4.0
  • 引用: 如在研究中使用此数据集,请引用相关论文。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作