five

semaj83/ctmatch_classification

收藏
Hugging Face2023-05-10 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/semaj83/ctmatch_classification
下载链接
链接失效反馈
官方服务:
资源简介:
--- license: mit task_categories: - text-classification tags: - medical size_categories: - 10K<n<100K --- **CTMatch Classification Dataset** This is a combined set of 2 labelled datasets of: `topic (patient descriptions), doc (clinical trials documents - selected fields), and label ({0, 1, 2})` triples, in jsonl format. (Somewhat of a duplication of some of the `ir_dataset` also available on HF.) These have been processed using ctproc, and in this state can be used by various tokenizers for fine-tuning (see ctmatch for examples). These 2 datasets contain no patient identifying information are openly available in raw forms: #### TREC: http://www.trec-cds.org/2021.html #### CSIRO: https://data.csiro.au/collection/csiro:17152 --- **see repo for more information**: https://github.com/semajyllek/ctmatch
提供机构:
semaj83
原始信息汇总

CTMatch Classification Dataset 概述

数据集基本信息

  • 许可证: MIT
  • 任务类别: 文本分类
  • 标签: 医疗
  • 大小类别: 10K<n<100K

数据集内容

  • 格式: JSONL
  • 组成: 包含 topic (patient descriptions), doc (clinical trials documents - selected fields), and label ({0, 1, 2}) 三元组
  • 处理工具: 使用 ctproc 处理
  • 用途: 适用于各种分词器进行微调

数据集来源

  • TREC: 数据集来源于 TREC
  • CSIRO: 数据集来源于 CSIRO
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作