jpcorb20/medical_wikipedia

Name: jpcorb20/medical_wikipedia
Creator: jpcorb20
Published: 2024-08-26 18:52:02
License: 暂无描述

Hugging Face2024-08-26 更新2024-06-11 收录

下载链接：

https://hf-mirror.com/datasets/jpcorb20/medical_wikipedia

下载链接

链接失效反馈

官方服务：

资源简介：

MedWiki数据集是基于`Cohere/wikipedia-22-12`数据集，通过`MaartenGr/BERTopic_Wikipedia`模型对医学主题文章进行过滤生成的。该数据集包含标题、文本、维基ID、段落ID、推断主题和概率等字段。数据集主要用于文本生成任务，语言为英语，标签为医学领域。数据集的大小类别为1M到10M之间，许可证为cc。主题分类是通过`GPT3.5-turbo 0613`对主题的词汇表示进行提示来完成的。

提供机构：

jpcorb20

原始信息汇总

数据集概述

数据集信息

特征（Features）:
- title: 数据类型为字符串（string）
- text: 数据类型为字符串（string）
- wiki_id: 数据类型为整数（int32）
- paragraph_id: 数据类型为整数（int32）
- topic_infer: 数据类型为长整型（int64）
- prob: 数据类型为浮点数（float64）
分割（Splits）:
- train: 训练集，包含1139464个示例，总大小为565706758字节
配置（Configs）:
- default: 包含训练数据文件，路径为data/train-*

数据集属性

任务类别（Task Categories）: 文本生成（text-generation）
语言（Language）: 英语（en）
标签（Tags）: 医学（medical）
大小类别（Size Categories）: 1M<n<10M
许可证（License）: 知识共享（CC）

5,000+

优质数据集

54 个

任务类型

进入经典数据集