bad49wolf/fineweb-edu-healthcare-snowflake-llama3-8b

Name: bad49wolf/fineweb-edu-healthcare-snowflake-llama3-8b
Creator: bad49wolf
Published: 2024-06-22 10:59:50
License: 暂无描述

Hugging Face2024-06-22 更新2024-06-25 收录

下载链接：

https://hf-mirror.com/datasets/bad49wolf/fineweb-edu-healthcare-snowflake-llama3-8b

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含多个特征，如文本、ID、URL、日期、文件路径、语言、语言评分、词数、评分和整数评分等。数据集分为训练集，包含500,000个样本。特别提到整数评分（int_score）是反向的，30及以下表示文本与医疗相关，准确率为95%。

提供机构：

bad49wolf

原始信息汇总

数据集概述

数据集信息

配置名称: default_123
特征:
- text: 字符串类型
- id: 字符串类型
- dump: 字符串类型
- url: 字符串类型
- date: 字符串类型
- file_path: 字符串类型
- language: 字符串类型
- language_score: 浮点数类型
- token_count: 整数类型
- score: 浮点数类型
- int_score: 整数类型

数据分割

训练集:
- 名称: train
- 字节数: 1716261451
- 样本数: 500000

数据大小

下载大小: 1015330377
数据集大小: 1716261451

配置

配置名称: default_123
数据文件:
- 分割: train
- 路径: default_123/train-*

额外信息

int_score: 分数倒置，30及以下表示文本与医疗保健相关（根据llama-3-8b-instruct判断，准确率为95%）

搜集汇总

数据集介绍

构建方式

在医疗健康领域文本数据稀缺的背景下，该数据集通过精细化的筛选与评分机制构建而成。其核心依托Llama-3-8B-Instruct模型作为评判器，对海量网络文本进行医疗健康相关性评估，生成了具有95%准确率的评分标签。特别地，数据集对评分进行了反向量化处理，使得int_score值低于或等于30的文本被判定为与医疗健康领域高度相关，从而实现了高质量领域文本的精准提取。最终汇集了50万条训练样本，每条样本均包含文本内容、来源URL、时间戳及语言评分等多维度元信息。

特点

该数据集最显著的特征在于其独特的评分反向设计，将医疗健康相关文本以低分值标识，颠覆了传统正向评分逻辑，有效降低了误判风险。同时，数据集提供了丰富的元数据字段，包括语言类型、语言置信度分数、词元计数及综合评分，为下游任务的灵活筛选与质量控制提供了便利。此外，所有样本均源自真实网络内容，覆盖了多样化的医疗健康主题，确保了数据的生态效度与实用性。

使用方法

数据集以HuggingFace Datasets格式封装，用户可通过load_dataset函数直接加载使用。数据划分仅包含训练集，共50万条样本，适合用于医疗健康领域的语言模型预训练、领域适应微调或文本分类任务。使用时需注意int_score字段的含义，即选择int_score<=30的样本作为医疗健康相关文本进行下游任务。建议结合language字段进行多语言过滤，或利用score字段进行更精细的质量控制，以适配不同研究需求。

背景与挑战

背景概述

在自然语言处理领域，医疗健康文本的精准识别与筛选是构建高质量领域数据集的核心挑战。bad49wolf/fineweb-edu-healthcare-snowflake-llama3-8b数据集由研究团队基于大规模网络语料库FineWeb-Edu，结合Llama-3-8B-Instruct模型进行智能标注与过滤而成，创建于近期，旨在解决通用语料中医疗健康相关文本占比稀疏、质量参差不齐的问题。该数据集通过逆向评分机制（int_score ≤ 30表示医疗健康相关，准确率达95%）实现了高效筛选，包含50万条训练样本，覆盖多语言、多来源的医疗健康文本，为医疗问答、疾病诊断辅助、健康知识图谱构建等下游任务提供了可靠的预训练与微调资源，对推动医疗领域大语言模型的发展具有重要价值。

当前挑战

当前数据集面临的核心挑战包括：1）领域问题层面，医疗健康文本具有高度专业性、术语多样性和语境依赖性，通用语言模型难以精准区分医疗与非医疗内容，且医疗知识更新迅速，静态数据集可能滞后于最新临床指南与药物信息；2）构建过程层面，依赖Llama-3-8B-Instruct作为自动标注器存在模型偏见与误判风险，尽管准确率达95%，仍可能遗漏罕见病或非典型表述的医疗文本；此外，逆向评分阈值的设定基于经验，不同医疗子领域（如心理健康、急诊医学）的文本特征差异未被充分建模，导致数据覆盖存在盲区。

常用场景

经典使用场景

在医疗健康领域的自然语言处理研究中，bad49wolf/fineweb-edu-healthcare-snowflake-llama3-8b数据集凭借其独特的评分机制，成为筛选高质量医疗相关文本的经典资源。该数据集通过Llama-3-8B-Instruct模型对海量网络文本进行判别，以int_score值低于30作为医疗健康相关内容的阈值，准确率高达95%。研究者常利用这一特性，从大规模语料中精准抽取医学文献、临床指南、患者教育材料等专业文本，为领域内模型训练提供干净、可靠的语料基础。其典型应用场景包括构建医疗问答系统、训练医学领域语言模型以及开发健康信息检索工具，尤其在需要区分一般性教育与医疗专业内容的任务中表现出色。

衍生相关工作

该数据集的提出催生了一系列衍生研究，其中最经典的工作包括基于其评分机制改进的医疗文本过滤算法，研究者通过微调Llama-3-8B模型以提升对罕见病或非英语医疗文本的识别精度。另一类工作聚焦于数据增强，利用该数据集中的高质量片段作为种子，结合生成式模型合成多样化的医疗对话或病例报告。此外，有学者将其与知识图谱结合，开发了面向医疗领域的检索增强生成（RAG）系统，显著提升了问答任务的可靠性。这些衍生工作不仅拓展了原始数据集的应用边界，也为医疗AI的伦理合规性研究提供了数据驱动的验证基础。

数据集最近研究