fathyshalab/reklamation24_medizin-gesundheit-pflege-full

Name: fathyshalab/reklamation24_medizin-gesundheit-pflege-full
Creator: fathyshalab
Published: 2023-04-25 14:12:45
License: 暂无描述

Hugging Face2023-04-25 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/fathyshalab/reklamation24_medizin-gesundheit-pflege-full

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: features: - name: text dtype: string - name: inputs struct: - name: text dtype: string - name: prediction list: - name: label dtype: string - name: score dtype: float64 - name: prediction_agent dtype: string - name: annotation dtype: string - name: annotation_agent dtype: string - name: vectors struct: - name: mini-lm-sentence-transformers sequence: float64 - name: multi_label dtype: bool - name: explanation dtype: 'null' - name: id dtype: string - name: metadata dtype: 'null' - name: status dtype: string - name: event_timestamp dtype: timestamp[us] - name: metrics struct: - name: text_length dtype: int64 splits: - name: train num_bytes: 38167353 num_examples: 6936 download_size: 0 dataset_size: 38167353 --- # Dataset Card for "reklamation24_medizin-gesundheit-pflege-full" [More Information needed](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)

提供机构：

fathyshalab

原始信息汇总

数据集概述

数据集名称

名称: reklamation24_medizin-gesundheit-pflege-full

数据集特征

text: 字符串类型
inputs: 结构类型，包含子特征 text（字符串类型）
prediction: 列表类型，包含子特征 label（字符串类型）和 score（浮点数类型）
prediction_agent: 字符串类型
annotation: 字符串类型
annotation_agent: 字符串类型
vectors: 结构类型，包含子特征 mini-lm-sentence-transformers（序列类型，浮点数）
multi_label: 布尔类型
explanation: 空值类型
id: 字符串类型
metadata: 空值类型
status: 字符串类型
event_timestamp: 时间戳类型（微秒）
metrics: 结构类型，包含子特征 text_length（整数类型）

数据集分割

train: 包含6936个示例，总大小为38167353字节

数据集大小

下载大小: 0字节
数据集大小: 38167353字节

搜集汇总

数据集介绍

构建方式

在医疗健康与护理领域，高质量的标注数据对于构建可靠的文本分析模型至关重要。该数据集名为fathyshalab/reklamation24_medizin-gesundheit-pflege-full，其构建过程融合了自动化与人工审核机制。数据集中包含文本字段（text）及输入字段（inputs），并记录了模型预测结果（prediction），其中预测由标签（label）和置信度分数（score）构成。此外，数据集还提供了由不同代理（prediction_agent和annotation_agent）生成的预测与标注信息，以及基于mini-lm-sentence-transformers的向量表示（vectors）。通过多标签标识（multi_label）和时间戳（event_timestamp）等元数据，确保了数据的可追溯性与结构化程度，最终形成了包含6936个训练样本的完整数据集。

特点

该数据集的核心特点在于其多维度的信息结构，适用于复杂的医疗文本分析任务。每个样本不仅包含原始文本和输入，还同时记录了模型预测结果与人工标注结果，便于对比分析模型性能。向量字段提供了基于句子变换器的嵌入表示，支持语义相似度计算与特征提取。时间戳字段记录了数据产生的事件时间，有利于时序分析。此外，数据集包含文本长度（text_length）等度量指标，为数据质量评估提供了量化依据。多标签标识字段使得该数据集能够支持多标签分类任务，增强了其在医疗健康领域应用中的灵活性与适应性。

使用方法

使用该数据集时，研究者可直接通过HuggingFace数据集库加载，利用其丰富的字段进行模型训练或评估。对于文本分类任务，可提取text字段作为输入，结合annotation字段作为监督信号。预测字段（prediction）可用于分析模型输出与真实标注的差异，从而优化模型。向量字段可直接用于基于相似度的检索或聚类任务。多标签字段（multi_label）适用于需要同时预测多个医疗相关标签的场景。建议将数据划分为训练集与验证集，利用时间戳字段确保时间序列上的合理分割，避免数据泄露。对于需要解释性的研究，可结合explanation字段（虽目前为null，但预留了扩展空间）进行深入分析。

背景与挑战

背景概述

在医疗健康与护理领域，用户反馈与投诉数据的系统化分析对于提升服务质量、优化患者体验至关重要。由fathyshalab团队创建的reklamation24_medizin-gesundheit-pflege-full数据集，旨在捕捉德语语境下医疗、健康及护理场景中的投诉文本信息。该数据集包含近7000条训练样本，每条记录涵盖原始文本、模型预测结果、人工标注及向量表示等多维信息，为构建与评估面向特定领域的文本分类与情感分析模型提供了宝贵资源。其核心研究问题聚焦于如何利用自然语言处理技术自动识别和分类医疗投诉内容，从而推动该领域智能客服与质量监控系统的发展。该数据集的发布填补了德语医疗投诉语料库的空白，对推动跨语言健康信息学研究具有重要参考价值。

当前挑战

该数据集面临的核心挑战在于医疗投诉文本的领域特异性与语言复杂性。一方面，医疗健康领域涉及大量专业术语、症状描述及诊疗流程，普通语言模型难以精准捕捉其中的语义差异与领域知识，导致分类准确率受限。另一方面，投诉文本常包含情绪化表达、口语化用语及不完整句子，增加了实体识别与意图理解的难度。在数据集构建过程中，标注一致性是另一大难题：不同标注者对投诉严重程度、类别归属的判断标准可能存在主观差异，需要设计严格的标注指南与多轮审核机制来保证质量。此外，数据集中样本类别分布不均衡（如部分投诉类型样本极少）也会影响模型训练的公平性与泛化能力，亟需采用数据增强或重采样策略加以应对。

常用场景

经典使用场景

在医疗健康与护理领域，文本数据蕴含着大量患者反馈与服务质量信息，而Reklamation24_medizin-gesundheit-pflege-full数据集正是为此而生。该数据集聚焦于德语医疗投诉文本，提供了包含原始文本、模型预测结果、人工标注及嵌入向量的丰富结构。其经典使用场景在于训练和评估面向医疗投诉的分类与情感分析模型，研究者可利用其多标签标注与预测分数，构建能够精准识别投诉类别与严重程度的自然语言处理系统。

衍生相关工作

基于该数据集，衍生出多项经典研究工作。例如，有学者利用其多标签标注特性，开发了面向医疗投诉的层次化分类框架，实现了细粒度主题识别。另有工作探索了跨语言迁移学习，将该数据集的德语标注知识迁移至其他语言环境，扩展了其在多语言医疗文本分析中的应用。此外，结合预测与人工标注的对比，催生了关于标注一致性评估的研究，为提升数据集质量与模型可解释性提供了方法论基础。

数据集最近研究