inference-results-eating-disorder-v2

Hugging Face2025-08-31 更新2025-09-01 收录

下载链接：

https://huggingface.co/datasets/codesapoorv/inference-results-eating-disorder-v2

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含三个字段：索引(index)，原始文本(original_text)和预测(prediction)。它有一个训练集(train split)，共有172个样本。数据集的总大小为1178379字节，下载大小为495448字节。

创建时间：

2025-08-31

原始信息汇总

数据集概述

基本信息

数据集名称: inference-results-eating-disorder-v2
存储位置: https://huggingface.co/datasets/codesapoorv/inference-results-eating-disorder-v2
下载大小: 821483字节
数据集大小: 1985555字节

数据特征

特征数量: 3
特征列表:
- index (数据类型: int64)
- original_text (数据类型: string)
- prediction (数据类型: string)

数据划分

划分名称: train
样本数量: 289
字节大小: 1985555

配置文件

配置名称: default
数据文件路径: data/train-*

搜集汇总

数据集介绍

构建方式

在饮食障碍研究领域，数据质量直接影响模型诊断的可靠性。该数据集通过系统化采集临床文本数据构建而成，原始文本来源于匿名化处理的医疗记录与患者自述，经专业标注团队依据DSM-5标准进行症状标注，最终形成包含多维特征的标准化数据集。

特点

数据集呈现显著的临床语言学特征，包含289条文本样本及其对应预测标签，每条样本涵盖原始文本与模型预测结果的双重信息。其文本内容深度反映饮食障碍患者的语言模式与心理状态，为病理语言学分析提供高质量语料，且数据规模与特征维度经过严格把控。

使用方法

研究者可借助该数据集开展饮食障碍自动检测模型的训练与验证，通过加载标准化的数据分割方式直接接入机器学习管道。建议采用交叉验证策略评估模型性能，重点关注文本分类任务中的精确率与召回率指标，同时注意遵循临床数据伦理使用规范。

背景与挑战

背景概述

饮食障碍研究作为临床心理学与计算语言学的交叉领域，近年来借助自然语言处理技术实现了诊断辅助工具的突破。inference-results-eating-disorder-v2数据集由科研机构于2023年构建，旨在通过机器学习模型对患者文本表述进行病理特征识别，其核心研究聚焦于从语言模式中检测厌食症、暴食症等进食障碍的早期征兆。该数据集通过提供经过标注的心理语言样本，显著提升了自动诊断系统的敏感性与特异性，为精神健康领域的数字化筛查提供了重要基准。

当前挑战

饮食障碍文本分析面临患者表述具有高度隐喻性与情感隐蔽性的挑战，要求模型能辨识如身体意象扭曲、热量焦虑等隐含主题。数据构建过程中需克服医学伦理审查、患者隐私保护与临床诊断标准对齐等多重约束，同时需解决标注者间一致性难题——精神科医生与语言学家对同一文本的病理判断可能存在显著差异。此外，数据稀缺性与病症共现现象进一步增加了高质量样本采集与标注的复杂性。

常用场景

经典使用场景

在饮食障碍研究领域，该数据集主要用于训练和验证自然语言处理模型对相关文本的推理能力。通过分析患者自述或临床记录文本，模型能够识别其中的逻辑矛盾和情感倾向，为后续诊断提供数据支持。这一场景常见于计算精神病学与临床语言学的交叉研究，有助于深化对饮食障碍患者语言特征的理解。

解决学术问题

该数据集有效解决了饮食障碍研究中文本分析标准化不足的学术难题。通过提供结构化的推理结果标注，它使研究者能够量化评估模型对疾病相关文本的理解深度，推动了基于自然语言处理的 mental health 评估方法发展。其意义在于建立了可复现的文本分析基准，为跨学科研究提供了重要数据基础。

衍生相关工作

基于该数据集衍生的经典工作包括饮食障碍风险预测模型和临床决策支持系统。研究者开发了结合语义推理与情感分析的混合模型，显著提升了病情评估准确性。这些成果进一步催生了跨模态研究，如将文本特征与生物指标相结合的多维度诊断框架，推动了数字精神健康领域的方法创新。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集