DementiaBank-derived bilingual dataset

Name: DementiaBank-derived bilingual dataset
Creator: 雅典耀大学高级中学; 亚德诺半导体技术有限公司
Published: 2026-05-26 00:26:15
License: 暂无描述

arXiv2026-05-26 更新2026-05-27 收录

下载链接：

https://github.com/rezsam09/Filipino-English-Dementia-Classification

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是由雅典耀大学高级中学研究团队构建的首个用于痴呆症检测的菲律宾语-英语双语平行语料库，包含4000条对话转录文本，源自DementiaBank临床语料库。数据集内容涵盖英语原始转录及其人工翻译的菲律宾语版本，各语言均包含1000个痴呆症阳性样本和1000个健康对照样本，通过保留认知衰退的语篇标记（如重复、犹豫等）确保临床有效性。创建过程采用严格的人工翻译流程，避免机器翻译对语言不流畅特征的归一化处理，确保跨语言评估不受域不对称性干扰。该数据集主要应用于临床自然语言处理领域，旨在解决低资源环境下跨语言痴呆症检测的模型评估问题，为研究语言转换对认知诊断模型性能的影响提供标准化基准。

This dataset is the first bilingual parallel corpus of Tagalog (Filipino) and English for dementia detection, developed by the research team from the Senior High School of Ateneo de Manila University. It comprises 4000 dialogue transcriptions sourced from the DementiaBank clinical corpus. The dataset includes original English transcriptions and their manually translated Tagalog counterparts, with each language subset containing 1000 dementia-positive samples and 1000 healthy control samples. Clinical validity is maintained by retaining discourse markers associated with cognitive decline, such as repetitions and hesitations. The construction process employed a rigorous manual translation protocol to avoid the normalization of disfluent linguistic traits by machine translation, thereby eliminating domain asymmetry as a confounding factor in cross-language evaluations. This dataset is primarily applied in the field of clinical natural language processing, with the goal of addressing the challenge of model evaluation for cross-language dementia detection in low-resource settings, and providing a standardized benchmark for investigating the effect of language transfer on the performance of cognitive diagnostic models.

提供机构：

雅典耀大学高级中学; 亚德诺半导体技术有限公司

创建时间：

2026-05-26

原始信息汇总

数据集概述

该数据集用于支持低资源场景下菲律宾语与英语双语会话中的痴呆症检测研究，相关论文已被 BioNLP @ ACL 2026 接收。

数据来源与规模

来源：所有转录文本源自 DementiaBank（Becker et al., 1994）。
规模：总计 4,000 份转录文本，包括 2,000 份英语和 2,000 份菲律宾语文本。
类别分布：每种语言包含 1,000 个痴呆症样本和 1,000 个健康对照样本。
构建方式：
- 英语样本直接来自 DementiaBank 的“饼干偷窃”图片描述任务。
- 菲律宾语样本由相同的英语转录文本经人工翻译而成，要求保留认知衰退的语篇标记（如重复、犹豫、错误起始和句法退化）。
- 明确避免使用机器翻译，因为神经机器翻译会规范化非流利语言，从而抹去区分痴呆症与健康语言的特征。

数据获取方式

因 DementiaBank 要求签署数据使用协议，该数据集不在此仓库中直接分发。
用户需通过 DementiaBank 官网申请访问权限。

实验设置

数据划分：按 70%-15%-15% 分层划分为训练集、验证集和测试集。
评估方法：采用分层 10 折交叉验证，结果以均值±标准差报告。
文本处理：最大序列长度为 128 个 token；使用注意力掩码后的最终隐藏状态均值池化。
优化器：AdamW，线性预热与衰减，梯度裁剪为 1.0。
主要指标：宏平均 F1 分数，并单独报告痴呆症类别的召回率。

核心发现

双语微调消除跨语言性能退化：所有模型在双语训练后，宏平均 F1 收敛至 0.969–0.973，痴呆症召回率超过 0.93。
单语训练导致严重的跨语言迁移失败：英语训练的 BERT 在菲律宾语上 F1 从 0.952 降至 0.455；菲律宾语训练的 BERT 在英语上从 0.981 降至 0.705。
架构现代化本身无助于跨语言迁移：NeoBERT 在单语性能上与 BERT 相当，但跨语言方差最高。
语言覆盖度比模型规模或架构更关键：多语言模型（XLM-RoBERTa）与目标语言匹配模型（RoBERTa-Tagalog）在单语训练下跨语言迁移更稳定。

局限性

菲律宾语数据集由人工翻译生成，并非来自本土临床采集，反映的是英语源文档的会话结构和语义内容。
当前缺乏大规模的本土菲律宾语临床痴呆症语料库。
数据集规模（4000 样本）可能增加交叉验证的方差。
该研究仅基于文本，未纳入声学特征（如停顿时长、音高变化、发声率）。
多语言环境下的模型决策机制尚不透明，临床应用前需进行可解释性研究。

许可

该仓库代码遵循 MIT 许可。
DementiaBank 数据集受其自身数据使用协议约束，不在此处重新分发。

搜集汇总

数据集介绍

构建方式

该数据集的构建源于对低资源语言场景下痴呆症检测的迫切需求，特别是在菲律宾这一广泛使用他加禄语与英语混合语码的环境。研究团队从DementiaBank语料库中选取了2,000份英语会话转录文本，并采用人工翻译的方式将其忠实转化为菲律宾语，严格保留原文本中的重复、犹豫、错误起始及句法退化等认知衰退的语篇层面标记，最终形成了一个包含4,000份双语平行文本的平衡数据集，涵盖痴呆症患者与健康对照组各1,000份样本。

特点

该数据集的核心特征在于其精心设计的双语平行结构，能够有效区分语言差异与领域效应，从而为跨语言痴呆症检测研究提供严谨的评估基准。其独特优势包括：通过保留语篇层面的不流利性特征，确保不丢失关键的诊断信号；采用人工翻译而非机器翻译，避免了对认知衰退标志的标准化处理；以及实现了双语样本在临床内容、语篇结构、诱导任务和类别分布上的严格匹配。

使用方法

数据集适用于多种主流预训练语言模型的微调与评估，支持单语（英语或菲律宾语）、零样本跨语言以及双语联合三种训练范式。研究者可基于已提供的标准化预处理流程（Unicode标准化、空白符标准化、小写化，保留不流利标记），对模型进行端到端微调，并使用分层10折交叉验证报告宏平均F1分数与准确率，以评估模型在不同语言迁移场景下的稳健性与临床敏感度。

背景与挑战

背景概述

在自然语言处理辅助认知筛查领域，绝大多数研究聚焦于英语单语环境，而全球数以亿计的双语人群、尤其是常见语码转换的菲律宾语-英语使用者，长期被现有技术所忽视。为此，来自菲律宾雅典耀马尼拉高级中学的研究团队于2026年构建了首个源自DementiaBank的双语平行语料库，包含4000条会话转录文本，其中2000条英文原文经由人工翻译为菲律宾语，并刻意保留了重复、迟疑、句法断裂等认知衰退的语篇层面标志。该数据集的提出填补了东南亚语言在临床自然语言处理中的空白，首次系统评估了Transformer架构在菲律宾语痴呆检测任务上的表现，为探索跨语言表征对齐与低资源临床评估提供了关键基准。

当前挑战

该领域面临的核心挑战在于跨语言迁移的表征失配问题：即便在通过平行语料严格控制会话内容与任务结构后，英语预训练模型（如BERT）在菲律宾语上的宏F1分数从0.952骤降至0.455，表明语言特异性预训练导致的嵌入空间错位才是主要障碍，而非任务复杂度或领域偏移。此外，语料构建过程本身亦面临严峻挑战——菲律宾语缺乏公开的临床痴呆语料库，研究团队必须依靠手动翻译来保留认知衰退的语篇特征，而机器翻译系统会系统性地平滑非流利表达，从而抹除关键诊断信号。数据规模的限制（仅4000样本）进一步加大了模型泛化评估的不确定性。

常用场景

经典使用场景

在低资源双语场景下，DementiaBank-derived bilingual dataset 最为经典的用途是作为跨语言认知衰退检测的基准语料库。该数据集通过将英语 DementiaBank 的会话转录本进行人工翻译，构建了英语与菲律宾语的双语平行语料，从而为研究者提供了一种控制领域与内容一致性的实验平台。借助这一数据集，学界能够在语言转移条件下系统性评估各类预训练语言模型（如 BERT、NeoBERT、XLM-RoBERTa 及 RoBERTa-Tagalog）在痴呆症检测任务中的表现，从而揭示语言特异性表征对临床 NLP 泛化能力的深层制约。

衍生相关工作

该数据集衍生了一系列具有开创性的相关工作，其一是首次系统评估了新一代编码器 NeoBERT 在临床与跨语言条件下的鲁棒性，揭示了架构现代化在语言转移中的局限性。其二是推动了 XLM-RoBERTa 与 RoBERTa-Tagalog 在低资源临床环境下的对比研究，揭示了多语言与语言匹配预训练各自不同的跨语言迁移机制。其三是为双语微调策略在临床 NLP 中的普适性提供了实证支持，使得 BERT、NeoBERT、XLM-RoBERTa 等不同架构在双语训练后性能趋同，进而引导后续研究将重心从模型缩放转向语言覆盖和表征对齐。

数据集最近研究