asus-aics/ntcir_13_medweb
收藏Hugging Face2024-07-08 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/asus-aics/ntcir_13_medweb
下载链接
链接失效反馈官方服务:
资源简介:
NTCIR-13 MedWeb(医学自然语言处理用于网页文档)任务要求进行多标签分类,为每条伪推文分配八个疾病/症状的标签(正面或负面)。数据集包含三种语言(日语、英语和中文)的伪推文,并标注了八种疾病/症状的标签,如流感、腹泻/胃痛、花粉症、咳嗽/喉咙痛、头痛、发烧、流鼻涕和感冒。此外,该数据集还提供了英语、日语和中文之间的平行语料库,可用于训练这三种语言之间的翻译模型。
NTCIR-13 MedWeb(医学自然语言处理用于网页文档)任务要求进行多标签分类,为每条伪推文分配八个疾病/症状的标签(正面或负面)。数据集包含三种语言(日语、英语和中文)的伪推文,并标注了八种疾病/症状的标签,如流感、腹泻/胃痛、花粉症、咳嗽/喉咙痛、头痛、发烧、流鼻涕和感冒。此外,该数据集还提供了英语、日语和中文之间的平行语料库,可用于训练这三种语言之间的翻译模型。
提供机构:
asus-aics
原始信息汇总
数据集卡片:NTCIR-13 MedWeb
数据集描述
- 主页: http://research.nii.ac.jp/ntcir/permission/ntcir-13/perm-en-MedWeb.html
- 是否公开: 否
- 是否在PubMed上可用: 否
- 任务类型: 多标签分类、翻译
NTCIR-13 MedWeb任务要求对每条推文进行多标签分类,为八种疾病/症状分配标签。给定的伪推文输出为八种疾病/症状的正(p)或负(n)标签。该任务的成果几乎可以直接应用于实际应用的基本引擎。
此任务提供了一个跨语言和多标签语料库的伪Twitter消息,涵盖三种语言(日语、英语和中文),并标注了八种标签,如流感、腹泻/胃痛、花粉症、咳嗽/喉咙痛、头痛、发烧、流鼻涕和感冒。
此外,该数据集还提供了英语、日语和中文的伪推文平行语料库,可用于训练这三种语言之间的翻译模型。
引用信息
@article{wakamiya2017overview, author = {Shoko Wakamiya, Mizuki Morita, Yoshinobu Kano, Tomoko Ohkuma and Eiji Aramaki}, title = {Overview of the NTCIR-13 MedWeb Task}, journal = {Proceedings of the 13th NTCIR Conference on Evaluation of Information Access Technologies (NTCIR-13)}, year = {2017}, url = { http://research.nii.ac.jp/ntcir/workshop/OnlineProceedings13/pdf/ntcir/01-NTCIR13-OV-MEDWEB-WakamiyaS.pdf }, }
搜集汇总
数据集介绍

构建方式
在医学自然语言处理领域,NTCIR-13 MedWeb数据集的构建体现了跨语言与多标签标注的前沿思路。该数据集通过收集模拟推特消息,覆盖英语、中文和日语三种语言,并针对八种常见疾病或症状——如流感、腹泻/胃痛、花粉症、咳嗽/喉咙痛、头痛、发热、流鼻涕和感冒——进行多标签分类标注。每条消息均被标记为阳性或阴性,标注过程遵循严格的医学信息处理标准,确保了数据在跨语言环境下的语义一致性与标注可靠性,为医学文本分析提供了结构化的多语言语料基础。
特点
NTCIR-13 MedWeb数据集的核心特点在于其跨语言与多标签的复合设计。数据集囊括了英语、中文和日语三种语言的平行语料,每条模拟推特消息均关联八种疾病或症状的多标签分类,支持阳性与阴性的二元标注。这种设计不仅促进了多语言医学文本分类研究,还因其平行语料特性,可延伸应用于机器翻译模型的训练。数据集的标注聚焦于实际医疗应用中常见的症状表述,增强了其在真实场景下的适用性与泛化能力。
使用方法
该数据集主要应用于医学自然语言处理任务,特别是多标签文本分类与跨语言翻译研究。用户可通过加载数据集中的多语言文本与对应标签,训练分类模型以识别推特消息中的疾病症状;同时,利用其平行语料特性,可构建英语、中文和日语间的翻译模型。使用前需参考官方主页获取详细协议,确保符合数据使用规范,并依据标注指南处理多标签输出,以支持医疗信息提取或跨语言应用开发。
背景与挑战
背景概述
在医疗健康信息学领域,社交媒体文本的自动分析已成为公共卫生监测的重要工具。NTCIR-13 MedWeb数据集由日本国立情报学研究所(NII)于2017年主导创建,核心研究人员包括Shoko Wakamiya、Mizuki Morita等学者。该数据集旨在解决跨语言医疗文本的多标签分类问题,聚焦于从模拟推特消息中识别八种常见疾病或症状,如流感、腹泻、花粉症等。其构建不仅推动了多语言自然语言处理技术的发展,还为实时疾病监测系统的开发提供了关键数据支持,对医疗信息检索和公共卫生管理产生了深远影响。
当前挑战
该数据集面临的挑战主要体现在两个方面:在领域问题层面,医疗文本的多标签分类需处理语言表达的模糊性和跨语言语义差异,例如症状描述的多样性和文化特异性增加了模型泛化难度;在构建过程中,数据收集需平衡模拟推特的真实性与隐私保护,同时多语言标注要求专家知识以确保标签一致性,这涉及复杂的质量控制与资源协调。
常用场景
经典使用场景
在医疗自然语言处理领域,NTCIR-13 MedWeb数据集常被用于多标签文本分类任务。该数据集模拟了社交媒体上的医疗相关推文,覆盖英语、中文和日语三种语言,并标注了八种疾病或症状标签,如流感、腹泻、花粉症等。研究者利用这一数据集训练模型,以自动识别和分类用户生成的医疗文本中的健康问题,从而为公共卫生监测和在线健康咨询提供数据支持。
实际应用
在实际应用中,NTCIR-13 MedWeb数据集被用于开发智能健康监测系统和在线医疗助手。例如,基于该数据集训练的模型可以实时分析社交媒体上的医疗讨论,帮助公共卫生机构追踪疾病爆发趋势,或为患者提供初步的症状评估。此外,它还可用于多语言医疗信息检索,提升跨语言健康服务的可及性和准确性。
衍生相关工作
围绕该数据集,衍生了一系列经典研究工作,包括多标签分类算法的优化、跨语言医疗文本处理模型的开发,以及社交媒体健康信息挖掘的应用探索。例如,研究者利用该数据集评估了深度学习方法在医疗文本分类中的性能,并推动了多语言医疗自然语言处理任务的标准化评估框架的建立,为后续医疗AI研究提供了重要参考。
以上内容由遇见数据集搜集并总结生成



