asus-aics/ntcir_13_medweb

Name: asus-aics/ntcir_13_medweb
Creator: asus-aics
Published: 2024-07-08 05:33:54
License: 暂无描述

Hugging Face2024-07-08 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/asus-aics/ntcir_13_medweb

下载链接

链接失效反馈

官方服务：

资源简介：

NTCIR-13 MedWeb（医学自然语言处理用于网页文档）任务要求进行多标签分类，为每条伪推文分配八个疾病/症状的标签（正面或负面）。数据集包含三种语言（日语、英语和中文）的伪推文，并标注了八种疾病/症状的标签，如流感、腹泻/胃痛、花粉症、咳嗽/喉咙痛、头痛、发烧、流鼻涕和感冒。此外，该数据集还提供了英语、日语和中文之间的平行语料库，可用于训练这三种语言之间的翻译模型。

提供机构：

asus-aics

原始信息汇总

数据集卡片：NTCIR-13 MedWeb

数据集描述

主页: http://research.nii.ac.jp/ntcir/permission/ntcir-13/perm-en-MedWeb.html
是否公开: 否
是否在PubMed上可用: 否
任务类型: 多标签分类、翻译

NTCIR-13 MedWeb任务要求对每条推文进行多标签分类，为八种疾病/症状分配标签。给定的伪推文输出为八种疾病/症状的正（p）或负（n）标签。该任务的成果几乎可以直接应用于实际应用的基本引擎。

此任务提供了一个跨语言和多标签语料库的伪Twitter消息，涵盖三种语言（日语、英语和中文），并标注了八种标签，如流感、腹泻/胃痛、花粉症、咳嗽/喉咙痛、头痛、发烧、流鼻涕和感冒。

此外，该数据集还提供了英语、日语和中文的伪推文平行语料库，可用于训练这三种语言之间的翻译模型。

引用信息

@article{wakamiya2017overview, author = {Shoko Wakamiya, Mizuki Morita, Yoshinobu Kano, Tomoko Ohkuma and Eiji Aramaki}, title = {Overview of the NTCIR-13 MedWeb Task}, journal = {Proceedings of the 13th NTCIR Conference on Evaluation of Information Access Technologies (NTCIR-13)}, year = {2017}, url = { http://research.nii.ac.jp/ntcir/workshop/OnlineProceedings13/pdf/ntcir/01-NTCIR13-OV-MEDWEB-WakamiyaS.pdf }, }

搜集汇总

数据集介绍

构建方式

在医学自然语言处理领域，NTCIR-13 MedWeb数据集的构建体现了跨语言与多标签标注的前沿思路。该数据集通过收集模拟推特消息，覆盖英语、中文和日语三种语言，并针对八种常见疾病或症状——如流感、腹泻/胃痛、花粉症、咳嗽/喉咙痛、头痛、发热、流鼻涕和感冒——进行多标签分类标注。每条消息均被标记为阳性或阴性，标注过程遵循严格的医学信息处理标准，确保了数据在跨语言环境下的语义一致性与标注可靠性，为医学文本分析提供了结构化的多语言语料基础。

特点

NTCIR-13 MedWeb数据集的核心特点在于其跨语言与多标签的复合设计。数据集囊括了英语、中文和日语三种语言的平行语料，每条模拟推特消息均关联八种疾病或症状的多标签分类，支持阳性与阴性的二元标注。这种设计不仅促进了多语言医学文本分类研究，还因其平行语料特性，可延伸应用于机器翻译模型的训练。数据集的标注聚焦于实际医疗应用中常见的症状表述，增强了其在真实场景下的适用性与泛化能力。

使用方法

该数据集主要应用于医学自然语言处理任务，特别是多标签文本分类与跨语言翻译研究。用户可通过加载数据集中的多语言文本与对应标签，训练分类模型以识别推特消息中的疾病症状；同时，利用其平行语料特性，可构建英语、中文和日语间的翻译模型。使用前需参考官方主页获取详细协议，确保符合数据使用规范，并依据标注指南处理多标签输出，以支持医疗信息提取或跨语言应用开发。

背景与挑战

背景概述

在医疗健康信息学领域，社交媒体文本的自动分析已成为公共卫生监测的重要工具。NTCIR-13 MedWeb数据集由日本国立情报学研究所（NII）于2017年主导创建，核心研究人员包括Shoko Wakamiya、Mizuki Morita等学者。该数据集旨在解决跨语言医疗文本的多标签分类问题，聚焦于从模拟推特消息中识别八种常见疾病或症状，如流感、腹泻、花粉症等。其构建不仅推动了多语言自然语言处理技术的发展，还为实时疾病监测系统的开发提供了关键数据支持，对医疗信息检索和公共卫生管理产生了深远影响。

当前挑战

该数据集面临的挑战主要体现在两个方面：在领域问题层面，医疗文本的多标签分类需处理语言表达的模糊性和跨语言语义差异，例如症状描述的多样性和文化特异性增加了模型泛化难度；在构建过程中，数据收集需平衡模拟推特的真实性与隐私保护，同时多语言标注要求专家知识以确保标签一致性，这涉及复杂的质量控制与资源协调。

常用场景

经典使用场景

在医疗自然语言处理领域，NTCIR-13 MedWeb数据集常被用于多标签文本分类任务。该数据集模拟了社交媒体上的医疗相关推文，覆盖英语、中文和日语三种语言，并标注了八种疾病或症状标签，如流感、腹泻、花粉症等。研究者利用这一数据集训练模型，以自动识别和分类用户生成的医疗文本中的健康问题，从而为公共卫生监测和在线健康咨询提供数据支持。

实际应用

在实际应用中，NTCIR-13 MedWeb数据集被用于开发智能健康监测系统和在线医疗助手。例如，基于该数据集训练的模型可以实时分析社交媒体上的医疗讨论，帮助公共卫生机构追踪疾病爆发趋势，或为患者提供初步的症状评估。此外，它还可用于多语言医疗信息检索，提升跨语言健康服务的可及性和准确性。

衍生相关工作

围绕该数据集，衍生了一系列经典研究工作，包括多标签分类算法的优化、跨语言医疗文本处理模型的开发，以及社交媒体健康信息挖掘的应用探索。例如，研究者利用该数据集评估了深度学习方法在医疗文本分类中的性能，并推动了多语言医疗自然语言处理任务的标准化评估框架的建立，为后续医疗AI研究提供了重要参考。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集