MCSCSet

Name: MCSCSet
Creator: 清华大学深圳国际研究生院
Published: 2022-10-21 12:11:25
License: 暂无描述

arXiv2022-10-21 更新2024-06-21 收录

下载链接：

https://github.com/yzhihao/MCSCSet

下载链接

链接失效反馈

官方服务：

资源简介：

MCSCSet是由清华大学深圳国际研究生院和腾讯Jarvis实验室合作创建的大型汉语拼写校正数据集，专注于医学领域。该数据集包含约200,000条真实医疗查询样本，每条样本均由医学专家手动标注，确保了数据的高质量和专业性。数据集不仅提供了详细的错误类型和位置信息，还包含了一个医学混淆集，用于自动生成新的医学领域拼写校正数据。MCSCSet的应用旨在解决医学文本中复杂和罕见医学实体的拼写错误问题，提高医疗信息检索和处理的准确性。

MCSCSet is a large-scale Chinese spelling correction dataset jointly created by Tsinghua University Shenzhen International Graduate School and Tencent Jarvis Lab, focusing on the medical field. This dataset contains approximately 200,000 real medical query samples, each manually annotated by medical experts to ensure the high quality and professionalism of the data. In addition to providing detailed error types and location information, the dataset also includes a medical confusion set for automatically generating new medical-domain spelling correction data. The application of MCSCSet aims to solve the problem of spelling errors of complex and rare medical entities in medical texts, and improve the accuracy of medical information retrieval and processing.

提供机构：

清华大学深圳国际研究生院

创建时间：

2022-10-21

搜集汇总

数据集介绍

构建方式

在医疗领域，拼写错误的纠正对于提升医疗应用服务质量至关重要。MCSCSet的构建首先从腾讯医典这一真实医疗应用中收集了超过90万条用户查询日志，经过严格筛选，去除包含个人隐私信息、长度异常及不含医疗实体的查询，最终选取约20万条包含常见易错医疗实体的查询作为待标注语料。随后，聘请具有医学背景的专业人员（如医学生和医院工作人员）进行标注，标注流程包括识别医疗实体、检查并纠正拼写错误、标记错误类型，并通过双人或三人交叉验证确保标注质量，最终形成包含错误查询、正确查询、错误位置、错误类型及医疗实体位置等字段的高质量数据集。

使用方法

MCSCSet适用于医疗领域中文拼写校正任务的模型训练与评估。使用时，可直接将错误查询作为输入，正确查询作为输出，训练序列到序列的校正模型。数据集中的错误位置和类型信息可用于辅助误差检测模块的设计，而医疗实体位置则有助于模型聚焦于关键术语的校正。医疗混淆集可用于自动生成额外的训练样本，通过替换医疗实体中的字符来模拟真实错误分布。在实验设置中，建议将一定比例的正确-正确样本（如50%）加入训练集，以避免模型过度倾向于修改所有输入，从而提升在真实应用中的泛化能力。

背景与挑战

背景概述

中文拼写纠错（Chinese Spelling Correction, CSC）在自然语言处理领域扮演着至关重要的角色，广泛应用于搜索引擎和光学字符识别等系统。然而，现有研究多聚焦于开放域场景，针对医学领域的拼写纠错探索甚少。医学文本中充斥着复杂且罕见的医学术语，其拼写错误不仅频率高，且纠正过程对专业知识的要求远超通用领域。为填补这一空白，清华大学深圳国际研究生院与腾讯觅影实验室等机构于2022年联合推出了MCSCSet数据集。该数据集旨在定义医学领域中文拼写纠错任务，核心研究问题在于如何有效检测并修正医学实体中的拼写错误。通过收集腾讯医典的真实用户查询日志，并邀请医学专家进行标注，MCSCSet构建了约20万样本的大规模资源，为医学领域拼写纠错的研究奠定了坚实基础，推动了该方向从开放域向专业领域的跨越。

当前挑战

MCSCSet所面对的挑战主要体现在两个方面。首先，从领域问题来看，医学拼写纠错的核心难点在于错误分布的显著差异。开放域数据中罕见的医学术语拼写错误在医学文本中高频出现，且错误类型复杂，包括音近、形近、语序混乱等多种形式。直接迁移开放域模型至医学场景会导致性能急剧下降，例如基于SIGHAN-15训练的模型在MCSCSet上的F1值从79.53%骤降至26.89%，凸显了领域知识缺失带来的严峻挑战。其次，在数据集构建过程中，挑战同样艰巨。一方面，真实医疗场景下的错误数据难以获取，需要从海量用户查询中筛选并确保其代表实际应用；另一方面，医学实体的纠错标注高度依赖专业知识，普通标注者难以胜任，必须由医学专家参与，这大大增加了标注的复杂性和成本。因此，如何构建兼具规模与专业质量的数据集，成为推动医学拼写纠错发展的关键瓶颈。

常用场景

经典使用场景

MCSCSet作为首个由医学专家标注的中文医疗领域拼写纠错数据集，其经典使用场景聚焦于医疗搜索引擎中的查询纠错。在真实医疗应用中，用户输入常包含复杂且不常见的医学实体拼写错误，例如将“拔智齿”误写为“拨智尺”。该数据集通过提供约20万对真实医疗查询与对应纠错样本，为训练和评估医疗领域拼写纠错模型奠定了坚实基础。研究者可基于此数据集构建能够精准识别并修正医学实体拼写错误的系统，从而有效提升医疗信息检索的准确性与用户体验。

解决学术问题

MCSCSet解决了开放领域拼写纠错模型在医疗场景中性能显著下降的学术难题。由于开放领域语料缺乏复杂医学实体及其拼写错误分布，直接迁移模型会导致检测F1值从81.33%骤降至38.94%。该数据集通过专家标注的医疗混淆集和五类错误类型（音似、形似、语序混乱、多字、少字），为医疗领域拼写纠错提供了标准化的基准测试平台。其意义在于首次定义了医疗领域中文拼写纠错任务，填补了该方向的数据空白，并推动了领域自适应纠错方法的发展。

实际应用

MCSCSet的实际应用场景广泛覆盖医疗信息化系统，包括电子病历纠错、医学知识问答、药品名称检索及医疗百科查询等。例如，在医生手写电子病历中，若将恶性疾病名称拼写错误，患者查询时可能获得错误诊断信息，导致诊疗延误。借助基于MCSCSet训练的纠错模型，系统可自动识别并修正“天花粉”与“天花”、“葡萄”与“葡萄糖”等易混淆医学实体，从而保障医疗信息的准确性，促进医患沟通的顺畅与医疗服务的标准化。

数据集最近研究