FreedomIntelligence/Huatuo26M-Lite
收藏Hugging Face2023-11-29 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/FreedomIntelligence/Huatuo26M-Lite
下载链接
链接失效反馈官方服务:
资源简介:
Huatuo26M-Lite是基于Huatuo26M数据集经过多次净化和重写优化的版本,具有更高的数据质量和更多的数据维度。数据集包含178k条中文医学领域的问答数据,经过去重、清洗、高频问题提取、ChatGPT评分和重写等步骤处理。数据分布部分展示了数据类别的条形图和前20种相关疾病的表格。
Huatuo26M-Lite是基于Huatuo26M数据集经过多次净化和重写优化的版本,具有更高的数据质量和更多的数据维度。数据集包含178k条中文医学领域的问答数据,经过去重、清洗、高频问题提取、ChatGPT评分和重写等步骤处理。数据分布部分展示了数据类别的条形图和前20种相关疾病的表格。
提供机构:
FreedomIntelligence
原始信息汇总
数据集概述
基本信息
- 数据集名称: Huatuo26M-Lite
- 版本: 0.0.1
- 大小: 178k
- 语言: 中文
- 许可证: Apache-2.0
数据集描述
Huatuo26M-Lite是一个基于Huatuo26M数据集的精炼和优化版本,经过多次净化处理和重写,具有更多的数据维度和更高的数据质量。
数据收集与处理
- 数据来源: 原始数据收集自互联网,主要为医学领域的2600万条QA数据。
- 处理步骤: 包括去重、清洗、提取高频问题、使用ChatGPT对高频问题进行评分,以及仅保留高分问题。答案由ChatGPT重写,通过人工评估,质量优于原始答案。
数据分布
- 数据类别分布: 提供了一个条形图,展示了数据集中的数据类别分布。
- 相关疾病分布: 展示了与数据集相关的Top 20疾病,包括每种疾病的条目数和比例。
使用方法
python from datasets import load_dataset dataset = load_dataset("FreedomIntelligence/Huatuo26M-Lite")
引用信息
@misc{li2023huatuo26m, title={Huatuo-26M, a Large-scale Chinese Medical QA Dataset}, author={Jianquan Li and Xidong Wang and Xiangbo Wu and Zhiyi Zhang and Xiaolong Xu and Jie Fu and Prayag Tiwari and Xiang Wan and Benyou Wang}, year={2023}, eprint={2305.01526}, archivePrefix={arXiv}, primaryClass={cs.CL} }
搜集汇总
数据集介绍

构建方式
Huatuo26M-Lite数据集是基于Huatuo26M数据集经过多次净化和重写后优化而成的。其构建过程包括从Common Crawl中收集的2600万条原始医疗问答数据,经过去重、清洗、提取高频问题、使用ChatGPT对高频问题进行评分,并仅筛选出高分问题。随后,利用ChatGPT对高分问题的答案进行重写,最终形成一个完全精炼的数据集。
特点
Huatuo26M-Lite数据集具有多维度的数据特征和较高的数据质量。其数据来源于互联网,经过高频问题提取和ChatGPT重写,确保了答案的质量优于原始数据。数据集涵盖了多种医疗相关的高频问题,如白癜风、人流、感冒等,并通过人工评估验证了其质量。
使用方法
使用Huatuo26M-Lite数据集时,可以通过Hugging Face的`datasets`库轻松加载。用户只需调用`load_dataset`函数并指定数据集名称即可。该数据集适用于文本分类、问答系统、对话生成等多种自然语言处理任务,尤其在医疗领域的应用中表现出色。
背景与挑战
背景概述
Huatuo26M-Lite数据集是基于Huatuo26M数据集经过多次净化和重写后优化而成的中文医学问答数据集。该数据集由FreedomIntelligence团队于2023年发布,旨在为医学领域的自然语言处理任务提供高质量的数据支持。数据集的核心研究问题在于如何从海量的互联网数据中提取出高质量的医学问答对,并通过人工智能技术进行优化和重写,以提升数据的可用性和准确性。Huatuo26M-Lite的发布为医学问答系统、文本生成和对话系统等领域的研究提供了重要的数据基础,推动了中文医学自然语言处理技术的发展。
当前挑战
Huatuo26M-Lite数据集在构建过程中面临多重挑战。首先,原始数据来源于互联网爬取,存在大量噪声和重复内容,如何高效地进行去重和清洗是首要难题。其次,医学领域的问答对需要极高的准确性和专业性,如何通过自动化工具(如ChatGPT)对答案进行重写并确保其质量,是数据集构建中的关键挑战。此外,数据集的构建还需平衡数据规模与质量,既要保证数据的广泛覆盖,又要确保每条数据的准确性和实用性。这些挑战不仅考验了数据处理技术的先进性,也对医学领域的专业知识提出了更高的要求。
常用场景
经典使用场景
Huatuo26M-Lite数据集在医学领域的自然语言处理研究中具有广泛的应用。其经典使用场景包括医学问答系统的开发与优化、医学文本分类以及对话系统的构建。通过提供高质量的医学问答数据,该数据集为研究人员提供了一个可靠的基准,用于训练和评估各种自然语言处理模型,特别是在处理中文医学文本时。
实际应用
在实际应用中,Huatuo26M-Lite数据集被广泛用于开发智能医疗助手和医学问答系统。这些系统能够为患者提供准确的医学信息和建议,帮助医生快速获取相关医学知识,从而提高医疗服务的效率和质量。此外,该数据集还可用于医学教育领域,帮助学生和医生通过问答形式学习医学知识,提升其专业水平。
衍生相关工作
基于Huatuo26M-Lite数据集,研究人员已经开展了多项经典工作。例如,一些研究利用该数据集训练了高效的医学问答模型,显著提升了模型在中文医学文本上的表现。此外,该数据集还被用于开发多轮对话系统,使得系统能够更好地理解用户的医学问题并提供连贯的回答。这些工作不仅推动了医学自然语言处理领域的发展,还为智能医疗系统的实际应用奠定了坚实的基础。
以上内容由遇见数据集搜集并总结生成



