CRAB
收藏Hugging Face2025-08-07 更新2025-08-08 收录
下载链接:
https://huggingface.co/datasets/zhm0/CRAB
下载链接
链接失效反馈官方服务:
资源简介:
CRAB是一个评估检索增强型大型语言模型在生物医学领域编纂能力的基准数据集。它包含了英语、法语、德语和中文四种语言的数据。
创建时间:
2025-08-04
原始信息汇总
CRAB数据集概述
基本信息
- 许可证: Apache-2.0
- 任务类别: 文本生成
- 标签: 生物学、医学
- 数据规模: n<1K
数据集描述
CRAB是一个评估检索增强LLMs在生物医学领域Curation能力的基准。该数据集旨在评估模型在生物医学信息检索和生成任务中的表现。
数据文件结构
- 英语数据:
en_data.jsonl - 法语数据:
french_data.jsonl - 德语数据:
german_data.jsonl - 中文数据:
zh_data.jsonl
引用信息
如果使用该数据集,请引用以下论文:
@misc{zhong2025crabbenchmarkevaluatingcuration, title={CRAB: A Benchmark for Evaluating Curation of Retrieval-Augmented LLMs in Biomedicine}, author={Hanmeng Zhong and Linqing Chen and Wentao Wu and Weilei Wang}, year={2025}, eprint={2504.12342}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2504.12342}, }
搜集汇总
数据集介绍

构建方式
在生物医学领域,数据质量对研究至关重要。CRAB数据集的构建采用了多语言并行策略,涵盖英语、法语、德语和中文四种语言版本,通过专业医学文献和权威数据库进行数据采集。研究团队对原始文本进行了标准化处理和人工校验,确保数据在术语准确性和语义一致性方面达到学术标准。数据以JSON Lines格式存储,便于机器读取和处理。
特点
作为评估检索增强型大语言模型在生物医学领域应用性能的基准数据集,CRAB具有鲜明的专业特色。其核心价值体现在跨语言医学知识的系统整合,数据规模虽不足千条但经过严格筛选,每条记录都包含经过验证的生物医学知识。数据集特别关注药物研发、疾病诊断等前沿课题,为自然语言处理技术在专业领域的应用提供了可靠的测试平台。
使用方法
使用者可通过HuggingFace平台直接获取CRAB数据集的不同语言版本。该数据集主要服务于生物医学文本生成任务的模型训练与评估,研究人员可基于提供的多语言数据进行跨文化医学知识处理研究。使用前建议详细阅读配套的技术报告,理解数据采集标准和标注规范。为保障研究可复现性,引用原始论文是必要的学术规范。
背景与挑战
背景概述
CRAB数据集由Hanmeng Zhong等研究人员于2025年提出,旨在评估检索增强型大语言模型(LLMs)在生物医学领域的知识整合能力。该数据集由Apache-2.0协议授权,覆盖英语、法语、德语和中文四种语言,聚焦于文本生成任务,规模虽不足千条样本,但其在生物医学信息处理领域具有重要价值。通过多语言设计,CRAB为研究跨语言生物医学知识检索与生成提供了基准测试平台,推动了生物医学自然语言处理技术的发展。
当前挑战
CRAB数据集面临的挑战主要体现在两个方面:领域问题的复杂性与数据构建的技术难度。生物医学领域专业术语密集且语义复杂,要求模型具备精准的领域知识检索与生成能力,这对现有检索增强型LLMs提出了较高要求。多语言数据的构建涉及专业术语的跨语言对齐与质量控制,需克服语言差异带来的语义一致性难题。数据规模有限也制约了模型的泛化性能评估,如何在有限样本中全面反映模型的知识整合能力成为亟待解决的问题。
常用场景
经典使用场景
在生物医学领域,CRAB数据集被广泛用于评估检索增强型大语言模型(LLMs)的文献整理能力。研究人员通过该数据集的多语言文本(包括英语、法语、德语和中文),测试模型在生物医学文献检索、信息提取和知识整合方面的表现。这一场景尤其适用于需要处理多语言生物医学文献的研究项目。
实际应用
在实际应用中,CRAB数据集被用于优化生物医学文献检索系统,特别是在多语言环境下。医疗机构和研究团队利用该数据集训练和评估模型,以提高文献检索的准确性和效率。例如,在流行病学研究或药物开发中,快速准确地整理相关文献对决策支持至关重要。
衍生相关工作
围绕CRAB数据集,已衍生出多项经典研究,包括多语言生物医学信息检索系统的优化、检索增强型LLMs的微调方法,以及生物医学知识图谱的构建技术。这些工作进一步扩展了CRAB数据集的应用范围,推动了生物医学信息处理技术的进步。
以上内容由遇见数据集搜集并总结生成



