BioWiC
收藏BioWiC 数据集概述
数据集目的
BioWiC 是一个用于评估语言模型中生物医学概念上下文表示的基准数据集。该数据集旨在通过二元分类任务来检验生物医学术语在不同句子中的含义是否一致。
数据集结构
数据集中的每个实例包含一对生物医学术语及其对应的句子。任务是判断这对术语在两个句子中的含义是否相同。
数据集构建
- UMLS信息提取: 在UMLS目录中,提供了详细的步骤来提取构建BioWiC数据集所需的UMLS信息。
- BioWiC数据集构建: 遵循BioWiC_construction目录中的指示,可以重建BioWiC数据集。
- 模型训练与评估: 模型文件夹包含用于使用BioWiC数据集训练和测试不同大型语言模型的脚本。
数据集获取
官方发布的BioWiC数据集可在data文件夹中直接下载。
数据集使用
通过Hugging Face的datasets库可以加载BioWiC数据集,具体命令如下:
python
from datasets import load_dataset
dataset = load_dataset("hrouhizadeh/BioWiC")
引用信息
若在研究中使用BioWiC数据集,请引用以下论文: bash @article{rouhizadeh2024dataset, title={A Dataset for Evaluating Contextualized Representation of Biomedical Concepts in Language Models}, author={Rouhizadeh, Hossein and Nikishina, Irina and Yazdani, Anthony and Bornet, Alban and Zhang, Boya and Ehrsam, Julien and Gaudet-Blavignac, Christophe and Naderi, Nona and Teodoro, Douglas}, journal={Scientific Data}, volume={11}, number={1}, pages={1--13}, year={2024}, publisher={Nature Publishing Group} }




