somosnlp-hackathon-2022/biomed_squad_es_v2
收藏Hugging Face2022-04-03 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/somosnlp-hackathon-2022/biomed_squad_es_v2
下载链接
链接失效反馈官方服务:
资源简介:
# Dataset Card for biomed_squad_es_v2
This Dataset was created as part of the "Extractive QA Biomedicine" project developed during the 2022 [Hackathon](https://somosnlp.org/hackathon) organized by SOMOS NLP.
## Table of Contents
- [Dataset Description](#dataset-description)
- [Dataset Summary](#dataset-summary)
- [Supported Tasks](#supported-tasks-and-leaderboards)
- [Languages](#languages)
- [Dataset Structure](#dataset-structure)
- [Data Instances](#data-instances)
- [Data Fields](#data-instances)
- [Data Splits](#data-instances)
- [Dataset Creation](#dataset-creation)
- [Curation Rationale](#curation-rationale)
- [Source Data](#source-data)
- [Annotations](#annotations)
- [Personal and Sensitive Information](#personal-and-sensitive-information)
- [Considerations for Using the Data](#considerations-for-using-the-data)
- [Social Impact of Dataset](#social-impact-of-dataset)
- [Discussion of Biases](#discussion-of-biases)
- [Other Known Limitations](#other-known-limitations)
- [Additional Information](#additional-information)
- [Dataset Curators](#dataset-curators)
- [Licensing Information](#licensing-information)
- [Citation Information](#citation-information)
## Dataset Description
- **Homepage:** [Needs More Information]
- **Repository:** [Needs More Information]
- **Paper:** [Needs More Information]
- **Leaderboard:** [Needs More Information]
- **Point of Contact:** [Needs More Information]
### Dataset Summary
This is a subset of the [dev squad_es (v2) dataset](https://huggingface.co/datasets/squad_es) (automatic translation of the Stanford Question Answering Dataset v2 into Spanish) containing questions related to the biomedical domain.
License, distribution and usage conditions of the original Squad_es Dataset apply.
### Languages
Spanish
## Dataset Structure
### Data Fields
```
{'answers': {'answer_start': [343, 343, 343],
'text': ['diez veces su propio peso',
'diez veces su propio peso',
'diez veces su propio peso']},
'context': 'Casi todos los ctenóforos son depredadores, tomando presas que van desde larvas microscópicas y rotíferos a los adultos de pequeños crustáceos; Las excepciones son los juveniles de dos especies, que viven como parásitos en las salpas en las que los adultos de su especie se alimentan. En circunstancias favorables, los ctenóforos pueden comer diez veces su propio peso en un día. Sólo 100-150 especies han sido validadas, y posiblemente otras 25 no han sido completamente descritas y nombradas. Los ejemplos de libros de texto son cidipidos con cuerpos en forma de huevo y un par de tentáculos retráctiles bordeados con tentilla ("pequeños tentáculos") que están cubiertos con colúnculos, células pegajosas. El filo tiene una amplia gama de formas corporales, incluyendo los platyctenidos de mar profundo, en los que los adultos de la mayoría de las especies carecen de peines, y los beroides costeros, que carecen de tentáculos. Estas variaciones permiten a las diferentes especies construir grandes poblaciones en la misma área, porque se especializan en diferentes tipos de presas, que capturan por una amplia gama de métodos que utilizan las arañas.',
'id': '5725c337271a42140099d165',
'question': '¿Cuánta comida come un Ctenophora en un día?',
'title': 'Ctenophora'}
```
### Data Splits
Validation: 1137 examples
### Citation Information
```
@article{2016arXiv160605250R,
author = {Casimiro Pio , Carrino and Marta R. , Costa-jussa and Jose A. R. , Fonollosa},
title = "{Automatic Spanish Translation of the SQuAD Dataset for Multilingual
Question Answering}",
journal = {arXiv e-prints},
year = 2019,
eid = {arXiv:1912.05200v1},
pages = {arXiv:1912.05200v1},
archivePrefix = {arXiv},
eprint = {1912.05200v2},
}
```
## Team
Santiago Maximo: [smaximo](https://huggingface.co/smaximo)
# biomed_squad_es_v2 数据集卡片(Dataset Card)
本数据集是为SOMOS NLP组织的2022年黑客松(Hackathon)活动中开发的「生物医药抽取式问答(Extractive QA Biomedicine)」项目所创建的。
## 目录
- [数据集描述](#dataset-description)
- [数据集概述](#dataset-summary)
- [支持任务与排行榜](#supported-tasks-and-leaderboards)
- [语言](#languages)
- [数据集结构](#dataset-structure)
- [数据样本](#data-instances)
- [数据字段](#data-fields)
- [数据划分](#data-splits)
- [数据集构建](#dataset-creation)
- [构建初衷](#curation-rationale)
- [源数据](#source-data)
- [标注流程](#annotations)
- [个人与敏感信息](#personal-and-sensitive-information)
- [数据集使用注意事项](#considerations-for-using-the-data)
- [数据集的社会影响](#social-impact-of-dataset)
- [偏差讨论](#discussion-of-biases)
- [其他已知局限性](#other-known-limitations)
- [附加信息](#additional-information)
- [数据集维护者](#dataset-curators)
- [许可信息](#licensing-information)
- [引用信息](#citation-information)
## 数据集描述
- **主页:** [待补充更多信息]
- **代码仓库:** [待补充更多信息]
- **相关论文:** [待补充更多信息]
- **排行榜(Leaderboard):** [待补充更多信息]
- **联系方式:** [待补充更多信息]
### 数据集概述
本数据集是[SQuAD_es(v2)数据集](https://huggingface.co/datasets/squad_es)(斯坦福问答数据集v2(Stanford Question Answering Dataset v2)的西班牙语自动翻译版本)的一个子集,仅包含与生物医药领域相关的问题。
原始SQuAD_es数据集的许可、分发及使用规则依然适用。
### 语言
西班牙语
## 数据集结构
### 数据字段
{'answers': {'answer_start': [343, 343, 343],
'text': ['diez veces su propio peso',
'diez veces su propio peso',
'diez veces su propio peso']},
'context': 'Casi todos los ctenóforos son depredadores, tomando presas que van desde larvas microscópicas y rotíferos a los adultos de pequeños crustáceos; Las excepciones son los juveniles de dos especies, que viven como parásitos en las salpas en las que los adultos de su especie se alimentan. En circunstancias favorables, los ctenóforos pueden comer diez veces su propio peso en un día. Sólo 100-150 especies han sido validadas, y posiblemente otras 25 no han sido completamente descritas y nombradas. Los ejemplos de libros de texto son cidipidos con cuerpos en forma de huevo y un par de tentáculos retráctiles bordeados con tentilla ("pequeños tentáculos") que están cubiertos con colúnculos, células pegajosas. El filo tiene una amplia gama de formas corporales, incluyendo los platyctenidos de mar profundo, en los que los adultos de la mayoría de las especies carecen de peines, y los beroides costeros, que carecen de tentáculos. Estas variaciones permiten a las diferentes especies construir grandes poblaciones en la misma área, porque se especializan en diferentes tipos de presas, que capturan por una amplia gama de métodos que utilizan las arañas.',
'id': '5725c337271a42140099d165',
'question': '¿Cuánta comida come un Ctenophora en un día?',
'title': 'Ctenophora'}
### 数据划分
验证集:1137条样本
## 数据集构建
### 构建初衷
### 源数据
### 标注流程
### 个人与敏感信息
## 数据集使用注意事项
### 数据集的社会影响
### 偏差讨论
### 其他已知局限性
## 附加信息
### 数据集维护者
### 许可信息
### 引用信息
@article{2016arXiv160605250R,
author = {Casimiro Pio , Carrino and Marta R. , Costa-jussa and Jose A. R. , Fonollosa},
title = "{Automatic Spanish Translation of the SQuAD Dataset for Multilingual
Question Answering}",
journal = {arXiv e-prints},
year = 2019,
eid = {arXiv:1912.05200v1},
pages = {arXiv:1912.05200v1},
archivePrefix = {arXiv},
eprint = {1912.05200v2},
}
## 团队
圣地亚哥·马克西莫(Santiago Maximo):[smaximo](https://huggingface.co/smaximo)
提供机构:
somosnlp-hackathon-2022
原始信息汇总
数据集概述
数据集名称
- 名称: biomed_squad_es_v2
数据集描述
- 描述: 该数据集是dev squad_es (v2)数据集的一个子集,专注于生物医学领域的问题。它是斯坦福问答数据集v2的西班牙语自动翻译版本。
支持的任务
- 任务: 提取式问答
语言
- 语言: 西班牙语
数据集结构
数据字段
-
字段示例:
{answers: {answer_start: [343, 343, 343], text: [diez veces su propio peso, diez veces su propio peso, diez veces su propio peso]}, context: ..., id: 5725c337271a42140099d165, question: ¿Cuánta comida come un Ctenophora en un día?, title: Ctenophora}
数据分割
- 验证集: 1137个例子
引用信息
-
引用:
@article{2016arXiv160605250R, author = {Casimiro Pio , Carrino and Marta R. , Costa-jussa and Jose A. R. , Fonollosa}, title = "{Automatic Spanish Translation of the SQuAD Dataset for Multilingual Question Answering}", journal = {arXiv e-prints}, year = 2019, eid = {arXiv:1912.05200v1}, pages = {arXiv:1912.05200v1}, archivePrefix = {arXiv}, eprint = {1912.05200v2}, }
搜集汇总
数据集介绍

构建方式
在生物医学信息抽取领域,高质量的西班牙语问答数据集相对稀缺。biomed_squad_es_v2数据集源自SOMOS NLP 2022年黑客松的“抽取式生物医学问答”项目。其构建过程以西班牙语版SQuAD v2数据集为基础,通过领域筛选机制,从中精心提取出与生物医学主题相关的问题-答案对。该过程并非简单翻译,而是基于原文语境与专业术语的适配性进行筛选,确保了数据在目标领域的针对性与实用性,最终形成了包含1137个样本的验证集。
使用方法
该数据集主要适用于训练与评估西班牙语抽取式问答模型,特别是在生物医学垂直领域的应用。研究人员可直接加载该数据集,将其输入到如BERT等预训练语言模型中进行微调,以适配生物医学文本的理解任务。在使用时,需注意其遵循原SQuAD_es数据集的许可与使用条款。典型的流程包括数据加载、模型训练、以及在提供的验证集上进行性能评估,以衡量模型从给定生物医学上下文中精准定位答案的能力。
背景与挑战
背景概述
在自然语言处理领域,西班牙语生物医学文本的问答任务长期面临资源匮乏的困境。biomed_squad_es_v2数据集应运而生,由SOMOS NLP组织在2022年黑客松期间主导创建,核心研究人员包括Santiago Maximo等。该数据集聚焦于生物医学领域的抽取式问答,旨在通过自动翻译并筛选SQuAD v2西班牙语版本中相关样本,构建高质量的专业语料库,以推动西班牙语生物医学信息检索与理解模型的发展,弥补该语言在专业垂直领域的数据空白。
当前挑战
该数据集致力于解决生物医学领域西班牙语问答系统的核心挑战,即如何在专业术语密集、语义复杂的文本中精准定位答案片段。构建过程中的主要困难在于:一是从通用西班牙语数据中有效筛选生物医学相关内容的准确性保障;二是自动翻译可能引入的术语偏差或语境损失,需通过人工校验确保专业一致性;三是数据规模受限,仅包含1137个验证样本,对模型训练与评估的全面性构成制约。
常用场景
经典使用场景
在生物医学信息抽取领域,该数据集为西班牙语问答系统提供了关键资源。其经典使用场景聚焦于训练和评估抽取式问答模型,模型需要从给定的生物医学文本片段中精准定位并提取答案。这一过程模拟了真实世界中医学文献检索或临床知识查询的需求,通过上下文理解与答案定位的双重任务,推动模型在专业领域的语义理解能力。
解决学术问题
该数据集有效解决了生物医学领域西班牙语自然语言处理资源匮乏的学术难题。它为跨语言迁移学习提供了基准,使得研究者能够探索多语言模型在专业领域的适应性。通过提供高质量的标注数据,该数据集促进了问答系统在医学文本理解、术语消歧和知识关联等方面的研究,为低资源语言的专业应用开辟了新途径。
实际应用
在实际应用中,该数据集支撑了智能医疗助手和医学文献检索系统的开发。例如,在西班牙语地区的临床决策支持系统中,医生可通过自然语言提问快速获取疾病治疗指南或药物相互作用信息。此外,医学教育平台也能利用此类模型构建交互式学习工具,帮助学生从海量文献中高效提取关键知识,提升专业信息获取的准确性与时效性。
数据集最近研究
最新研究方向
在生物医学信息抽取领域,西班牙语专业数据集的发展正成为自然语言处理研究的热点。biomed_squad_es_v2作为SQuAD西班牙语翻译版本的生物医学子集,为西班牙语生物医学问答系统提供了关键资源。该数据集推动了跨语言生物医学文本理解模型的进步,尤其在多语言预训练模型的微调与评估中展现出重要价值。随着全球健康信息需求的增长,针对西班牙语生物医学文献的自动问答技术研究日益受到关注,该数据集为开发适应西班牙语医疗语境的信息检索系统奠定了基础,促进了医疗知识普及与跨语言科研协作。
以上内容由遇见数据集搜集并总结生成



