IIC/AQuAS

Hugging Face2024-04-11 更新2024-06-11 收录

下载链接：

https://hf-mirror.com/datasets/IIC/AQuAS

下载链接

链接失效反馈

官方服务：

资源简介：

--- language: - es tags: - spanish multilinguality: - monolingual task_categories: - question-answering task_ids: - abstractive-qa - extractive-qa license: - cc-by-nc-sa-4.0 pretty_name: AQuAS --- # Abstractive Question-Answering in Spanish (AQuAS) Dataset ## Table of Contents - [Dataset Card Creation Guide](#dataset-card-creation-guide) - [Table of Contents](#table-of-contents) - [Dataset Description](#dataset-description) - [Dataset Summary](#dataset-summary) - [Dataset Structure](#dataset-structure) - [Data Instances](#data-instances) - [Data Fields](#data-fields) - [Data Splits](#data-splits) - [Dataset Creation](#dataset-creation) - [Curation Rationale](#curation-rationale) - [Source Data](#source-data) - [Initial Data Collection and Normalization](#initial-data-collection-and-normalization) - [Who are the source language producers?](#who-are-the-source-language-producers) - [Annotations](#annotations) - [Annotation process](#annotation-process) - [Who are the annotators?](#who-are-the-annotators) - [Personal and Sensitive Information](#personal-and-sensitive-information) - [Considerations for Using the Data](#considerations-for-using-the-data) - [Social Impact of Dataset](#social-impact-of-dataset) - [Discussion of Biases](#discussion-of-biases) - [Other Known Limitations](#other-known-limitations) - [Additional Information](#additional-information) - [Dataset Curators](#dataset-curators) - [Licensing Information](#licensing-information) - [Citation Information](#citation-information) - [Contributions](#contributions) ## Dataset Description - **Leaderboard:** [Leaderboard Somos600M]() - - **Point of Contact:** [Contacto]() ### Dataset Summary AQuAS es un dataset de alta calidad con ejemplos en varios dominios: | dominio | count | |:-----------|-----------:| | financiero | 12 | | seguros | 20 | | clínico | 58 | | música | 6 | | legal | 11 | ### Supported Tasks and Leaderboards Está diseñado para evaluar modelos de lenguaje en la tarea de Question-Answering Abstractivo. También puede utlizarse para entrenar de forma supervisada estos modelos. ### Languages Castellano (BCP-47 es). ## Dataset Structure ### Data Instances Las instancias de este dataset tienen la siguiente estructura: | context | question | answer | topic | |-------------------------------------------------------------------------------------------|----------------------------------------------|------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|-----------| | Estos préstamos, como se ha dicho, tienen para la entidad que los concede una garantía... | ¿Para qué sirven los préstamos hipotecarios? | Fundamentalmente sirven para adquirir inmuebles, ya sean viviendas o no, así como para su rehabilitación. En otros casos pueden servir para aumentar el dinero del que disponemos para adquirir bienes de consumo o para reestructurar varias deudas vigentes en un solo préstamo. | financial | ### Data Fields - **context:** contexto donde podría encontrarse la respuesta. - **question:** pregunta planteada. Existen preguntas que no pueden responderse en base al contexto. - **answer:** respuesta redactada a partir del contexto. - **topic:** el dominio sobre el que trata el ejemplo. Cabe mencionar que los contextos son cadenas de caracteres extensas. ### Data Splits El dataset no está dividido en train, validation y test porque está diseñado para evaluar. | | train | |-------------------------|------:| | Input Sentences | 107 | ## Dataset Creation ### Curation Rationale Los modelos de lenguaje han demostrado grandes capacidades para resolver tareas por medio del entrenamiento de instrucciones. Dichas instrucciones son de diferente naturaleza, tales como: resumir, clasificar, traducir, etc. El Question-Answering Abstractivo en una tarea fundamental a la hora de diseñar modelos con capacidades para responder a preguntas complejas sobre los contextos dados en las que no se limitan a extraer la información literal del mismo, ya que la respuesta necesita de cierta comprensión del contenido. ### Source Data Los datos se crearon a partir de texto simple extraído de la web, con información de los distintos dominios. #### Initial Data Collection and Normalization Para la recolección de los datos se hizo una selección de los textos a partir los dominios elegidos, a los que posteriormente se les extrayeron unos contextos con los que formular las preguntas y respuestas. Se dio mucha importancia al hecho de que los contextos debían ser extensos. #### Who are the source language producers? Todo el corpus ha sido generado y revisado por humanos. ### Annotations La guía de anotación consistió en generar pares de pregunta-respuesta dado un contexto. #### Annotation process La metodología de corpus ha consistido en el acuerdo y diseño de las preguntas a realizar sobre los datos y la resolución de dudas. #### Who are the annotators? Corpus realizados de forma manual por dos lingüistas computacionales. Las respuestas han sido escritas por cada anotador. ### Personal and Sensitive Information El dataset está libre de información personal y sensible. ## Considerations for Using the Data ### Social Impact of Dataset Crear corpus de calidad en castellano es de vital importancia si queremos que la inteligencia artificial de dicho idioma esté a la altura del inglés. La donación de corpus de alta calidad con tareas y dominios variados es lo más relevante a la hora de lograr este objetivo. ### Discussion of Biases No se ha hecho un análisis de sesgo, por lo que pueden existir algunos sesgos a causa del origen del que provienen los contextos seleccionados. ### Other Known Limitations Existen sesgos a nivel de dominio, ya que solo se han reflejado cinco a la hora de generar el dataset. ## Additional Information ### Dataset Curators [Instituto de Ingeniería del Conocimiento](https://www.iic.uam.es/iic/) (IIC). ### Licensing Information Este dataset está bajo la licencia de uso no comercial [CC BY-NC-SA 4.0](https://creativecommons.org/licenses/by-nc-sa/4.0/). ### Citation Information ``` @misc {Instituto de Ingeniería del Conocimiento (IIC), author = { {Instituto de Ingeniería del Conocimiento} }, title = { Abstractive Question-Answering in Spanish (AQuAS) Dataset }, year = 2024, url = { https://huggingface.co/datasets/IIC/AQuAS }, doi = { 10.57967/hf/2043 }, publisher = { Hugging Face } } ``` ### Contributions Gracias a [@mariagrandury](https://huggingface.co/mariagrandury) por darnos la oportunidad de participar en la creación de un corpus de instrucciones en castellano y lenguas cooficiales para potenciar los modelos de inteligencia artificial en estos idiomas tan ricos, variados y de tanta relevancia.

提供机构：

IIC

原始信息汇总

AQuAS 数据集概述

数据集描述

数据集总结

名称: AQuAS
语言: 西班牙语（BCP-47 es）
任务类别: 问答
任务ID: 抽象问答（abstractive-qa）, 提取问答（extractive-qa）
许可证: CC BY-NC-SA 4.0

AQuAS 是一个高质量的数据集，包含多个领域的示例：

领域	数量
金融	12
保险	20
临床	58
音乐	6
法律	11

支持的任务和排行榜

设计目的: 评估语言模型在抽象问答任务上的表现。
用途: 可用于监督学习训练这些模型。

数据集结构

数据实例

结构: 每个实例包含上下文、问题、答案和主题。
示例:
- 上下文: 描述贷款的文本。
- 问题: 关于抵押贷款用途的问题。
- 答案: 详细解释抵押贷款的用途。
- 主题: 金融。

数据字段

context: 包含答案的上下文。
question: 提出的问题。
answer: 基于上下文撰写的答案。
topic: 示例所属的领域。

数据分割

分割情况: 未分割为训练、验证和测试集，设计用于评估。

数据集创建

来源数据

数据收集: 从网络文本中提取，涉及多个选定领域。
语言生产者: 所有文本均由人类生成和审核。

注释

注释过程: 生成基于上下文的问答对。
注释者: 两名计算语言学家手动完成。

个人信息和敏感信息

信息状态: 数据集不含个人或敏感信息。

使用数据集的考虑因素

社会影响

重要性: 创建高质量的西班牙语数据集对于提升该语言的人工智能水平至关重要。

偏见讨论

偏见分析: 未进行偏见分析，可能存在由于上下文来源导致的偏见。

其他已知限制

领域限制: 数据集仅涵盖五个领域，存在领域偏见。

5,000+

优质数据集

54 个

任务类型

进入经典数据集