five

IIC/RagQuAS

收藏
Hugging Face2024-06-04 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/IIC/RagQuAS
下载链接
链接失效反馈
官方服务:
资源简介:
RagQuAS是一个高质量的西班牙语问答和检索增强生成(RAG)数据集,涵盖了多个领域,如爱好、语言学、宠物、健康、天文学等。数据集的设计目的是评估完整的RAG系统,并且所有数据均由人类生成和审核。数据集的使用受到CC BY-NC-SA 4.0非商业许可的限制。
提供机构:
IIC
原始信息汇总

数据集概述

数据集基本信息

  • 语言: 西班牙语
  • 许可证: CC BY-NC-SA 4.0
  • 多语言性: 单语种
  • 任务类别: 问答、文本检索
  • 任务ID: 文档检索、抽取式问答
  • 标签: 西班牙语
  • 配置: 默认配置
    • 数据文件:
      • 分割: 测试
      • 路径: data/test-*

数据集详细信息

  • 特征:
    • topic: 字符串类型,示例所属的领域。
    • answer: 字符串类型,系统对任意变体的回答。
    • question: 字符串类型,关于文档的问题。
    • variant: 字符串类型,问题变体的标识符。
    • context_1context_5: 字符串类型,用于回答问题的文档上下文。
    • link_1link_5: 字符串类型,文档链接。
    • text_1text_5: 字符串类型,文档的完整文本。
  • 分割:
    • test: 201个示例,6905998字节
  • 下载大小: 1015578字节
  • 数据集大小: 6905998字节

数据集描述

  • 数据集名称: Retrieval-Augmented-Generation and Queston-Answering in Spanish (RagQuAS) Dataset
  • 摘要: RagQuAS是一个高质量的数据集,包含大量领域的示例,如爱好、语言学、宠物、健康、天文学、客户服务、汽车、日常生活、文档、能源、滑雪、欺诈、美食、爱好、语言、游戏、语言、美甲、音乐、滑冰、急救、食谱、回收、索赔、保险、网球、运输、旅游、兽医、旅行、瑜伽。
  • 支持的任务和排行榜: 设计用于评估完整的RAG系统。
  • 语言: 西班牙语 (BCP-47 es)

数据集结构

  • 数据实例:
    • 示例结构包括topic, answer, question, variant, context_1context_5, link_1link_5, text_1text_5
  • 数据字段:
    • topic: 示例所属的领域。
    • question: 关于文档的问题。
    • variant: 问题变体的标识符。
    • answer: 系统对任意变体的回答。
    • context_i: 用于回答问题的文档上下文。
    • text_i: 文档的完整文本。
    • link_i: 文档链接。
  • 数据分割:
    • 数据集未分为训练、验证和测试集,设计用于评估。

数据集创建

  • 策划理由: RAG系统是一种涉及多个AI模型协作的复杂结构。拥有评估这些系统的数据集对于衡量其整体有效性非常有价值。
  • 源数据: 数据从网络上的简单文本中创建,包含不同领域的信息。
  • 初始数据收集和规范化: 从选定的领域中选择文本,随后设计一系列问题和不同变体,并选择相关信息以回答每个问题。
  • 源语言生产者: 整个语料库由人工生成和审核。
  • 注释:
    • 注释指南包括生成文档的问答对并找到其中的相关信息以获取上下文。
    • 注释过程包括对数据进行提问和解决疑问。
    • 注释者: 由两名计算语言学家手动完成。
  • 个人信息和敏感信息: 数据集不含个人信息和敏感信息。

使用数据的考虑

  • 社会影响: 创建高质量的西班牙语语料库对于使该语言的AI达到英语水平至关重要。捐赠高质量、多样化的任务和领域语料库是实现这一目标的最重要因素。
  • 偏见讨论: 未进行偏见分析,因此可能存在一些由所选上下文来源引起的偏见。
  • 其他已知限制: 无

附加信息

  • 数据集策展人: Instituto de Ingeniería del Conocimiento (IIC)

  • 许可证信息: 该数据集在非商业用途下使用CC BY-NC-SA 4.0许可证。

  • 引用信息:

    @misc {Instituto de Ingeniería del Conocimiento (IIC), author = { {Instituto de Ingeniería del Conocimiento} }, title = { Retrieval-Augmented-Generation and Queston-Answering in Spanish (RagQuAS) Dataset }, year = 2024, url = { https://huggingface.co/datasets/IIC/RagQuAS }, doi = { 10.57967/hf/2044 }, publisher = { Hugging Face } }

  • 贡献: 感谢@mariagrandury提供参与创建西班牙语和共同官方语言指令语料库的机会,以促进这些丰富、多样且具有重要意义的语言的AI模型。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作