five

projecte-aina/RAG_Multilingual

收藏
Hugging Face2024-07-17 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/projecte-aina/RAG_Multilingual
下载链接
链接失效反馈
官方服务:
资源简介:
RAG_Multilingual是一个遵循指令的合成问答数据集,源自加泰罗尼亚语、英语和西班牙语的抽取式问答数据集。该数据集包含56,406个实例,通过提示Mixtral8x7b混合专家模型,使用上下文中的引文作为“真理核心”,生成更接近人类的生成性答案。这确保了生成的文本基于经过人类审查的事实,并尽可能避免无关事实和幻觉。该数据集旨在微调多语言检索增强生成系统的模型。

RAG_Multilingual是一个遵循指令的合成问答数据集,源自加泰罗尼亚语、英语和西班牙语的抽取式问答数据集。该数据集包含56,406个实例,通过提示Mixtral8x7b混合专家模型,使用上下文中的引文作为“真理核心”,生成更接近人类的生成性答案。这确保了生成的文本基于经过人类审查的事实,并尽可能避免无关事实和幻觉。该数据集旨在微调多语言检索增强生成系统的模型。
提供机构:
projecte-aina
原始信息汇总

RAG_Multilingual 数据集概述

数据集描述

数据集概要

  • 名称: RAG_Multilingual
  • 类型: 合成QA数据集
  • 来源: 基于Catalan、English和Spanish的提取式QA数据集
  • 规模: 56,406个实例
  • 创建方式: 使用Mixtral8x7b模型生成更接近人类的生成答案,基于提取的上下文引用作为“真实核心”
  • 目的: 用于微调多语言检索增强生成系统

支持的任务和排行榜

  • 任务: 多语言检索增强生成系统的微调

语言

  • 包含语言: English (En-US), Spanish (es-ES), Catalan (ca-ES)

数据集结构

  • 文件格式: JSONL
  • 分割: 训练集、验证集、测试集各一个文件

数据实例

  • 示例结构: 包含类别、指令、响应、上下文、ID、语言和提取信息

数据分割

  • 训练集: 42,303条指令
  • 验证集: 8,459条指令
  • 测试集: 5,643条指令

语言分布

  • English: 19,996条指令
  • Spanish: 15,018条指令
  • Catalan: 21,391条指令

数据集创建

源数据

  • CatalanQA: 对应Catalan语言的指令
  • SQAD: 英语提取式QA的参考数据集
  • SQAC: 西班牙语提取式QA数据集

附加信息

数据集管理

  • 管理单位: 巴塞罗那超级计算中心的语言技术部门(LangTech)
  • 资助项目: 加泰罗尼亚政府通过Aina项目资助

许可信息

  • 许可证: Attribution-ShareAlike 4.0 International License
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作