projecte-aina/RAG_Multilingual
收藏Hugging Face2024-07-17 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/projecte-aina/RAG_Multilingual
下载链接
链接失效反馈官方服务:
资源简介:
RAG_Multilingual是一个遵循指令的合成问答数据集,源自加泰罗尼亚语、英语和西班牙语的抽取式问答数据集。该数据集包含56,406个实例,通过提示Mixtral8x7b混合专家模型,使用上下文中的引文作为“真理核心”,生成更接近人类的生成性答案。这确保了生成的文本基于经过人类审查的事实,并尽可能避免无关事实和幻觉。该数据集旨在微调多语言检索增强生成系统的模型。
RAG_Multilingual是一个遵循指令的合成问答数据集,源自加泰罗尼亚语、英语和西班牙语的抽取式问答数据集。该数据集包含56,406个实例,通过提示Mixtral8x7b混合专家模型,使用上下文中的引文作为“真理核心”,生成更接近人类的生成性答案。这确保了生成的文本基于经过人类审查的事实,并尽可能避免无关事实和幻觉。该数据集旨在微调多语言检索增强生成系统的模型。
提供机构:
projecte-aina
原始信息汇总
RAG_Multilingual 数据集概述
数据集描述
数据集概要
- 名称: RAG_Multilingual
- 类型: 合成QA数据集
- 来源: 基于Catalan、English和Spanish的提取式QA数据集
- 规模: 56,406个实例
- 创建方式: 使用Mixtral8x7b模型生成更接近人类的生成答案,基于提取的上下文引用作为“真实核心”
- 目的: 用于微调多语言检索增强生成系统
支持的任务和排行榜
- 任务: 多语言检索增强生成系统的微调
语言
- 包含语言: English (
En-US), Spanish (es-ES), Catalan (ca-ES)
数据集结构
- 文件格式: JSONL
- 分割: 训练集、验证集、测试集各一个文件
数据实例
- 示例结构: 包含类别、指令、响应、上下文、ID、语言和提取信息
数据分割
- 训练集: 42,303条指令
- 验证集: 8,459条指令
- 测试集: 5,643条指令
语言分布
- English: 19,996条指令
- Spanish: 15,018条指令
- Catalan: 21,391条指令
数据集创建
源数据
- CatalanQA: 对应Catalan语言的指令
- SQAD: 英语提取式QA的参考数据集
- SQAC: 西班牙语提取式QA数据集
附加信息
数据集管理
- 管理单位: 巴塞罗那超级计算中心的语言技术部门(LangTech)
- 资助项目: 加泰罗尼亚政府通过Aina项目资助
许可信息
- 许可证: Attribution-ShareAlike 4.0 International License



