sailor2/Vietnamese_RAG
收藏Hugging Face2024-07-16 更新2024-07-22 收录
下载链接:
https://hf-mirror.com/datasets/sailor2/Vietnamese_RAG
下载链接
链接失效反馈官方服务:
资源简介:
越南语RAG数据集是一个综合性的越南语数据集,专为RAG评估优化,由ZD AI实验室构建并发布在Apache 2.0许可证下。该数据集包含四个子数据集:越南语版本的Expert QA、RAG ViQuAD、Legal RAG和BKAI_RAG。越南语版本的Expert QA利用GPT-4的强大翻译能力进行翻译任务,RAG ViQuAD是从UIT-ViQuAD2.0中精心挑选并添加了按标题过滤的上下文列,Legal RAG和BKAI_RAG则是从ZALO Legal QA和BKNewsCorpus中借用了上下文和问题,并通过Mixtral 8x22B和GPT-4对齐了问题、答案和上下文。
Vietnameses RAG is an comprehensive Vietnamese dataset optimized for RAG Evaluation, build by ZD AI lab and release under Apache license 2.0. The dataset includes four parts: Vietnamese version of Expert QA, RAG ViQuAD, Legal RAG, and BKAI_RAG. Expert QA is a Vietnamese version translated based on GPT-4, containing questions and answers proposed by experts, and scored through six criteria. RAG ViQuAD is carefully chosen from UIT-ViQuAD2.0 with an additional context column. Legal RAG and BKAI_RAG are long-form RAG QAs borrowed from ZALO Legal QA and BKNewsCorpus, aligned by Mixtral 8x22B and GPT-4 for questions, answers, and contexts.
提供机构:
sailor2
原始信息汇总
数据集概述
数据集详情
该数据集包含四个子数据集:
- Vi-Expert QA:越南语版本的Expert QA数据集,使用GPT-4进行翻译。
- 包含6种不同的系统用于生成问题和答案。
- 专家根据6个标准对问题、答案和声明进行评分:
- 答案有用性
- 归属
- 信息量
- 事实性
- 来源可靠性
- 引用价值
- 仅保留评分最高的记录,并通过GPT-4进行翻译和回译,最终选取相似度评分高于9.0的记录。
- RAG ViQuAD:从UIT-ViQuAD2.0中精选,增加了上下文列。
- Legal RAG:从ZALO Legal QA借用上下文和问题,通过Mixtral 8x22B和GPT-4对齐。
- BKAI_RAG:从BKNewsCorpus借用上下文和问题,通过Mixtral 8x22B和GPT-4对齐。
系统
RAG系统
- Ragflow
- GraphRag
- fast RAG
- self RAG
- AutoRAG
RAG系统评估
- Ragas
- CRAGs
- AutoRAG
许可证
- Apache 2.0
语言
- 越南语
任务类别
- 问答
数据集规模
- 1K<n<10K



