five

sailor2/Vietnamese_RAG

收藏
Hugging Face2024-07-16 更新2024-07-22 收录
下载链接:
https://hf-mirror.com/datasets/sailor2/Vietnamese_RAG
下载链接
链接失效反馈
官方服务:
资源简介:
越南语RAG数据集是一个综合性的越南语数据集,专为RAG评估优化,由ZD AI实验室构建并发布在Apache 2.0许可证下。该数据集包含四个子数据集:越南语版本的Expert QA、RAG ViQuAD、Legal RAG和BKAI_RAG。越南语版本的Expert QA利用GPT-4的强大翻译能力进行翻译任务,RAG ViQuAD是从UIT-ViQuAD2.0中精心挑选并添加了按标题过滤的上下文列,Legal RAG和BKAI_RAG则是从ZALO Legal QA和BKNewsCorpus中借用了上下文和问题,并通过Mixtral 8x22B和GPT-4对齐了问题、答案和上下文。

Vietnameses RAG is an comprehensive Vietnamese dataset optimized for RAG Evaluation, build by ZD AI lab and release under Apache license 2.0. The dataset includes four parts: Vietnamese version of Expert QA, RAG ViQuAD, Legal RAG, and BKAI_RAG. Expert QA is a Vietnamese version translated based on GPT-4, containing questions and answers proposed by experts, and scored through six criteria. RAG ViQuAD is carefully chosen from UIT-ViQuAD2.0 with an additional context column. Legal RAG and BKAI_RAG are long-form RAG QAs borrowed from ZALO Legal QA and BKNewsCorpus, aligned by Mixtral 8x22B and GPT-4 for questions, answers, and contexts.
提供机构:
sailor2
原始信息汇总

数据集概述

数据集详情

该数据集包含四个子数据集:

  • Vi-Expert QA:越南语版本的Expert QA数据集,使用GPT-4进行翻译。
    • 包含6种不同的系统用于生成问题和答案。
    • 专家根据6个标准对问题、答案和声明进行评分:
      • 答案有用性
      • 归属
      • 信息量
      • 事实性
      • 来源可靠性
      • 引用价值
    • 仅保留评分最高的记录,并通过GPT-4进行翻译和回译,最终选取相似度评分高于9.0的记录。
  • RAG ViQuAD:从UIT-ViQuAD2.0中精选,增加了上下文列。
  • Legal RAG:从ZALO Legal QA借用上下文和问题,通过Mixtral 8x22B和GPT-4对齐。
  • BKAI_RAG:从BKNewsCorpus借用上下文和问题,通过Mixtral 8x22B和GPT-4对齐。

系统

RAG系统

  • Ragflow
  • GraphRag
  • fast RAG
  • self RAG
  • AutoRAG

RAG系统评估

  • Ragas
  • CRAGs
  • AutoRAG

许可证

  • Apache 2.0

语言

  • 越南语

任务类别

  • 问答

数据集规模

  • 1K<n<10K
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作