five

DuyTa/vi_RAG

收藏
Hugging Face2024-07-16 更新2024-07-22 收录
下载链接:
https://hf-mirror.com/datasets/DuyTa/vi_RAG
下载链接
链接失效反馈
官方服务:
资源简介:
Vis RAG 是一个综合性的越南语数据集,专为RAG评估优化,由ZD AI实验室构建并发布在Apache 2.0许可证下。该数据集包含四个子集:越南语版本的Expert QA,利用GPT-4的强大翻译能力进行翻译任务;RAG ViQuAD,从UIT-ViQuAD2.0精心挑选并添加了按标题过滤的上下文列;Legal RAG和BKAI_RAG,这两个长形式的RAG QA从ZALO Legal QA和BKNewsCorpus借用上下文和问题,并通过Mixtral 8x22B和GPT-4对齐问题、答案和上下文。

Vis RAG is a comprehensive Vietnamese dataset optimized for RAG Evaluation, built by ZD AI lab and released under the Apache 2.0 license. The dataset includes four subsets: a Vietnamese version of Expert QA, utilizing GPT-4s strong translation capabilities for translation tasks; RAG ViQuAD, carefully selected from UIT-ViQuAD2.0 with additional context columns filtered by title; Legal RAG and BKAI_RAG, long-form RAG QAs that borrow context and questions from ZALO Legal QA and BKNewsCorpus, with questions, answers, and contexts aligned by Mixtral 8x22B and GPT-4.
提供机构:
DuyTa
原始信息汇总

数据集卡片

数据集详情

该数据集包含四个子数据集:

  • Expert QA:越南语版本的Expert QA,利用GPT-4的强大翻译能力进行翻译。
  • RAG ViQuAD:从UIT-ViQuAD2.0中精心挑选,并添加了额外的上下文列,通过标题过滤。
  • Legal RAG:从ZALO Legal QA中借用上下文和问题,问题、答案和上下文通过Mixtral 8x22B和GPT-4对齐。
  • BKAI_RAG:从BKNewsCorpus中借用上下文和问题,问题、答案和上下文通过Mixtral 8x22B和GPT-4对齐。

数据集描述

数据集描述即将发布。

许可证

该数据集在Apache 2.0许可证下发布。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作