five

cnmoro/RagMixPTBR-Legal-Alpaca-2M

收藏
Hugging Face2024-05-16 更新2024-04-19 收录
下载链接:
https://hf-mirror.com/datasets/cnmoro/RagMixPTBR-Legal-Alpaca-2M
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集名为Rag Mix - PTBR,由两个较小的数据集组成:[cnmoro/WizardVicuna-PTBR-Instruct-Clean]和[cnmoro/GPT4-500k-Augmented-PTBR-Clean]。此外,还开发了一个新的合成数据集,使用了Alpaca格式,包含三个分段信息:上下文/输入、问题和回答。该数据集的创建基于[eduagarcia/LegalPT_dedup]数据集,旨在整合法律领域的信息。每个文本生成了一到三个问题,并使用[AetherResearch/Cerebrum-1.0-7b]模型生成问题和回答。问题和回答最初以英语生成的部分被翻译成葡萄牙语。

该数据集名为Rag Mix - PTBR,由两个较小的数据集组成:[cnmoro/WizardVicuna-PTBR-Instruct-Clean]和[cnmoro/GPT4-500k-Augmented-PTBR-Clean]。此外,还开发了一个新的合成数据集,使用了Alpaca格式,包含三个分段信息:上下文/输入、问题和回答。该数据集的创建基于[eduagarcia/LegalPT_dedup]数据集,旨在整合法律领域的信息。每个文本生成了一到三个问题,并使用[AetherResearch/Cerebrum-1.0-7b]模型生成问题和回答。问题和回答最初以英语生成的部分被翻译成葡萄牙语。
提供机构:
cnmoro
原始信息汇总

数据集概述

基本信息

  • 许可证: cc
  • 语言:
    • pt
  • 名称: Rag Mix - PTBR
  • 任务类别:
    • 问答
    • 文本生成
  • 大小类别: 1M<n<10M

数据集组成

数据集开发

  • 基础数据集: eduagarcia/LegalPT_dedup,用于法律领域信息整合。
  • 问题生成: 使用AetherResearch/Cerebrum-1.0-7b生成问题。
  • 问题与答案处理: 通过语义搜索和嵌入模型生成上下文,并回答问题。
  • 语言处理: 英文问题和答案被翻译成葡萄牙语,但翻译比例低于1%。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作