cnmoro/RagMixPTBR-Legal-Alpaca-2M
收藏Hugging Face2024-05-16 更新2024-04-19 收录
下载链接:
https://hf-mirror.com/datasets/cnmoro/RagMixPTBR-Legal-Alpaca-2M
下载链接
链接失效反馈官方服务:
资源简介:
该数据集名为Rag Mix - PTBR,由两个较小的数据集组成:[cnmoro/WizardVicuna-PTBR-Instruct-Clean]和[cnmoro/GPT4-500k-Augmented-PTBR-Clean]。此外,还开发了一个新的合成数据集,使用了Alpaca格式,包含三个分段信息:上下文/输入、问题和回答。该数据集的创建基于[eduagarcia/LegalPT_dedup]数据集,旨在整合法律领域的信息。每个文本生成了一到三个问题,并使用[AetherResearch/Cerebrum-1.0-7b]模型生成问题和回答。问题和回答最初以英语生成的部分被翻译成葡萄牙语。
该数据集名为Rag Mix - PTBR,由两个较小的数据集组成:[cnmoro/WizardVicuna-PTBR-Instruct-Clean]和[cnmoro/GPT4-500k-Augmented-PTBR-Clean]。此外,还开发了一个新的合成数据集,使用了Alpaca格式,包含三个分段信息:上下文/输入、问题和回答。该数据集的创建基于[eduagarcia/LegalPT_dedup]数据集,旨在整合法律领域的信息。每个文本生成了一到三个问题,并使用[AetherResearch/Cerebrum-1.0-7b]模型生成问题和回答。问题和回答最初以英语生成的部分被翻译成葡萄牙语。
提供机构:
cnmoro
原始信息汇总
数据集概述
基本信息
- 许可证: cc
- 语言:
- pt
- 名称: Rag Mix - PTBR
- 任务类别:
- 问答
- 文本生成
- 大小类别: 1M<n<10M
数据集组成
- 子数据集1: cnmoro/WizardVicuna-PTBR-Instruct-Clean
- 子数据集2: cnmoro/GPT4-500k-Augmented-PTBR-Clean
- 合成数据集: 基于“Alpaca”格式,包含三个信息段:
- 上下文/输入
- 问题
- 答案
数据集开发
- 基础数据集: eduagarcia/LegalPT_dedup,用于法律领域信息整合。
- 问题生成: 使用AetherResearch/Cerebrum-1.0-7b生成问题。
- 问题与答案处理: 通过语义搜索和嵌入模型生成上下文,并回答问题。
- 语言处理: 英文问题和答案被翻译成葡萄牙语,但翻译比例低于1%。



