narhim/refugiados_qa
收藏Hugging Face2024-03-29 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/narhim/refugiados_qa
下载链接
链接失效反馈官方服务:
资源简介:
Filtered Spanish Instruction Question-Answering Legal Refugiados数据集是一个用于西班牙语法律相关问答任务的数据集,包含约10,326条记录。每条记录包含指令、输入、输出、提示等信息。数据集分为训练集和测试集,训练集包含9,430条记录,测试集包含896条记录。数据集的创建过程包括过滤和分割步骤,确保数据的质量和适用性。
Filtered Spanish Instruction Question-Answering Legal Refugiados数据集是一个用于西班牙语法律相关问答任务的数据集,包含约10,326条记录。每条记录包含指令、输入、输出、提示等信息。数据集分为训练集和测试集,训练集包含9,430条记录,测试集包含896条记录。数据集的创建过程包括过滤和分割步骤,确保数据的质量和适用性。
提供机构:
narhim
原始信息汇总
数据集概述
数据集名称
Filtered Spanish Instruction Question-Answering Legal Refugiados
任务类别
- 问答
语言
- 西班牙语(es)
数据集大小
- 数据集包含10,326条记录
- 训练集:9,430条记录
- 测试集:896条记录
许可证
- Apache-2.0
标签
- 法律
数据集特征
- prompt (字符串)
- instruction (字符串)
- input (字符串)
- output (字符串)
- prompt_es (字符串)
- source (字符串)
- page (字符串)
- source_ini (整数)
- source_fin (整数)
数据集结构
- 数据实例:每个实例包含上述特征的具体值。
- 数据字段:详细描述了每个字段的类型和含义。
- 数据分割:训练集和测试集的大小。
数据集创建
- 数据集基于edumunozsala/instruct-legal-refugiados-es,经过过滤和分割处理。
- 过滤过程包括两个步骤:
- 第一步:根据特定正则表达式过滤输出。
- 第二步:根据输出字数过滤。
- 测试集的选择基于统计方法,确保数据分布的合理性。
使用数据集的考虑
- 数据集有助于西班牙语语言模型的发展。
- 未采取措施减少潜在的社会偏见。
许可证信息
- 数据集遵循Apache License Version 2.0。



