five

narhim/refugiados_qa

收藏
Hugging Face2024-03-29 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/narhim/refugiados_qa
下载链接
链接失效反馈
官方服务:
资源简介:
Filtered Spanish Instruction Question-Answering Legal Refugiados数据集是一个用于西班牙语法律相关问答任务的数据集,包含约10,326条记录。每条记录包含指令、输入、输出、提示等信息。数据集分为训练集和测试集,训练集包含9,430条记录,测试集包含896条记录。数据集的创建过程包括过滤和分割步骤,确保数据的质量和适用性。

Filtered Spanish Instruction Question-Answering Legal Refugiados数据集是一个用于西班牙语法律相关问答任务的数据集,包含约10,326条记录。每条记录包含指令、输入、输出、提示等信息。数据集分为训练集和测试集,训练集包含9,430条记录,测试集包含896条记录。数据集的创建过程包括过滤和分割步骤,确保数据的质量和适用性。
提供机构:
narhim
原始信息汇总

数据集概述

数据集名称

Filtered Spanish Instruction Question-Answering Legal Refugiados

任务类别

  • 问答

语言

  • 西班牙语(es)

数据集大小

  • 数据集包含10,326条记录
  • 训练集:9,430条记录
  • 测试集:896条记录

许可证

  • Apache-2.0

标签

  • 法律

数据集特征

  • prompt (字符串)
  • instruction (字符串)
  • input (字符串)
  • output (字符串)
  • prompt_es (字符串)
  • source (字符串)
  • page (字符串)
  • source_ini (整数)
  • source_fin (整数)

数据集结构

  • 数据实例:每个实例包含上述特征的具体值。
  • 数据字段:详细描述了每个字段的类型和含义。
  • 数据分割:训练集和测试集的大小。

数据集创建

  • 数据集基于edumunozsala/instruct-legal-refugiados-es,经过过滤和分割处理。
  • 过滤过程包括两个步骤:
    • 第一步:根据特定正则表达式过滤输出。
    • 第二步:根据输出字数过滤。
  • 测试集的选择基于统计方法,确保数据分布的合理性。

使用数据集的考虑

  • 数据集有助于西班牙语语言模型的发展。
  • 未采取措施减少潜在的社会偏见。

许可证信息

  • 数据集遵循Apache License Version 2.0。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作