five

somosnlp/Reglamento_Aeronautico_Colombiano_2024

收藏
Hugging Face2024-04-24 更新2024-04-19 收录
下载链接:
https://hf-mirror.com/datasets/somosnlp/Reglamento_Aeronautico_Colombiano_2024
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含来自哥伦比亚航空法规(RAC)的标注样本,涵盖了其所有章节。经过细致的标注和整理,数据集已达到100%的进度,相当于总共25,174个整理好的样本,可供使用。数据集设计用于文本生成和问答系统,以促进对哥伦比亚航空法规的导航和理解。它包括以下列:rac(法规文本)、pagina(页码)、pregunta(问题)和respuesta(答案)。数据集以Gemma格式提供,并优化用于语言模型的训练。数据集是通过自动化过程创建的,涉及PDF到文本的转换以及通过GPT API或类似的开源模型进行处理。使用Hugging Face环境中的Argilla框架进行整理,确保高质量的标注。数据集在Apache-2.0许可下分发,适用于与航空航天领域相关的NLP应用。
提供机构:
somosnlp
原始信息汇总

数据集概述

数据集基本信息

  • 名称: RAC Corpus: Base de Datos del Reglamento Aeronáutico Colombiano
  • 语言: 西班牙语 (es-CO)
  • 许可证: Apache-2.0
  • 大小类别: 10K<n<100K
  • 标签: legal, Aerospace, Aeronautics

数据集内容

  • 特征:
    • rac (字符串): 法规文本。
    • pagina (字符串): 文本页码。
    • pregunta (字符串): 关于内容的问题。
    • respuesta (字符串): 提出的问题的答案。
  • 分割:
    • 训练集: 24,479个样本,大小为6,692,842字节。
  • 下载大小: 1,844,154字节
  • 数据集大小: 6,692,842字节

数据集来源

数据集版本与格式

  • 格式: Gemma,优化用于语言模型的训练。

数据集使用

  • 直接使用: 设计用于文本生成和问答系统,以促进对哥伦比亚航空法规的理解和导航。
  • 超出范围的使用: 在没有专家监督的情况下,可能不适合需要精确法律解释的应用。

数据集结构

  • 总计: 25,174个样本
  • 结构: 包含rac, pagina, pregunta, respuesta四个字段。

数据集创建

  • 创建过程: 通过自动化过程从RAC创建,包括将PDF文件转换为文本,并通过GPT API或类似的开源模型处理,以两页为单位迭代提取数据。

数据集标注理由

  • 标注: 使用Argilla框架在Hugging Face环境中进行结构化标注,由Fundación Universitaria Los Libertadores的航空工程专家评估样本质量。

偏差、风险和限制

  • 潜在偏差: 可能包含航空领域官方文件中使用的正式语言的固有偏差。建议谨慎推广基于此数据集的结果。

许可证

  • 许可证: 本数据集根据Apache-2.0许可证分发,允许广泛使用和修改,限制较少。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作