five

daqc/constitucion_politica_del_peru_1993_qa_argilla

收藏
Hugging Face2024-04-10 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/daqc/constitucion_politica_del_peru_1993_qa_argilla
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是一个基于Argilla平台创建的问答数据集,主要涉及1993年秘鲁宪法的内容。数据集包含一个符合Argilla格式的配置文件`argilla.yaml`,以及兼容HuggingFace `datasets`库的记录。数据集的结构包括字段(fields)、问题(questions)、建议(suggestions)、元数据(metadata)、向量(vectors)和注释指南(guidelines)。字段主要是文本类型,问题包括评分和文本类型,建议用于辅助注释过程,元数据提供额外的上下文信息,向量用于相似性搜索。数据集可以用于多种NLP任务,但目前没有相关的排行榜。数据集的语言信息未明确提供。

该数据集是一个基于Argilla平台创建的问答数据集,主要涉及1993年秘鲁宪法的内容。数据集包含一个符合Argilla格式的配置文件`argilla.yaml`,以及兼容HuggingFace `datasets`库的记录。数据集的结构包括字段(fields)、问题(questions)、建议(suggestions)、元数据(metadata)、向量(vectors)和注释指南(guidelines)。字段主要是文本类型,问题包括评分和文本类型,建议用于辅助注释过程,元数据提供额外的上下文信息,向量用于相似性搜索。数据集可以用于多种NLP任务,但目前没有相关的排行榜。数据集的语言信息未明确提供。
提供机构:
daqc
原始信息汇总

数据集概述

数据集基本信息

  • 数据集名称: constitucion_politica_del_peru_1993_qa_argilla
  • 数据集大小: 1K<n<10K
  • 标签: rlfh, argilla, human-feedback

数据集描述

数据集内容

  • 配置文件: 包含一个名为argilla.yaml的配置文件,符合Argilla数据集格式。
  • 数据记录: 数据记录格式与HuggingFace datasets兼容,可通过FeedbackDataset.from_huggingface方法自动加载。
  • 标注指南: 如果已在Argilla中定义,将包含用于构建和整理数据集的标注指南。

数据加载

  • 使用Argilla加载: 通过安装Argilla并使用提供的Python代码加载数据集。
  • 使用datasets加载: 通过安装datasets库并使用提供的Python代码加载数据集。

数据集结构

  • 字段: 支持文本字段,如inputgenerations-1
  • 问题: 包括不同类型的问题,如generations-1-rating(评分类型)和curated-generation(文本类型)。
  • 建议: 提供与问题关联的建议,以辅助标注者。
  • 元数据: 可选,提供关于数据集记录的额外信息。
  • 向量: 可选,包含浮点型向量,用于相似性搜索。

数据实例

  • Argilla格式: 包含字段、元数据、响应、建议和向量。
  • HuggingFace datasets格式: 包含字段、元数据、向量和外部ID。

数据字段

  • 字段: inputgenerations-1,均为文本类型。
  • 问题: generations-1-rating(评分类型,值为1-10)和curated-generation(文本类型)。
  • 建议: 与问题关联的建议,如generations-1-rating-suggestioncurated-generation-suggestion
  • 向量: inputgenerations-1,均为浮点型,维度为(1, 384)。

数据分割

  • 分割: 单一分割,即train

数据集创建

标注指南

  • 目的: 修正生成内容,确保其高质量。

数据字段详细信息

  • 字段: 仅支持文本字段。
  • 问题: 包括评分、文本、标签选择、多标签选择和排名问题。
  • 建议: 提供与问题关联的建议,以辅助标注者。
  • 向量: 支持相似性搜索,向量维度预定义。
  • 元数据: 提供额外信息,如链接、作者、日期等。
  • 外部ID: 提供外部资源链接。

数据集加载示例

  • 使用Argilla: 通过安装Argilla并使用提供的Python代码加载数据集。
  • 使用datasets: 通过安装datasets库并使用提供的Python代码加载数据集。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作