five

argilla/text-descriptives-metadata

收藏
Hugging Face2023-10-30 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/argilla/text-descriptives-metadata
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是通过Argilla平台创建的,主要用于NLP任务。数据集包含多个字段、问题、建议和元数据,支持通过Argilla或HuggingFace的`datasets`库加载。数据集的结构包括字段(如prompt和context)、问题(如response)、建议(如response-suggestion)和元数据。数据集的创建和注释过程未详细描述,但提供了注释指南。数据集包含一个训练集,未提及其他语言信息或社会影响。

This dataset was created via the Argilla platform and is primarily intended for natural language processing (NLP) tasks. It consists of multiple fields, questions, suggestions and metadata, and supports loading through either the Argilla platform or Hugging Face's `datasets` library. The structure of the dataset includes fields (e.g., prompt and context), questions (e.g., response), suggestions (e.g., response-suggestion), and metadata. The specific processes of dataset creation and annotation are not elaborated in detail, but an annotation guideline is provided. The dataset contains one training set, and no information regarding other languages or social impact is mentioned.
提供机构:
argilla
原始信息汇总

数据集概述

数据集描述

数据集摘要

该数据集包含以下内容:

  • 符合Argilla数据集格式的配置文件argilla.yaml,用于在使用Argilla的FeedbackDataset.from_huggingface方法时配置数据集。
  • 兼容HuggingFace datasets格式的数据集记录,这些记录在使用FeedbackDataset.from_huggingface时会自动加载,也可以通过datasets库独立加载。
  • 用于构建和整理数据集的标注指南(如果已在Argilla中定义)。

数据集结构

数据集在Argilla中创建,包含以下部分:

  • fields(字段):当前仅支持文本字段,用于提供问题的回答。
  • questions(问题):向标注者提出的问题,类型包括评分、文本、标签选择、多标签选择和排序。
  • suggestions(建议):人类或机器生成的建议,辅助标注者在标注过程中的选择,与现有问题关联,包含建议值及其元数据。
  • metadata(元数据):可选字段,提供数据记录的额外信息,如作者、日期或来源。
  • guidelines(指南):可选的标注指南,提供给标注者的说明。

数据实例

数据集实例在Argilla和HuggingFace datasets中的格式如下:

  • Argilla格式:包含external_idfieldsmetadataresponsessuggestions
  • HuggingFace datasets格式:包含contextexternal_idmetadatapromptresponseresponse-suggestionresponse-suggestion-metadata

数据字段

数据集字段包括:

  • Fields(字段):文本字段,用于提供问题的回答。
    • prompt(提示):文本类型。
    • context(上下文):可选的文本类型。
  • Questions(问题):向标注者提出的问题。
    • response(回答):文本类型。
  • Suggestions(建议):提供给标注者的建议,与问题关联,包含建议值及其元数据。
    • response-suggestion(回答建议):可选的文本类型。
  • metadata(元数据):可选字段,提供数据记录的额外信息。
  • external_id(外部ID):可选字段,用于链接外部资源。

数据分割

数据集包含一个分割,即train

数据集创建

标注指南

这是一个监督微调数据集,包含指令。请在回答字段中写出对指令的响应,并考虑上下文。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作