kursathalat/multilabel_ds

Name: kursathalat/multilabel_ds
Creator: kursathalat
Published: 2023-12-18 14:51:15
License: 暂无描述

Hugging Face2023-12-18 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/kursathalat/multilabel_ds

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是通过Argilla创建的，包含一个配置文件`argilla.yaml`和与HuggingFace `datasets`库兼容的记录。数据集主要用于文本分类任务，包含文本字段和多标签选择问题。数据集的注释指南提供了文本分类的基本指导，但关于数据集的创建理由、源数据、注释过程、注释者、个人和敏感信息、社会影响、偏见讨论、其他已知限制、数据集策展人、许可信息、引用信息和贡献等方面的详细信息尚未提供。

提供机构：

kursathalat

原始信息汇总

数据集卡片 for multilabel_ds

数据集描述

主页: https://argilla.io
仓库: https://github.com/argilla-io/argilla
论文:
排行榜:
联系人:

数据集概述

该数据集包含：

符合Argilla数据集格式的配置文件argilla.yaml。该配置文件将在使用Argilla的FeedbackDataset.from_huggingface方法时用于配置数据集。
与HuggingFace datasets兼容的数据集记录。这些记录在使用FeedbackDataset.from_huggingface时会自动加载，也可以通过datasets库独立加载。
用于构建和整理数据集的标注指南（如果已在Argilla中定义）。

加载数据集

使用Argilla加载

安装Argilla： python pip install argilla --upgrade

然后使用以下代码加载数据集： python import argilla as rg

ds = rg.FeedbackDataset.from_huggingface("kursathalat/multilabel_ds")

使用`datasets`库加载

安装datasets库： python pip install datasets --upgrade

然后使用以下代码加载数据集： python from datasets import load_dataset

ds = load_dataset("kursathalat/multilabel_ds")

支持的任务和排行榜

该数据集可以包含多个字段、问题和响应，因此可以用于不同的NLP任务，具体取决于配置。数据集结构在数据集结构部分中描述。

该数据集没有关联的排行榜。

语言

[更多信息需要]

数据集结构

数据在Argilla中

数据集在Argilla中创建，包含以下内容：字段、问题、建议、元数据、向量和指南。

字段是数据集记录本身，目前仅支持文本字段。这些字段将用于提供对问题的响应。

字段名称	标题	类型	必需	Markdown
text	文本	text	True	False

问题是向标注者提出的问题。它们可以是不同类型，如评分、文本、标签选择、多标签选择或排名。

问题名称	标题	类型	必需	描述	值/标签
label	标签	multi_label_selection	True	N/A	[admiration, amusement, anger, annoyance, approval, caring, confusion, curiosity, desire, disappointment, disapproval, disgust, embarrassment, excitement, fear, gratitude, grief, joy, love, nervousness, optimism, pride, realization, relief, remorse, sadness, surprise, neutral]

建议是人为或机器生成的推荐，用于在标注过程中协助标注者。这些建议总是与现有问题相关联，并通过在问题名称后附加"-suggestion"和"-suggestion-metadata"来命名，分别包含建议的值及其元数据。

元数据是一个字典，用于提供关于数据集记录的额外信息。这可以为标注者提供额外的上下文，或提供关于数据集记录本身的额外信息。元数据总是可选的，并且可以与argilla.yaml中的metadata_properties定义相关联。

元数据名称	标题	类型	值	对标注者可见

指南是可选的，只是一个可以向标注者提供指令的纯字符串。请参阅标注指南部分。

数据实例

在Argilla中的数据集实例示例如下：

json { "external_id": null, "fields": { "text": " "If you donu0027t wear BROWN AND ORANGE...YOU DONu0027T MATTER!" We need a tshirt with that on it asap! " }, "metadata": {}, "responses": [ { "status": "submitted", "user_id": "525f4274-ebb4-4aee-a116-f8b422b2e2b4", "values": { "label": { "value": [ "approval", "neutral" ] } } } ], "suggestions": [ { "agent": null, "question_name": "label", "score": null, "type": "human", "value": [ "annoyance", "neutral" ] } ], "vectors": {} }

在HuggingFace datasets中的相同记录示例如下：

json { "external_id": null, "label": [ { "status": "submitted", "user_id": "525f4274-ebb4-4aee-a116-f8b422b2e2b4", "value": [ "approval", "neutral" ] } ], "label-suggestion": [ "annoyance", "neutral" ], "label-suggestion-metadata": { "agent": null, "score": null, "type": "human" }, "metadata": "{}", "text": " "If you donu0027t wear BROWN AND ORANGE...YOU DONu0027T MATTER!" We need a tshirt with that on it asap! " }

数据字段

数据集字段包括以下内容：

字段: 这些是数据集记录本身，目前仅支持文本字段。这些字段将用于提供对问题的响应。
- text 类型为 text。
问题: 这些是向标注者提出的问题。它们可以是不同类型，如RatingQuestion、TextQuestion、LabelQuestion、MultiLabelQuestion和RankingQuestion。
- label 类型为 multi_label_selection，允许的值为 [admiration, amusement, anger, annoyance, approval, caring, confusion, curiosity, desire, disappointment, disapproval, disgust, embarrassment, excitement, fear, gratitude, grief, joy, love, nervousness, optimism, pride, realization, relief, remorse, sadness, surprise, neutral]。
建议: 从Argilla 1.13.0开始，建议已被包含在内，以在标注过程中为标注者提供建议，以简化或协助标注过程。建议与现有问题相关联，总是可选的，并且不仅包含建议本身，还包含与之相关的元数据（如果适用）。
- (可选) label-suggestion 类型为 multi_label_selection，允许的值为 [admiration, amusement, anger, annoyance, approval, caring, confusion, curiosity, desire, disappointment, disapproval, disgust, embarrassment, excitement, fear, gratitude, grief, joy, love, nervousness, optimism, pride, realization, relief, remorse, sadness, surprise, neutral]。

此外，还有两个可选字段：

metadata: 这是一个可选字段，用于提供关于数据集记录的额外信息。这可以为标注者提供额外的上下文，或提供关于数据集记录本身的额外信息。例如，您可以使用此字段提供数据集记录的原始来源链接，或提供关于数据集记录本身的额外信息，如作者、日期或来源。元数据总是可选的，并且可以与argilla.yaml中的metadata_properties定义相关联。
external_id: 这是一个可选字段，用于为数据集记录提供外部ID。如果您希望将数据集记录与外部资源（如数据库或文件）相关联，这可能很有用。

数据分割

数据集包含一个分割，即train。

数据集创建

整理理由

[更多信息需要]

源数据

初始数据收集和规范化

[更多信息需要]

源语言生产者是谁？

[更多信息需要]

标注

标注指南

这是一个文本分类数据集，包含文本和标签。给定一组文本和预定义的标签集，文本分类的目标是根据文本内容为其分配一个或多个标签。请通过做出正确的选择来对文本进行分类。

标注过程

[更多信息需要]

标注者是谁？

[更多信息需要]

个人和敏感信息

[更多信息需要]

使用数据的注意事项

数据集的社会影响

[更多信息需要]

讨论偏见

[更多信息需要]

其他已知限制

[更多信息需要]

附加信息

数据集策展人

[更多信息需要]

许可信息

[更多信息需要]

引用信息

[更多信息需要]

贡献

[更多信息需要]

5,000+

优质数据集

54 个

任务类型

进入经典数据集

kursathalat/multilabel_ds

数据集卡片 for multilabel_ds

数据集描述

数据集概述

加载数据集

使用Argilla加载

使用datasets库加载

支持的任务和排行榜

语言

数据集结构

数据在Argilla中

数据实例

数据字段

数据分割

数据集创建

整理理由

源数据

初始数据收集和规范化

源语言生产者是谁？

标注

标注指南

标注过程

标注者是谁？

个人和敏感信息

使用数据的注意事项

数据集的社会影响

讨论偏见

其他已知限制

附加信息

数据集策展人

许可信息

引用信息

贡献

使用`datasets`库加载