argilla/end2end_textclassification_with_vectors

Name: argilla/end2end_textclassification_with_vectors
Creator: argilla
Published: 2024-05-30 17:58:20
License: 暂无描述

Hugging Face2024-05-30 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/argilla/end2end_textclassification_with_vectors

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是通过Argilla创建的，主要用于文本分类任务。数据集包含一个符合Argilla数据集格式的配置文件`argilla.yaml`，以及兼容HuggingFace `datasets`库的记录。数据集的结构包括字段、问题、建议、元数据、向量和注释指南。字段是数据集记录本身，目前仅支持文本字段。问题是向注释者提出的问题，可以是评分、文本、标签选择、多标签选择或排序类型。建议是人工或机器生成的推荐，用于辅助注释过程。元数据是可选的信息字典，用于提供额外的上下文或信息。向量是包含浮点数的列，用于表示预定义维度的向量。注释指南是可选的部分，用于向注释者提供说明。

提供机构：

argilla

原始信息汇总

数据集卡片 for end2end_textclassification_with_vectors

数据集描述

主页: https://argilla.io
仓库: https://github.com/argilla-io/argilla
论文:
排行榜:
联系点:

数据集概述

该数据集包含：

符合 Argilla 数据集格式的配置文件 argilla.yaml。该配置文件在通过 Argilla 的 FeedbackDataset.from_huggingface 方法使用时用于配置数据集。
与 HuggingFace datasets 兼容的数据集记录。这些记录在使用 FeedbackDataset.from_huggingface 时会自动加载，也可以通过 datasets 库的 load_dataset 方法独立加载。
用于构建和整理数据集的标注指南（如果已在 Argilla 中定义）。

加载方式

使用 Argilla 加载

安装 Argilla：

python pip install argilla --upgrade

加载数据集：

python import argilla as rg

ds = rg.FeedbackDataset.from_huggingface("argilla/end2end_textclassification_with_vectors")

使用 `datasets` 加载

安装 datasets：

python pip install datasets --upgrade

加载数据集：

python from datasets import load_dataset

ds = load_dataset("argilla/end2end_textclassification_with_vectors")

支持的任务和排行榜

该数据集可以包含多个字段、问题和响应，因此可以用于不同的 NLP 任务，具体取决于配置。数据集结构在数据集结构部分中描述。

该数据集没有关联的排行榜。

语言

[更多信息需要]

数据集结构

数据在 Argilla 中

数据集在 Argilla 中创建，包含：字段、问题、建议、元数据、向量和指南。

字段是数据集记录本身，目前仅支持文本字段。这些字段将用于提供对问题的响应。

字段名称	标题	类型	必需	Markdown
text	文本	FieldTypes.text	True	False

问题是向标注者提出的问题。它们可以是不同类型，如评分、文本、标签选择、多标签选择或排名。

问题名称	标题	类型	必需	描述	值/标签
label	标签	QuestionTypes.label_selection	True	通过从给定标签列表中选择正确标签来分类文本。	[World, Sports, Business, Sci/Tech]

建议是人为或机器生成的每个问题的推荐，以协助标注者在标注过程中。这些建议总是与现有问题相关联，并通过在问题名称后附加 "-suggestion" 和 "-suggestion-metadata" 来命名，分别包含建议的值和其元数据。

元数据是一个字典，用于提供有关数据集记录的额外信息。这可以为标注者提供额外的上下文，或提供有关数据集记录本身的额外信息。例如，可以使用此字段提供数据集记录的原始来源链接，或提供有关记录本身的额外信息，如作者、日期或来源。元数据总是可选的，并且可以与 argilla.yaml 中定义的 metadata_properties 相关联。

向量是包含浮点数的不同列，其维度在配置数据集时在 vectors_settings 中预定义，维度始终为 1 维。向量是可选的，并且由 argilla.yaml 中预定义的向量名称标识。

向量名称	标题	维度
sentence_embedding	句子嵌入	[1, 384]

指南也是可选的，只是一个纯字符串，用于向标注者提供指令。可以在标注指南部分中找到这些指南。

数据实例

在 Argilla 中的数据集实例示例如下：

json { "external_id": "record-0", "fields": { "text": "Wall St. Bears Claw Back Into the Black (Reuters) Reuters - Short-sellers, Wall Streetu0027s dwindling\band of ultra-cynics, are seeing green again." }, "metadata": {}, "responses": [], "suggestions": [], "vectors": { "sentence_embedding": [ -0.12043723464012146, -0.20540212094783783, -0.0035010750871151686, -0.00980630237609148, 0.1692187786102295, 0.1105300635099411, -0.5263048410415649, 0.06751782447099686, 0.4591887891292572, 0.12288972735404968, -0.04069870337843895, 0.14249269664287567, -0.4193352162837982, 0.3089897334575653, -0.002920431550592184, -0.3318617343902588, 0.4440504312515259, 0.0024764006957411766, -0.5200819373130798, 0.4191458225250244, -0.2874358892440796, -0.31848442554473877, 0.46103376150131226, -0.2150607705116272, 0.4638316333293915, -0.5393298864364624, 0.11619565635919571, 0.12209033966064453, -0.5150607228279114, -1.5762522220611572, -0.3548111319541931, -0.3022597134113312, -0.21581022441387177, -0.04001490771770477, 0.3795183300971985, -0.4639199376106262, -0.18638719618320465, 0.34496206045150757, 0.19537486135959625, 0.464184045791626, 0.1232186034321785, 0.16397443413734436, -0.20278260111808777, -0.1903568059206009, 0.06815202534198761, -0.3819412291049957, 0.26536446809768677, -0.13817478716373444, 0.14375346899032593, -0.09447652846574783, 0.2094372808933258, -0.02289251796901226, 0.41208600997924805, 0.1988988220691681, 0.14554573595523834, 0.27547740936279297, 0.5047193169593811, 0.1193053349852562, 0.1329369843006134, 0.008757795207202435, 0.5858960747718811, 0.10716624557971954, -1.2744114398956299, -0.015607771463692188, 0.4341447949409485, -0.18675705790519714, 0.0012254089815542102, 0.12185507267713547, -0.46970999240875244, 0.2139795422554016, 0.08228280395269394, 0.02936917170882225, -0.12386734038591385, 0.1562434434890747, 0.17051148414611816, -0.2713660001754761, 0.038224536925554276, -0.45389631390571594, -0.31998828053474426, -0.11758271604776382, -0.13718140125274658, -0.33116868138313293, -0.4639136493206024, -0.4220881164073944, -0.03149694949388504, -0.13691803812980652, -0.05776222050189972, 0.041543979197740555, 0.5278537273406982, 0.4890863299369812, -0.07661459594964981, -0.18313054740428925, 0.21626459062099457, -0.11445435136556625, -0.9753242135047913, -0.4595167636871338, 0.34693828225135803, 0.2784789502620697, 0.15612299740314484, 0.8795897364616394, -0.208233043551445, 0.25665318965911865, 0.664867103099823, 0.10006468743085861, 0.3717508912086487, -0.19154797494411469, -0.044070228934288025, 0.19016152620315552, -0.43286705017089844, 0.13931529223918915, 0.16061720252037048, -0.14001505076885223, 0.2723529040813446, 0.010507846251130104, -0.043816640973091125, -0.3933525085449219, 0.07633335143327713, 0.16074138879776, 0.25545138120651245, 0.10411184281110764, -0.252656489610672, -0.014079650864005089, 0.6464551687240601, -0.5342252850532532, 0.13398316502571106, -0.19860437512397766, -0.04238532856106758, 0.7170720100402832, 0.20766960084438324, 0.3631458282470703, 0.3689534068107605, -0.637426495552063, 0

5,000+

优质数据集

54 个

任务类型

进入经典数据集