five

argilla/end2end_textclassification_with_vectors

收藏
Hugging Face2024-05-30 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/argilla/end2end_textclassification_with_vectors
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是通过Argilla创建的,主要用于文本分类任务。数据集包含一个符合Argilla数据集格式的配置文件`argilla.yaml`,以及兼容HuggingFace `datasets`库的记录。数据集的结构包括字段、问题、建议、元数据、向量和注释指南。字段是数据集记录本身,目前仅支持文本字段。问题是向注释者提出的问题,可以是评分、文本、标签选择、多标签选择或排序类型。建议是人工或机器生成的推荐,用于辅助注释过程。元数据是可选的信息字典,用于提供额外的上下文或信息。向量是包含浮点数的列,用于表示预定义维度的向量。注释指南是可选的部分,用于向注释者提供说明。

该数据集是通过Argilla创建的,主要用于文本分类任务。数据集包含一个符合Argilla数据集格式的配置文件`argilla.yaml`,以及兼容HuggingFace `datasets`库的记录。数据集的结构包括字段、问题、建议、元数据、向量和注释指南。字段是数据集记录本身,目前仅支持文本字段。问题是向注释者提出的问题,可以是评分、文本、标签选择、多标签选择或排序类型。建议是人工或机器生成的推荐,用于辅助注释过程。元数据是可选的信息字典,用于提供额外的上下文或信息。向量是包含浮点数的列,用于表示预定义维度的向量。注释指南是可选的部分,用于向注释者提供说明。
提供机构:
argilla
原始信息汇总

数据集卡片 for end2end_textclassification_with_vectors

数据集描述

  • 主页: https://argilla.io
  • 仓库: https://github.com/argilla-io/argilla
  • 论文:
  • 排行榜:
  • 联系点:

数据集概述

该数据集包含:

  • 符合 Argilla 数据集格式的配置文件 argilla.yaml。该配置文件在通过 Argilla 的 FeedbackDataset.from_huggingface 方法使用时用于配置数据集。
  • 与 HuggingFace datasets 兼容的数据集记录。这些记录在使用 FeedbackDataset.from_huggingface 时会自动加载,也可以通过 datasets 库的 load_dataset 方法独立加载。
  • 用于构建和整理数据集的标注指南(如果已在 Argilla 中定义)。

加载方式

使用 Argilla 加载

安装 Argilla:

python pip install argilla --upgrade

加载数据集:

python import argilla as rg

ds = rg.FeedbackDataset.from_huggingface("argilla/end2end_textclassification_with_vectors")

使用 datasets 加载

安装 datasets

python pip install datasets --upgrade

加载数据集:

python from datasets import load_dataset

ds = load_dataset("argilla/end2end_textclassification_with_vectors")

支持的任务和排行榜

该数据集可以包含多个字段、问题和响应,因此可以用于不同的 NLP 任务,具体取决于配置。数据集结构在数据集结构部分中描述。

该数据集没有关联的排行榜。

语言

[更多信息需要]

数据集结构

数据在 Argilla 中

数据集在 Argilla 中创建,包含:字段问题建议元数据向量指南

字段是数据集记录本身,目前仅支持文本字段。这些字段将用于提供对问题的响应。

字段名称 标题 类型 必需 Markdown
text 文本 FieldTypes.text True False

问题是向标注者提出的问题。它们可以是不同类型,如评分、文本、标签选择、多标签选择或排名。

问题名称 标题 类型 必需 描述 值/标签
label 标签 QuestionTypes.label_selection True 通过从给定标签列表中选择正确标签来分类文本。 [World, Sports, Business, Sci/Tech]

建议是人为或机器生成的每个问题的推荐,以协助标注者在标注过程中。这些建议总是与现有问题相关联,并通过在问题名称后附加 "-suggestion" 和 "-suggestion-metadata" 来命名,分别包含建议的值和其元数据。

元数据是一个字典,用于提供有关数据集记录的额外信息。这可以为标注者提供额外的上下文,或提供有关数据集记录本身的额外信息。例如,可以使用此字段提供数据集记录的原始来源链接,或提供有关记录本身的额外信息,如作者、日期或来源。元数据总是可选的,并且可以与 argilla.yaml 中定义的 metadata_properties 相关联。

向量是包含浮点数的不同列,其维度在配置数据集时在 vectors_settings 中预定义,维度始终为 1 维。向量是可选的,并且由 argilla.yaml 中预定义的向量名称标识。

向量名称 标题 维度
sentence_embedding 句子嵌入 [1, 384]

指南也是可选的,只是一个纯字符串,用于向标注者提供指令。可以在标注指南部分中找到这些指南。

数据实例

在 Argilla 中的数据集实例示例如下:

json { "external_id": "record-0", "fields": { "text": "Wall St. Bears Claw Back Into the Black (Reuters) Reuters - Short-sellers, Wall Streetu0027s dwindling\band of ultra-cynics, are seeing green again." }, "metadata": {}, "responses": [], "suggestions": [], "vectors": { "sentence_embedding": [ -0.12043723464012146, -0.20540212094783783, -0.0035010750871151686, -0.00980630237609148, 0.1692187786102295, 0.1105300635099411, -0.5263048410415649, 0.06751782447099686, 0.4591887891292572, 0.12288972735404968, -0.04069870337843895, 0.14249269664287567, -0.4193352162837982, 0.3089897334575653, -0.002920431550592184, -0.3318617343902588, 0.4440504312515259, 0.0024764006957411766, -0.5200819373130798, 0.4191458225250244, -0.2874358892440796, -0.31848442554473877, 0.46103376150131226, -0.2150607705116272, 0.4638316333293915, -0.5393298864364624, 0.11619565635919571, 0.12209033966064453, -0.5150607228279114, -1.5762522220611572, -0.3548111319541931, -0.3022597134113312, -0.21581022441387177, -0.04001490771770477, 0.3795183300971985, -0.4639199376106262, -0.18638719618320465, 0.34496206045150757, 0.19537486135959625, 0.464184045791626, 0.1232186034321785, 0.16397443413734436, -0.20278260111808777, -0.1903568059206009, 0.06815202534198761, -0.3819412291049957, 0.26536446809768677, -0.13817478716373444, 0.14375346899032593, -0.09447652846574783, 0.2094372808933258, -0.02289251796901226, 0.41208600997924805, 0.1988988220691681, 0.14554573595523834, 0.27547740936279297, 0.5047193169593811, 0.1193053349852562, 0.1329369843006134, 0.008757795207202435, 0.5858960747718811, 0.10716624557971954, -1.2744114398956299, -0.015607771463692188, 0.4341447949409485, -0.18675705790519714, 0.0012254089815542102, 0.12185507267713547, -0.46970999240875244, 0.2139795422554016, 0.08228280395269394, 0.02936917170882225, -0.12386734038591385, 0.1562434434890747, 0.17051148414611816, -0.2713660001754761, 0.038224536925554276, -0.45389631390571594, -0.31998828053474426, -0.11758271604776382, -0.13718140125274658, -0.33116868138313293, -0.4639136493206024, -0.4220881164073944, -0.03149694949388504, -0.13691803812980652, -0.05776222050189972, 0.041543979197740555, 0.5278537273406982, 0.4890863299369812, -0.07661459594964981, -0.18313054740428925, 0.21626459062099457, -0.11445435136556625, -0.9753242135047913, -0.4595167636871338, 0.34693828225135803, 0.2784789502620697, 0.15612299740314484, 0.8795897364616394, -0.208233043551445, 0.25665318965911865, 0.664867103099823, 0.10006468743085861, 0.3717508912086487, -0.19154797494411469, -0.044070228934288025, 0.19016152620315552, -0.43286705017089844, 0.13931529223918915, 0.16061720252037048, -0.14001505076885223, 0.2723529040813446, 0.010507846251130104, -0.043816640973091125, -0.3933525085449219, 0.07633335143327713, 0.16074138879776, 0.25545138120651245, 0.10411184281110764, -0.252656489610672, -0.014079650864005089, 0.6464551687240601, -0.5342252850532532, 0.13398316502571106, -0.19860437512397766, -0.04238532856106758, 0.7170720100402832, 0.20766960084438324, 0.3631458282470703, 0.3689534068107605, -0.637426495552063, 0

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作