argilla/end2end_textclassification_with_vectors
收藏数据集卡片 for end2end_textclassification_with_vectors
数据集描述
- 主页: https://argilla.io
- 仓库: https://github.com/argilla-io/argilla
- 论文:
- 排行榜:
- 联系点:
数据集概述
该数据集包含:
- 符合 Argilla 数据集格式的配置文件
argilla.yaml。该配置文件在通过 Argilla 的FeedbackDataset.from_huggingface方法使用时用于配置数据集。 - 与 HuggingFace
datasets兼容的数据集记录。这些记录在使用FeedbackDataset.from_huggingface时会自动加载,也可以通过datasets库的load_dataset方法独立加载。 - 用于构建和整理数据集的标注指南(如果已在 Argilla 中定义)。
加载方式
使用 Argilla 加载
安装 Argilla:
python pip install argilla --upgrade
加载数据集:
python import argilla as rg
ds = rg.FeedbackDataset.from_huggingface("argilla/end2end_textclassification_with_vectors")
使用 datasets 加载
安装 datasets:
python pip install datasets --upgrade
加载数据集:
python from datasets import load_dataset
ds = load_dataset("argilla/end2end_textclassification_with_vectors")
支持的任务和排行榜
该数据集可以包含多个字段、问题和响应,因此可以用于不同的 NLP 任务,具体取决于配置。数据集结构在数据集结构部分中描述。
该数据集没有关联的排行榜。
语言
[更多信息需要]
数据集结构
数据在 Argilla 中
数据集在 Argilla 中创建,包含:字段、问题、建议、元数据、向量和指南。
字段是数据集记录本身,目前仅支持文本字段。这些字段将用于提供对问题的响应。
| 字段名称 | 标题 | 类型 | 必需 | Markdown |
|---|---|---|---|---|
| text | 文本 | FieldTypes.text | True | False |
问题是向标注者提出的问题。它们可以是不同类型,如评分、文本、标签选择、多标签选择或排名。
| 问题名称 | 标题 | 类型 | 必需 | 描述 | 值/标签 |
|---|---|---|---|---|---|
| label | 标签 | QuestionTypes.label_selection | True | 通过从给定标签列表中选择正确标签来分类文本。 | [World, Sports, Business, Sci/Tech] |
建议是人为或机器生成的每个问题的推荐,以协助标注者在标注过程中。这些建议总是与现有问题相关联,并通过在问题名称后附加 "-suggestion" 和 "-suggestion-metadata" 来命名,分别包含建议的值和其元数据。
元数据是一个字典,用于提供有关数据集记录的额外信息。这可以为标注者提供额外的上下文,或提供有关数据集记录本身的额外信息。例如,可以使用此字段提供数据集记录的原始来源链接,或提供有关记录本身的额外信息,如作者、日期或来源。元数据总是可选的,并且可以与 argilla.yaml 中定义的 metadata_properties 相关联。
向量是包含浮点数的不同列,其维度在配置数据集时在 vectors_settings 中预定义,维度始终为 1 维。向量是可选的,并且由 argilla.yaml 中预定义的向量名称标识。
| 向量名称 | 标题 | 维度 |
|---|---|---|
| sentence_embedding | 句子嵌入 | [1, 384] |
指南也是可选的,只是一个纯字符串,用于向标注者提供指令。可以在标注指南部分中找到这些指南。
数据实例
在 Argilla 中的数据集实例示例如下:
json { "external_id": "record-0", "fields": { "text": "Wall St. Bears Claw Back Into the Black (Reuters) Reuters - Short-sellers, Wall Streetu0027s dwindling\band of ultra-cynics, are seeing green again." }, "metadata": {}, "responses": [], "suggestions": [], "vectors": { "sentence_embedding": [ -0.12043723464012146, -0.20540212094783783, -0.0035010750871151686, -0.00980630237609148, 0.1692187786102295, 0.1105300635099411, -0.5263048410415649, 0.06751782447099686, 0.4591887891292572, 0.12288972735404968, -0.04069870337843895, 0.14249269664287567, -0.4193352162837982, 0.3089897334575653, -0.002920431550592184, -0.3318617343902588, 0.4440504312515259, 0.0024764006957411766, -0.5200819373130798, 0.4191458225250244, -0.2874358892440796, -0.31848442554473877, 0.46103376150131226, -0.2150607705116272, 0.4638316333293915, -0.5393298864364624, 0.11619565635919571, 0.12209033966064453, -0.5150607228279114, -1.5762522220611572, -0.3548111319541931, -0.3022597134113312, -0.21581022441387177, -0.04001490771770477, 0.3795183300971985, -0.4639199376106262, -0.18638719618320465, 0.34496206045150757, 0.19537486135959625, 0.464184045791626, 0.1232186034321785, 0.16397443413734436, -0.20278260111808777, -0.1903568059206009, 0.06815202534198761, -0.3819412291049957, 0.26536446809768677, -0.13817478716373444, 0.14375346899032593, -0.09447652846574783, 0.2094372808933258, -0.02289251796901226, 0.41208600997924805, 0.1988988220691681, 0.14554573595523834, 0.27547740936279297, 0.5047193169593811, 0.1193053349852562, 0.1329369843006134, 0.008757795207202435, 0.5858960747718811, 0.10716624557971954, -1.2744114398956299, -0.015607771463692188, 0.4341447949409485, -0.18675705790519714, 0.0012254089815542102, 0.12185507267713547, -0.46970999240875244, 0.2139795422554016, 0.08228280395269394, 0.02936917170882225, -0.12386734038591385, 0.1562434434890747, 0.17051148414611816, -0.2713660001754761, 0.038224536925554276, -0.45389631390571594, -0.31998828053474426, -0.11758271604776382, -0.13718140125274658, -0.33116868138313293, -0.4639136493206024, -0.4220881164073944, -0.03149694949388504, -0.13691803812980652, -0.05776222050189972, 0.041543979197740555, 0.5278537273406982, 0.4890863299369812, -0.07661459594964981, -0.18313054740428925, 0.21626459062099457, -0.11445435136556625, -0.9753242135047913, -0.4595167636871338, 0.34693828225135803, 0.2784789502620697, 0.15612299740314484, 0.8795897364616394, -0.208233043551445, 0.25665318965911865, 0.664867103099823, 0.10006468743085861, 0.3717508912086487, -0.19154797494411469, -0.044070228934288025, 0.19016152620315552, -0.43286705017089844, 0.13931529223918915, 0.16061720252037048, -0.14001505076885223, 0.2723529040813446, 0.010507846251130104, -0.043816640973091125, -0.3933525085449219, 0.07633335143327713, 0.16074138879776, 0.25545138120651245, 0.10411184281110764, -0.252656489610672, -0.014079650864005089, 0.6464551687240601, -0.5342252850532532, 0.13398316502571106, -0.19860437512397766, -0.04238532856106758, 0.7170720100402832, 0.20766960084438324, 0.3631458282470703, 0.3689534068107605, -0.637426495552063, 0



