alecmontero/popscitweetsbyarea

Name: alecmontero/popscitweetsbyarea
Creator: alecmontero
Published: 2024-03-06 04:40:15
License: 暂无描述

Hugging Face2024-03-06 更新2024-06-22 收录

下载链接：

https://hf-mirror.com/datasets/alecmontero/popscitweetsbyarea

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是通过Argilla工具创建的，包含一个配置文件`argilla.yaml`和与HuggingFace `datasets`库兼容的记录。数据集的主要字段是文本字段`texto`，主要问题是多标签选择问题`content_class`，用于描述推文内容。数据集还支持向量搜索，并提供了向量字段`sentence_embeddings`。数据集的加载方式包括通过Argilla和`datasets`库加载。

提供机构：

alecmontero

原始信息汇总

数据集卡片 for popscitweetsbyarea

数据集描述

数据集概述

该数据集包含：

符合 Argilla 数据集格式的配置文件 argilla.yaml，用于在使用 Argilla 的 FeedbackDataset.from_huggingface 方法时配置数据集。
兼容 HuggingFace datasets 格式的数据集记录，这些记录在使用 FeedbackDataset.from_huggingface 时会自动加载，也可以通过 datasets 库独立加载。
用于构建和整理数据集的标注指南（如果已在 Argilla 中定义）。

加载方式

使用 Argilla 加载

安装 Argilla 后，使用以下代码加载数据集：

python import argilla as rg

ds = rg.FeedbackDataset.from_huggingface("teoremaclon/popscitweetsbyarea")

使用 `datasets` 加载

安装 datasets 库后，使用以下代码加载数据集：

python from datasets import load_dataset

ds = load_dataset("teoremaclon/popscitweetsbyarea")

支持的任务和排行榜

该数据集可以包含多个字段、问题和响应，因此可以用于不同的 NLP 任务，具体取决于配置。数据集结构在数据集结构部分中描述。

该数据集没有关联的排行榜。

语言

[更多信息需要]

数据集结构

数据在 Argilla 中

数据集在 Argilla 中创建，包含以下内容：字段、问题、建议、元数据、向量和指南。

字段

字段是数据集记录本身，目前仅支持文本字段。这些字段将用于提供问题的响应。

字段名称	标题	类型	必需	Markdown
texto	Texto	text	True	False

问题

问题是将向标注者提出的问题。它们可以是不同类型，如评分、文本、标签选择、多标签选择或排名。

问题名称	标题	类型	必需	描述	值/标签
content_class	¿Cuáles de las siguientes etiquetas describen el contenido del tuit?	multi_label_selection	True	N/A	[astronomía y espacio, matemáticas, física, biología, medicina y salud, tecnología, química, historia de la ciencia, ingeniería, computación, ciencias de la tierra, materia y energia, psicología, invitación a evento o a recursos, efeméride, mujeres en la ciencia, cultura pop, otro]

建议

建议是人为或机器生成的推荐，用于在标注过程中协助标注者。这些建议总是与现有问题相关联，并通过附加“-suggestion”和“-suggestion-metadata”来命名，分别包含建议的值及其元数据。

建议名称	标题	类型	值/标签
content_class-suggestion	N/A	multi_label_selection	[astronomía y espacio, matemáticas, física, biología, medicina y salud, tecnología, química, historia de la ciencia, ingeniería, computación, ciencias de la tierra, materia y energia, psicología, invitación a evento o a recursos, efeméride, mujeres en la ciencia, cultura pop, otro]

向量

向量是包含浮点数的不同列，其维度在配置数据集时预定义。向量是可选的，并且在 UI 中不可见。

向量名称	标题	维度
sentence_embeddings	sentence_embeddings	[1, 768]

元数据

元数据是一个字典，可用于提供有关数据集记录的额外信息。这可以为标注者提供额外的上下文，或提供有关数据集记录本身的额外信息。

外部ID

外部ID是一个可选字段，可用于为数据集记录提供外部ID。这可以用于将数据集记录链接到外部资源，如数据库或文件。

数据实例

在 Argilla 中的数据集实例示例如下：

json { "external_id": null, "fields": { "texto": "El hoyo negro del centro de nuestra galaxia, Sgr A* , cuya masa es de 4 millones de masas solares, posee una compau00f1era, que tambiu00e9n es un hoyo negro, su masa es de 100 000 masas solares, se llama S2 y gira en torno de la primera a una velocidad de 26 millones de km/hr. (ESO) https://t.co/G6rdxEqVom" }, "metadata": {}, "responses": [ { "status": "submitted", "user_id": "78a97af9-bf0a-4a17-b254-eb4b22c4cab1", "values": { "content_class": { "value": [ "astronomu00eda y espacio", "fu00edsica" ] } } } ], "suggestions": [], "vectors": {} }

在 HuggingFace datasets 中的相同记录示例如下：

json { "content_class": [ { "status": "submitted", "user_id": "78a97af9-bf0a-4a17-b254-eb4b22c4cab1", "value": [ "astronomu00eda y espacio", "fu00edsica" ] } ], "content_class-suggestion": null, "content_class-suggestion-metadata": { "agent": null, "score": null, "type": null }, "external_id": null, "metadata": "{}", "texto": "El hoyo negro del centro de nuestra galaxia, Sgr A* , cuya masa es de 4 millones de masas solares, posee una compau00f1era, que tambiu00e9n es un hoyo negro, su masa es de 100 000 masas solares, se llama S2 y gira en torno de la primera a una velocidad de 26 millones de km/hr. (ESO) https://t.co/G6rdxEqVom", "vectors": { "sentence_embeddings": null } }

数据字段

数据集字段包括以下内容：

字段：这些是数据集记录本身，目前仅支持文本字段。这些字段将用于提供问题的响应。
- texto 是 text 类型。
问题：这些问题将向标注者提出。它们可以是不同类型，如 RatingQuestion、TextQuestion、LabelQuestion、MultiLabelQuestion 和 RankingQuestion。
- content_class 是 multi_label_selection 类型，允许的值为 [astronomía y espacio, matemáticas, física, biología, medicina y salud, tecnología, química, historia de la ciencia, ingeniería, computación, ciencias de la tierra, materia y energia, psicología, invitación a evento o a recursos, efeméride, mujeres en la ciencia, cultura pop, otro]。
建议：从 Argilla 1.13.0 开始，建议已包含在内，以提供标注者在标注过程中使用的建议，以简化或协助标注过程。建议与现有问题相关联，总是可选的，并且不仅包含建议本身，还包含与之相关的元数据（如果适用）。
- content_class-suggestion 是 multi_label_selection 类型，允许的值为 [astronomía y espacio, matemáticas, física, biología, medicina y salud, tecnología, química, historia de la ciencia, ingeniería, computación, ciencias de la tierra, materia y energia, psicología, invitación a evento o a recursos, efeméride, mujeres en la ciencia, cultura pop, otro]。
向量：从 Argilla 1.19.0 开始，向量已包含在内，以添加对基于向量搜索的相似性搜索的支持。向量是可选的，并且在 UI 中不可见。向量总是可选的，并且仅限于预定义的维度。
- sentence_embeddings 是 float32 类型，维度为 (1, 768)。

此外，还有两个可选字段：

元数据：这是一个可选字段，可用于提供有关数据集记录的额外信息。这可以为标注者提供额外的上下文，或提供有关数据集记录本身的额外信息。
外部ID：这是一个可选字段，可用于为数据集记录提供外部ID。这可以用于将数据集记录链接到外部资源，如数据库或文件。

数据分割

数据集包含一个分割，即 train。

5,000+

优质数据集

54 个

任务类型

进入经典数据集