nataliaElv/news_classification_with_ents

Name: nataliaElv/news_classification_with_ents
Creator: nataliaElv
Published: 2024-01-12 14:23:20
License: 暂无描述

Hugging Face2024-01-12 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/nataliaElv/news_classification_with_ents

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含一个符合Argilla数据集格式的配置文件`argilla.yaml`，以及兼容HuggingFace `datasets`库的数据记录。数据集主要用于新闻分类任务，包含文本字段和标签选择问题，标签包括[World, Sports, Business, Sci/Tech]。数据集通过Argilla平台创建，并支持使用HuggingFace的`datasets`库加载。数据集的README文件还提供了数据实例的示例，展示了数据集在Argilla和HuggingFace中的不同表示形式。

提供机构：

nataliaElv

原始信息汇总

数据集卡片 - news_classification_with_ents

数据集描述

数据集概述

该数据集包含：

符合Argilla数据集格式的配置文件argilla.yaml。
兼容HuggingFace datasets格式的数据记录。
用于构建和整理数据集的标注指南（如果已在Argilla中定义）。

加载方式

使用Argilla加载

python import argilla as rg

ds = rg.FeedbackDataset.from_huggingface("nataliaElv/news_classification_with_ents")

使用`datasets`库加载

python from datasets import load_dataset

ds = load_dataset("nataliaElv/news_classification_with_ents")

支持的任务和排行榜

该数据集可用于不同的NLP任务，具体取决于配置。数据集结构在数据集结构部分中描述。

目前没有与该数据集相关的排行榜。

语言

[更多信息需补充]

数据集结构

数据在Argilla中的结构

数据集在Argilla中包含以下元素：

fields：数据记录本身，目前仅支持文本字段。
questions：向标注者提出的问题，可以是不同类型，如评分、文本、标签选择、多标签选择或排序。
suggestions：人类或机器生成的建议，以辅助标注过程。
metadata：提供关于数据记录的额外信息。
vectors：向量信息。
guidelines：标注指南。

字段（Fields）

字段名称	标题	类型	必填	支持Markdown
text	文本	FieldTypes.text	True	False

问题（Questions）

问题名称	标题	类型	必填	描述	值/标签
label	标签	QuestionTypes.label_selection	True	N/A	[World, Sports, Business, Sci/Tech]

建议（Suggestions）

建议与现有问题相关联，包含建议值及其元数据。

元数据（Metadata）

元数据字段用于提供关于数据记录的额外信息。

指南（Guidelines）

指南是可选的，用于向标注者提供指示。

数据实例

在Argilla中的数据实例

json { "external_id": "record-0", "fields": { "text": "Wall St. Bears Claw Back Into the Black (Reuters) Reuters - Short-sellers, Wall Streetu0027s dwindling\band of ultra-cynics, are seeing green again." }, "metadata": { "entities": [ { "char_end_index": 48, "char_start_index": 41, "label": "ORG", "score": 0.855731189250946, "span": "Reuters" }, { "char_end_index": 86, "char_start_index": 75, "label": "MEDIA", "score": 0.46139127016067505, "span": "Wall Street" } ] }, "responses": [], "suggestions": [], "vectors": {} }

在HuggingFace `datasets`中的数据实例

json { "external_id": "record-0", "label": [], "label-suggestion": null, "label-suggestion-metadata": { "agent": null, "score": null, "type": null }, "metadata": "{"entities": [{"span": "Reuters", "label": "ORG", "score": 0.855731189250946, "char_start_index": 41, "char_end_index": 48}, {"span": "Wall Street", "label": "MEDIA", "score": 0.46139127016067505, "char_start_index": 75, "char_end_index": 86}]}", "text": "Wall St. Bears Claw Back Into the Black (Reuters) Reuters - Short-sellers, Wall Streetu0027s dwindling\band of ultra-cynics, are seeing green again." }

数据字段

数据集字段包括：

Fields：数据记录本身，目前仅支持文本字段。
- text：类型为FieldTypes.text。
Questions：向标注者提出的问题。
- label：类型为QuestionTypes.label_selection，允许值为[World, Sports, Business, Sci/Tech]。
Suggestions：建议，与现有问题相关联，包含建议值及其元数据。
- （可选）label-suggestion：类型为QuestionTypes.label_selection，允许值为[World, Sports, Business, Sci/Tech]。

此外，还有两个可选字段：

metadata：提供关于数据记录的额外信息。
external_id：提供数据记录的外部ID。

数据分割

数据集包含一个分割，即train。

数据集创建

标注指南

将文章分类为以下四个类别之一：

World
Sports
Business
Sci/Tech

5,000+

优质数据集

54 个

任务类型

进入经典数据集