five

nataliaElv/news_classification_with_ents

收藏
Hugging Face2024-01-12 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/nataliaElv/news_classification_with_ents
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含一个符合Argilla数据集格式的配置文件`argilla.yaml`,以及兼容HuggingFace `datasets`库的数据记录。数据集主要用于新闻分类任务,包含文本字段和标签选择问题,标签包括[World, Sports, Business, Sci/Tech]。数据集通过Argilla平台创建,并支持使用HuggingFace的`datasets`库加载。数据集的README文件还提供了数据实例的示例,展示了数据集在Argilla和HuggingFace中的不同表示形式。

该数据集包含一个符合Argilla数据集格式的配置文件`argilla.yaml`,以及兼容HuggingFace `datasets`库的数据记录。数据集主要用于新闻分类任务,包含文本字段和标签选择问题,标签包括[World, Sports, Business, Sci/Tech]。数据集通过Argilla平台创建,并支持使用HuggingFace的`datasets`库加载。数据集的README文件还提供了数据实例的示例,展示了数据集在Argilla和HuggingFace中的不同表示形式。
提供机构:
nataliaElv
原始信息汇总

数据集卡片 - news_classification_with_ents

数据集描述

数据集概述

该数据集包含:

  • 符合Argilla数据集格式的配置文件argilla.yaml
  • 兼容HuggingFace datasets格式的数据记录。
  • 用于构建和整理数据集的标注指南(如果已在Argilla中定义)。

加载方式

使用Argilla加载

python import argilla as rg

ds = rg.FeedbackDataset.from_huggingface("nataliaElv/news_classification_with_ents")

使用datasets库加载

python from datasets import load_dataset

ds = load_dataset("nataliaElv/news_classification_with_ents")

支持的任务和排行榜

该数据集可用于不同的NLP任务,具体取决于配置。数据集结构在数据集结构部分中描述。

目前没有与该数据集相关的排行榜。

语言

[更多信息需补充]

数据集结构

数据在Argilla中的结构

数据集在Argilla中包含以下元素:

  • fields:数据记录本身,目前仅支持文本字段。
  • questions:向标注者提出的问题,可以是不同类型,如评分、文本、标签选择、多标签选择或排序。
  • suggestions:人类或机器生成的建议,以辅助标注过程。
  • metadata:提供关于数据记录的额外信息。
  • vectors:向量信息。
  • guidelines:标注指南。

字段(Fields)

字段名称 标题 类型 必填 支持Markdown
text 文本 FieldTypes.text True False

问题(Questions)

问题名称 标题 类型 必填 描述 值/标签
label 标签 QuestionTypes.label_selection True N/A [World, Sports, Business, Sci/Tech]

建议(Suggestions)

建议与现有问题相关联,包含建议值及其元数据。

元数据(Metadata)

元数据字段用于提供关于数据记录的额外信息。

指南(Guidelines)

指南是可选的,用于向标注者提供指示。

数据实例

在Argilla中的数据实例

json { "external_id": "record-0", "fields": { "text": "Wall St. Bears Claw Back Into the Black (Reuters) Reuters - Short-sellers, Wall Streetu0027s dwindling\band of ultra-cynics, are seeing green again." }, "metadata": { "entities": [ { "char_end_index": 48, "char_start_index": 41, "label": "ORG", "score": 0.855731189250946, "span": "Reuters" }, { "char_end_index": 86, "char_start_index": 75, "label": "MEDIA", "score": 0.46139127016067505, "span": "Wall Street" } ] }, "responses": [], "suggestions": [], "vectors": {} }

在HuggingFace datasets中的数据实例

json { "external_id": "record-0", "label": [], "label-suggestion": null, "label-suggestion-metadata": { "agent": null, "score": null, "type": null }, "metadata": "{"entities": [{"span": "Reuters", "label": "ORG", "score": 0.855731189250946, "char_start_index": 41, "char_end_index": 48}, {"span": "Wall Street", "label": "MEDIA", "score": 0.46139127016067505, "char_start_index": 75, "char_end_index": 86}]}", "text": "Wall St. Bears Claw Back Into the Black (Reuters) Reuters - Short-sellers, Wall Streetu0027s dwindling\band of ultra-cynics, are seeing green again." }

数据字段

数据集字段包括:

  • Fields:数据记录本身,目前仅支持文本字段。
    • text:类型为FieldTypes.text
  • Questions:向标注者提出的问题。
    • label:类型为QuestionTypes.label_selection,允许值为[World, Sports, Business, Sci/Tech]。
  • Suggestions:建议,与现有问题相关联,包含建议值及其元数据。
    • (可选)label-suggestion:类型为QuestionTypes.label_selection,允许值为[World, Sports, Business, Sci/Tech]。

此外,还有两个可选字段:

  • metadata:提供关于数据记录的额外信息。
  • external_id:提供数据记录的外部ID。

数据分割

数据集包含一个分割,即train

数据集创建

标注指南

将文章分类为以下四个类别之一:

  • World
  • Sports
  • Business
  • Sci/Tech
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作