nataliaElv/news_classification_with_ents
收藏数据集卡片 - news_classification_with_ents
数据集描述
数据集概述
该数据集包含:
- 符合Argilla数据集格式的配置文件
argilla.yaml。 - 兼容HuggingFace
datasets格式的数据记录。 - 用于构建和整理数据集的标注指南(如果已在Argilla中定义)。
加载方式
使用Argilla加载
python import argilla as rg
ds = rg.FeedbackDataset.from_huggingface("nataliaElv/news_classification_with_ents")
使用datasets库加载
python from datasets import load_dataset
ds = load_dataset("nataliaElv/news_classification_with_ents")
支持的任务和排行榜
该数据集可用于不同的NLP任务,具体取决于配置。数据集结构在数据集结构部分中描述。
目前没有与该数据集相关的排行榜。
语言
[更多信息需补充]
数据集结构
数据在Argilla中的结构
数据集在Argilla中包含以下元素:
- fields:数据记录本身,目前仅支持文本字段。
- questions:向标注者提出的问题,可以是不同类型,如评分、文本、标签选择、多标签选择或排序。
- suggestions:人类或机器生成的建议,以辅助标注过程。
- metadata:提供关于数据记录的额外信息。
- vectors:向量信息。
- guidelines:标注指南。
字段(Fields)
| 字段名称 | 标题 | 类型 | 必填 | 支持Markdown |
|---|---|---|---|---|
| text | 文本 | FieldTypes.text | True | False |
问题(Questions)
| 问题名称 | 标题 | 类型 | 必填 | 描述 | 值/标签 |
|---|---|---|---|---|---|
| label | 标签 | QuestionTypes.label_selection | True | N/A | [World, Sports, Business, Sci/Tech] |
建议(Suggestions)
建议与现有问题相关联,包含建议值及其元数据。
元数据(Metadata)
元数据字段用于提供关于数据记录的额外信息。
指南(Guidelines)
指南是可选的,用于向标注者提供指示。
数据实例
在Argilla中的数据实例
json { "external_id": "record-0", "fields": { "text": "Wall St. Bears Claw Back Into the Black (Reuters) Reuters - Short-sellers, Wall Streetu0027s dwindling\band of ultra-cynics, are seeing green again." }, "metadata": { "entities": [ { "char_end_index": 48, "char_start_index": 41, "label": "ORG", "score": 0.855731189250946, "span": "Reuters" }, { "char_end_index": 86, "char_start_index": 75, "label": "MEDIA", "score": 0.46139127016067505, "span": "Wall Street" } ] }, "responses": [], "suggestions": [], "vectors": {} }
在HuggingFace datasets中的数据实例
json { "external_id": "record-0", "label": [], "label-suggestion": null, "label-suggestion-metadata": { "agent": null, "score": null, "type": null }, "metadata": "{"entities": [{"span": "Reuters", "label": "ORG", "score": 0.855731189250946, "char_start_index": 41, "char_end_index": 48}, {"span": "Wall Street", "label": "MEDIA", "score": 0.46139127016067505, "char_start_index": 75, "char_end_index": 86}]}", "text": "Wall St. Bears Claw Back Into the Black (Reuters) Reuters - Short-sellers, Wall Streetu0027s dwindling\band of ultra-cynics, are seeing green again." }
数据字段
数据集字段包括:
- Fields:数据记录本身,目前仅支持文本字段。
- text:类型为
FieldTypes.text。
- text:类型为
- Questions:向标注者提出的问题。
- label:类型为
QuestionTypes.label_selection,允许值为[World, Sports, Business, Sci/Tech]。
- label:类型为
- Suggestions:建议,与现有问题相关联,包含建议值及其元数据。
- (可选)label-suggestion:类型为
QuestionTypes.label_selection,允许值为[World, Sports, Business, Sci/Tech]。
- (可选)label-suggestion:类型为
此外,还有两个可选字段:
- metadata:提供关于数据记录的额外信息。
- external_id:提供数据记录的外部ID。
数据分割
数据集包含一个分割,即train。
数据集创建
标注指南
将文章分类为以下四个类别之一:
- World
- Sports
- Business
- Sci/Tech



