imvladikon/english_news_weak_ner

Name: imvladikon/english_news_weak_ner
Creator: imvladikon
Published: 2023-11-12 07:36:46
License: 暂无描述

Hugging Face2023-11-12 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/imvladikon/english_news_weak_ner

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是通过对Bloomberg新闻语料进行弱标注生成的，主要用于研究目的。数据集包含两个配置：articles和entities。articles配置包含新闻文章的元数据和文本内容，而entities配置包含句子级别的实体标注信息。数据集使用了NLTK的PunktSentenceTokenizer进行句子分割，但有时分割可能不完美。数据集还提供了NER标签的描述和统计信息，标签包括PER（人物）、LOC（地点）、ORG（组织）、MISC（杂项）、DATE（日期和时间表达式）、QTY（数量）、EVE（事件）、TTL（标题）和DUC（商业项目）等。

提供机构：

imvladikon

原始信息汇总

数据集概述

该数据集是通过对抓取并预处理的新闻语料（彭博社新闻）进行弱标注生成的，仅用于研究目的。数据集包括两个配置：articles和entities。

数据集配置

`articles`配置

特征:
- title: 字符串
- author: 字符串
- datetime: 字符串
- url: 字符串
- month: 字符串
- day: 字符串
- doc_id: 字符串
- text: 字符串
- year: 字符串
- doc_title: 字符串
分割:
- train: 1313871812字节，446809个样本
下载大小: 791316510字节
数据集大小: 1313871812字节

`entities`配置

特征:
- doc_id: 字符串
- sent_num: 整数
- sentence: 字符串
- doc_title: 字符串
- score: 浮点数序列
- entity_type: 字符串序列
- entity_text: 字符串序列
- start_char: 整数序列
- end_char: 整数序列
- tokens: 字符串序列
- raw_tags: 字符串序列
- ner_tags: 类别标签序列
  - 标签名称:
    - 0: B-DATE
    - 1: I-DATE
    - 2: L-DATE
    - 3: U-DATE
    - 4: B-DUC
    - 5: I-DUC
    - 6: L-DUC
    - 7: U-DUC
    - 8: B-EVE
    - 9: I-EVE
    - 10: L-EVE
    - 11: U-EVE
    - 12: B-LOC
    - 13: I-LOC
    - 14: L-LOC
    - 15: U-LOC
    - 16: B-MISC
    - 17: I-MISC
    - 18: L-MISC
    - 19: U-MISC
    - 20: B-ORG
    - 21: I-ORG
    - 22: L-ORG
    - 23: U-ORG
    - 24: B-PER
    - 25: I-PER
    - 26: L-PER
    - 27: U-PER
    - 28: B-QTY
    - 29: I-QTY
    - 30: L-QTY
    - 31: U-QTY
    - 32: B-TTL
    - 33: I-TTL
    - 34: L-TTL
    - 35: U-TTL
    - 36: O
分割:
- train: 3665237140字节，3515149个样本
下载大小: 966462235字节
数据集大小: 3665237140字节

数据文件配置

articles配置:
- train: articles/train-*
entities配置:
- train: entities/train-*

5,000+

优质数据集

54 个

任务类型

进入经典数据集