five

imvladikon/english_news_weak_ner

收藏
Hugging Face2023-11-12 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/imvladikon/english_news_weak_ner
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是通过对Bloomberg新闻语料进行弱标注生成的,主要用于研究目的。数据集包含两个配置:articles和entities。articles配置包含新闻文章的元数据和文本内容,而entities配置包含句子级别的实体标注信息。数据集使用了NLTK的PunktSentenceTokenizer进行句子分割,但有时分割可能不完美。数据集还提供了NER标签的描述和统计信息,标签包括PER(人物)、LOC(地点)、ORG(组织)、MISC(杂项)、DATE(日期和时间表达式)、QTY(数量)、EVE(事件)、TTL(标题)和DUC(商业项目)等。

该数据集是通过对Bloomberg新闻语料进行弱标注生成的,主要用于研究目的。数据集包含两个配置:articles和entities。articles配置包含新闻文章的元数据和文本内容,而entities配置包含句子级别的实体标注信息。数据集使用了NLTK的PunktSentenceTokenizer进行句子分割,但有时分割可能不完美。数据集还提供了NER标签的描述和统计信息,标签包括PER(人物)、LOC(地点)、ORG(组织)、MISC(杂项)、DATE(日期和时间表达式)、QTY(数量)、EVE(事件)、TTL(标题)和DUC(商业项目)等。
提供机构:
imvladikon
原始信息汇总

数据集概述

该数据集是通过对抓取并预处理的新闻语料(彭博社新闻)进行弱标注生成的,仅用于研究目的。数据集包括两个配置:articlesentities

数据集配置

articles配置

  • 特征:
    • title: 字符串
    • author: 字符串
    • datetime: 字符串
    • url: 字符串
    • month: 字符串
    • day: 字符串
    • doc_id: 字符串
    • text: 字符串
    • year: 字符串
    • doc_title: 字符串
  • 分割:
    • train: 1313871812字节,446809个样本
  • 下载大小: 791316510字节
  • 数据集大小: 1313871812字节

entities配置

  • 特征:
    • doc_id: 字符串
    • sent_num: 整数
    • sentence: 字符串
    • doc_title: 字符串
    • score: 浮点数序列
    • entity_type: 字符串序列
    • entity_text: 字符串序列
    • start_char: 整数序列
    • end_char: 整数序列
    • tokens: 字符串序列
    • raw_tags: 字符串序列
    • ner_tags: 类别标签序列
      • 标签名称:
        • 0: B-DATE
        • 1: I-DATE
        • 2: L-DATE
        • 3: U-DATE
        • 4: B-DUC
        • 5: I-DUC
        • 6: L-DUC
        • 7: U-DUC
        • 8: B-EVE
        • 9: I-EVE
        • 10: L-EVE
        • 11: U-EVE
        • 12: B-LOC
        • 13: I-LOC
        • 14: L-LOC
        • 15: U-LOC
        • 16: B-MISC
        • 17: I-MISC
        • 18: L-MISC
        • 19: U-MISC
        • 20: B-ORG
        • 21: I-ORG
        • 22: L-ORG
        • 23: U-ORG
        • 24: B-PER
        • 25: I-PER
        • 26: L-PER
        • 27: U-PER
        • 28: B-QTY
        • 29: I-QTY
        • 30: L-QTY
        • 31: U-QTY
        • 32: B-TTL
        • 33: I-TTL
        • 34: L-TTL
        • 35: U-TTL
        • 36: O
  • 分割:
    • train: 3665237140字节,3515149个样本
  • 下载大小: 966462235字节
  • 数据集大小: 3665237140字节

数据文件配置

  • articles配置:
    • train: articles/train-*
  • entities配置:
    • train: entities/train-*
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作