imvladikon/english_news_weak_ner
收藏Hugging Face2023-11-12 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/imvladikon/english_news_weak_ner
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是通过对Bloomberg新闻语料进行弱标注生成的,主要用于研究目的。数据集包含两个配置:articles和entities。articles配置包含新闻文章的元数据和文本内容,而entities配置包含句子级别的实体标注信息。数据集使用了NLTK的PunktSentenceTokenizer进行句子分割,但有时分割可能不完美。数据集还提供了NER标签的描述和统计信息,标签包括PER(人物)、LOC(地点)、ORG(组织)、MISC(杂项)、DATE(日期和时间表达式)、QTY(数量)、EVE(事件)、TTL(标题)和DUC(商业项目)等。
该数据集是通过对Bloomberg新闻语料进行弱标注生成的,主要用于研究目的。数据集包含两个配置:articles和entities。articles配置包含新闻文章的元数据和文本内容,而entities配置包含句子级别的实体标注信息。数据集使用了NLTK的PunktSentenceTokenizer进行句子分割,但有时分割可能不完美。数据集还提供了NER标签的描述和统计信息,标签包括PER(人物)、LOC(地点)、ORG(组织)、MISC(杂项)、DATE(日期和时间表达式)、QTY(数量)、EVE(事件)、TTL(标题)和DUC(商业项目)等。
提供机构:
imvladikon
原始信息汇总
数据集概述
该数据集是通过对抓取并预处理的新闻语料(彭博社新闻)进行弱标注生成的,仅用于研究目的。数据集包括两个配置:articles和entities。
数据集配置
articles配置
- 特征:
title: 字符串author: 字符串datetime: 字符串url: 字符串month: 字符串day: 字符串doc_id: 字符串text: 字符串year: 字符串doc_title: 字符串
- 分割:
train: 1313871812字节,446809个样本
- 下载大小: 791316510字节
- 数据集大小: 1313871812字节
entities配置
- 特征:
doc_id: 字符串sent_num: 整数sentence: 字符串doc_title: 字符串score: 浮点数序列entity_type: 字符串序列entity_text: 字符串序列start_char: 整数序列end_char: 整数序列tokens: 字符串序列raw_tags: 字符串序列ner_tags: 类别标签序列- 标签名称:
- 0: B-DATE
- 1: I-DATE
- 2: L-DATE
- 3: U-DATE
- 4: B-DUC
- 5: I-DUC
- 6: L-DUC
- 7: U-DUC
- 8: B-EVE
- 9: I-EVE
- 10: L-EVE
- 11: U-EVE
- 12: B-LOC
- 13: I-LOC
- 14: L-LOC
- 15: U-LOC
- 16: B-MISC
- 17: I-MISC
- 18: L-MISC
- 19: U-MISC
- 20: B-ORG
- 21: I-ORG
- 22: L-ORG
- 23: U-ORG
- 24: B-PER
- 25: I-PER
- 26: L-PER
- 27: U-PER
- 28: B-QTY
- 29: I-QTY
- 30: L-QTY
- 31: U-QTY
- 32: B-TTL
- 33: I-TTL
- 34: L-TTL
- 35: U-TTL
- 36: O
- 标签名称:
- 分割:
train: 3665237140字节,3515149个样本
- 下载大小: 966462235字节
- 数据集大小: 3665237140字节
数据文件配置
articles配置:train:articles/train-*
entities配置:train:entities/train-*



