人民日报语料库 (1998.1)|命名实体识别数据集|自然语言处理数据集

github2020-11-05 更新2024-05-31 收录

命名实体识别

自然语言处理

下载链接：

https://github.com/Captain-F/Renmin-Daily-corpus-and-its-practice-in-NER

下载链接

链接失效反馈

资源简介：

本库主要提供用于NER任务的处理好的语料，包括基于词级和字级任务的NER数据。数据集包含19484个以行为粒度切分的句子，句子长度最大为659，平均长度为57.55666187641141。实体标注采用BIO格式，区分人名、地名和机构团体。

This repository primarily provides processed corpora for Named Entity Recognition (NER) tasks, including data for both word-level and character-level NER tasks. The dataset comprises 19,484 sentences segmented at the line level, with a maximum sentence length of 659 and an average length of 57.55666187641141. Entity annotations are formatted in the BIO scheme, distinguishing between personal names, geographical names, and organizational entities.

创建时间：

2020-11-05

原始信息汇总

人民日报语料库 (1998.1)

数据集概述

目的：主要用于NER任务，提供处理好的语料，包括词级和字级任务的NER数据。
语料基本情况：
- 句子数量：19484
- 句子最大长度：659
- 句子平均长度：57.55666187641141
- 句子长度（前20）：[659, 637, 629, 603, 596, 582, 515, 488, 480, 470, 459, 448, 444, 440, 436, 435, 431, 428, 426, 426]

实体标注

标注体系：BIO标注
实体类型及标签：
- 人名（nr）：B-PER, I-PER
- 地名（ns）：B-LOC, I-LOC
- 机构团体（nt）：B-ORG, I-ORG
- 非实体：O

NER应用（Baseline model）

模型：word2vec + BiLSTM + CRF (word-level)
- 测试结果：F1: 95.0353 | precision: 95.009 | recall: 0.9506
其他模型：BERT + BiLSTM + CRF (character-level), word + character

AI搜集汇总

数据集介绍

构建方式

人民日报语料库（1998.1）的构建基于1998年1月的人民日报文本，通过精细的文本处理技术，将原始文本分割为以行为单位的句子，并进行了详细的实体标注。具体而言，语料库包含了19484个句子，每个句子的长度分布广泛，最大长度达到659个字符，平均长度约为57.56个字符。此外，语料库采用了BIO标注体系，对句子中的实体进行了细致的分类和标注，包括人名（nr）、地名（ns）和机构团体（nt），非实体部分则统一标注为O。

特点

该语料库的主要特点在于其高质量的实体标注和广泛的应用场景。首先，语料库的实体标注采用了BIO体系，确保了实体识别的准确性和一致性。其次，语料库的句子长度分布广泛，涵盖了从短句到长句的各种情况，这为不同长度的文本处理提供了丰富的数据支持。此外，语料库的构建基于权威媒体人民日报，确保了文本内容的权威性和时效性，适用于多种自然语言处理任务，特别是命名实体识别（NER）任务。

使用方法

人民日报语料库（1998.1）主要用于命名实体识别（NER）任务的训练和评估。用户可以通过加载预处理好的语料库数据，直接应用于基于词级和字级的NER模型训练。例如，可以使用word2vec结合BiLSTM和CRF的模型进行词级NER任务，或者使用BERT结合BiLSTM和CRF的模型进行字级NER任务。此外，语料库的BIO标注格式可以直接用于模型的输入和输出，简化了数据预处理的过程，提高了模型的训练效率和效果。

背景与挑战

背景概述

人民日报语料库（1998.1）是由中国主要的新闻机构人民日报社创建的，旨在为自然语言处理（NLP）领域的命名实体识别（NER）任务提供高质量的语料资源。该数据集的创建时间可追溯至1998年，由人民日报社的专家团队精心整理和标注，涵盖了大量的人名、地名和机构团体等实体信息。其核心研究问题在于如何有效地从大规模文本数据中提取和识别这些实体，从而提升NLP系统在实际应用中的准确性和效率。该数据集对NLP领域的影响力显著，为后续的研究和应用提供了坚实的基础。

当前挑战

人民日报语料库在NER任务中的应用面临多重挑战。首先，数据集中的句子长度分布不均，最大句子长度达到659字，这增加了模型处理长句的难度。其次，实体标注的复杂性，尤其是BIO标注方式，要求模型能够准确区分实体的开始（B）和内部（I）部分，这对模型的训练和评估提出了高要求。此外，数据集的构建过程中，如何确保标注的一致性和准确性也是一个重要挑战。最后，尽管已有基于word2vec和BERT的模型取得了一定的效果，但如何在不同层次（词级和字级）上有效结合仍是研究的重点和难点。

常用场景

经典使用场景

人民日报语料库（1998.1）在自然语言处理领域中，主要用于命名实体识别（NER）任务。该数据集提供了基于词级和字级的NER数据，通过BIO标注方式，详细标注了人名、地名和机构团体等实体。经典使用场景包括构建和训练NER模型，如使用word2vec结合BiLSTM和CRF的词级模型，以及BERT结合BiLSTM和CRF的字级模型，以提高实体识别的准确性和效率。

解决学术问题

人民日报语料库（1998.1）解决了自然语言处理中命名实体识别的关键问题。通过提供高质量的标注数据，该语料库帮助研究人员和开发者构建和验证NER模型，从而推动了实体识别技术的发展。其意义在于为学术界提供了一个标准化的数据集，促进了相关算法的创新和优化，对提升中文信息处理的准确性和智能化水平具有重要影响。

衍生相关工作

基于人民日报语料库（1998.1），衍生了一系列相关的经典工作。例如，研究者们在此基础上开发了多种NER模型，如结合深度学习的BiLSTM-CRF模型和预训练语言模型BERT的应用。这些工作不仅提升了NER任务的性能，还推动了自然语言处理技术在实际应用中的广泛采用。此外，该语料库还激发了更多关于中文语料库建设和标注方法的研究，促进了中文信息处理领域的整体进步。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

中国1km分辨率逐月降水量数据集（1901-2023）

该数据集为中国逐月降水量数据，空间分辨率为0.0083333°（约1km），时间为1901.1-2023.12。数据格式为NETCDF，即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集，通过Delta空间降尺度方案在中国降尺度生成的。并且，使用496个独立气象观测点数据进行验证，验证结果可信。本数据集包含的地理空间范围是全国主要陆地（包含港澳台地区），不含南海岛礁等区域。为了便于存储，数据均为int16型存于nc文件中，降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理，Matlab发布了读入与存储nc文件的函数，读取函数为ncread，切换到nc文件存储文件夹，语句表达为：ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent])，其中XXX.nc为文件名，为字符串需要’’；var是从XXX.nc中读取的变量名，为字符串需要’’；i、j、t分别为读取数据的起始行、列、时间，leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样，研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令，可查看。数据坐标系统建议使用WGS84。

国家青藏高原科学数据中心收录

LEGO数据集

该数据集包含了关于LEGO公司的历史、产品提供以及特定LEGO套装的信息，用于分析LEGO套装的规模、发布年份、主题分布以及套装复杂性的变化。

github 收录

Materials Project

材料项目是一组标有不同属性的化合物。数据集链接： MP 2018.6.1（69,239 个材料） MP 2019.4.1（133,420 个材料）

OpenDataLab 收录

RAVDESS

情感语音和歌曲 (RAVDESS) 的Ryerson视听数据库包含7,356个文件 (总大小: 24.8 GB)。该数据库包含24位专业演员 (12位女性，12位男性)，以中性的北美口音发声两个词汇匹配的陈述。言语包括平静、快乐、悲伤、愤怒、恐惧、惊讶和厌恶的表情，歌曲则包含平静、快乐、悲伤、愤怒和恐惧的情绪。每个表达都是在两个情绪强度水平 (正常，强烈) 下产生的，另外还有一个中性表达。所有条件都有三种模态格式: 纯音频 (16位，48kHz .wav)，音频-视频 (720p H.264，AAC 48kHz，.mp4) 和仅视频 (无声音)。注意，Actor_18没有歌曲文件。

OpenDataLab 收录

Yahoo Finance

Dataset About finance related to stock market

kaggle 收录