five

peoples-daily-ner/peoples_daily_ner

收藏
Hugging Face2024-01-18 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/peoples-daily-ner/peoples_daily_ner
下载链接
链接失效反馈
官方服务:
更多采购需求
资源简介:
--- annotations_creators: - expert-generated language_creators: - found language: - zh license: - unknown multilinguality: - monolingual size_categories: - 10K<n<100K source_datasets: - original task_categories: - token-classification task_ids: - named-entity-recognition pretty_name: People's Daily NER dataset_info: features: - name: id dtype: string - name: tokens sequence: string - name: ner_tags sequence: class_label: names: '0': O '1': B-PER '2': I-PER '3': B-ORG '4': I-ORG '5': B-LOC '6': I-LOC config_name: peoples_daily_ner splits: - name: train num_bytes: 14972456 num_examples: 20865 - name: validation num_bytes: 1676741 num_examples: 2319 - name: test num_bytes: 3346975 num_examples: 4637 download_size: 8385672 dataset_size: 19996172 --- # Dataset Card for People's Daily NER ## Table of Contents - [Dataset Description](#dataset-description) - [Dataset Summary](#dataset-summary) - [Supported Tasks and Leaderboards](#supported-tasks-and-leaderboards) - [Languages](#languages) - [Dataset Structure](#dataset-structure) - [Data Instances](#data-instances) - [Data Fields](#data-fields) - [Data Splits](#data-splits) - [Dataset Creation](#dataset-creation) - [Curation Rationale](#curation-rationale) - [Source Data](#source-data) - [Annotations](#annotations) - [Personal and Sensitive Information](#personal-and-sensitive-information) - [Considerations for Using the Data](#considerations-for-using-the-data) - [Social Impact of Dataset](#social-impact-of-dataset) - [Discussion of Biases](#discussion-of-biases) - [Other Known Limitations](#other-known-limitations) - [Additional Information](#additional-information) - [Dataset Curators](#dataset-curators) - [Licensing Information](#licensing-information) - [Citation Information](#citation-information) - [Contributions](#contributions) ## Dataset Description - **Homepage:** [Github](https://github.com/OYE93/Chinese-NLP-Corpus/tree/master/NER/People's%20Daily) - **Repository:** [Github](https://github.com/OYE93/Chinese-NLP-Corpus/) - **Paper:** - **Leaderboard:** - **Point of Contact:** ### Dataset Summary [More Information Needed] ### Supported Tasks and Leaderboards [More Information Needed] ### Languages [More Information Needed] ## Dataset Structure ### Data Instances [More Information Needed] ### Data Fields [More Information Needed] ### Data Splits [More Information Needed] ## Dataset Creation ### Curation Rationale [More Information Needed] ### Source Data #### Initial Data Collection and Normalization [More Information Needed] #### Who are the source language producers? [More Information Needed] ### Annotations #### Annotation process [More Information Needed] #### Who are the annotators? [More Information Needed] ### Personal and Sensitive Information [More Information Needed] ## Considerations for Using the Data ### Social Impact of Dataset [More Information Needed] ### Discussion of Biases [More Information Needed] ### Other Known Limitations [More Information Needed] ## Additional Information ### Dataset Curators [More Information Needed] ### Licensing Information [More Information Needed] ### Citation Information No citation available for this dataset. ### Contributions Thanks to [@JetRunner](https://github.com/JetRunner) for adding this dataset.

--- annotations_creators: - 专家生成(expert-generated) language_creators: - 公开获取(found) language: - 中文(zh) license: - 未知 multilinguality: - 单语言(monolingual) size_categories: - 1万至10万条(10K<n<100K) source_datasets: - 原创数据集 task_categories: - 令牌分类(token-classification) task_ids: - 命名实体识别(named-entity-recognition) pretty_name: 人民日报命名实体识别(People's Daily NER) dataset_info: features: - name: id dtype: 字符串(string) - name: tokens dtype: 字符串序列(string) - name: ner_tags dtype: 序列类别标签,定义如下: class_label: names: '0': O(非实体标签) '1': B-PER(人物实体起始标签) '2': I-PER(人物实体延续标签) '3': B-ORG(组织实体起始标签) '4': I-ORG(组织实体延续标签) '5': B-LOC(地点实体起始标签) '6': I-LOC(地点实体延续标签) config_name: peoples_daily_ner splits: - name: 训练集(train) num_bytes: 14972456 num_examples: 20865 - name: 验证集(validation) num_bytes: 1676741 num_examples: 2319 - name: 测试集(test) num_bytes: 3346975 num_examples: 4637 download_size: 8385672 dataset_size: 19996172 --- # 人民日报命名实体识别数据集卡片(People's Daily NER) ## 目录 - [数据集概述](#dataset-description) - [数据集摘要](#dataset-summary) - [支持任务与排行榜](#supported-tasks-and-leaderboards) - [语言](#languages) - [数据集结构](#dataset-structure) - [数据实例](#data-instances) - [数据字段](#data-fields) - [数据划分](#data-splits) - [数据集构建](#dataset-creation) - [构建初衷](#curation-rationale) - [源数据](#source-data) - [初始数据收集与标准化](#initial-data-collection-and-normalization) - [源数据的语言创作者是谁?](#who-are-the-source-language-producers) - [标注信息](#annotations) - [标注流程](#annotation-process) - [标注人员是谁?](#who-are-the-annotators) - [个人与敏感信息](#personal-and-sensitive-information) - [数据使用注意事项](#considerations-for-using-the-data) - [数据集的社会影响](#social-impact-of-dataset) - [偏差分析](#discussion-of-biases) - [其他已知局限性](#other-known-limitations) - [附加信息](#additional-information) - [数据集维护者](#dataset-curators) - [许可信息](#licensing-information) - [引用信息](#citation-information) - [贡献者](#contributions) ## 数据集概述 - **主页:** [GitHub](https://github.com/OYE93/Chinese-NLP-Corpus/tree/master/NER/People's%20Daily) - **代码仓库:** [GitHub](https://github.com/OYE93/Chinese-NLP-Corpus/) - **相关论文:** - **排行榜:** - **联系人:** ### 数据集摘要 [需补充更多信息] ### 支持任务与排行榜 [需补充更多信息] ### 语言 [需补充更多信息] ## 数据集结构 ### 数据实例 [需补充更多信息] ### 数据字段 [需补充更多信息] ### 数据划分 [需补充更多信息] ## 数据集构建 ### 构建初衷 [需补充更多信息] ### 源数据 #### 初始数据收集与标准化 [需补充更多信息] #### 源数据的语言创作者是谁? [需补充更多信息] ### 标注信息 #### 标注流程 [需补充更多信息] #### 标注人员是谁? [需补充更多信息] ### 个人与敏感信息 [需补充更多信息] ## 数据使用注意事项 ### 数据集的社会影响 [需补充更多信息] ### 偏差分析 [需补充更多信息] ### 其他已知局限性 [需补充更多信息] ## 附加信息 ### 数据集维护者 [需补充更多信息] ### 许可信息 [需补充更多信息] ### 引用信息 本数据集暂无可用引用。 ### 贡献者 感谢 [@JetRunner](https://github.com/JetRunner) 贡献本数据集。
提供机构:
peoples-daily-ner
原始信息汇总

数据集卡片 for Peoples Daily NER

数据集描述

数据集概述

  • annotations_creators: expert-generated
  • language_creators: found
  • language: zh
  • license: unknown
  • multilinguality: monolingual
  • size_categories: 10K<n<100K
  • source_datasets: original
  • task_categories: token-classification
  • task_ids: named-entity-recognition
  • pretty_name: Peoples Daily NER

数据集结构

数据字段

  • id: string
  • tokens: sequence of string
  • ner_tags: sequence of class_label
    • names:
      • 0: O
      • 1: B-PER
      • 2: I-PER
      • 3: B-ORG
      • 4: I-ORG
      • 5: B-LOC
      • 6: I-LOC

数据分割

  • train:
    • num_bytes: 14972456
    • num_examples: 20865
  • validation:
    • num_bytes: 1676741
    • num_examples: 2319
  • test:
    • num_bytes: 3346975
    • num_examples: 4637

数据集大小

  • download_size: 8385672
  • dataset_size: 19996172
搜集汇总
数据集介绍
main_image_url
构建方式
人民日报命名实体识别数据集(People's Daily NER)的构建基于专家生成的标注,涵盖了从《人民日报》中提取的原始文本。该数据集通过专家的手工标注,确保了命名实体识别任务中标签的高质量。数据集的标注过程严格遵循命名实体识别的标准,包括人名(PER)、组织名(ORG)和地名(LOC)等类别,为中文自然语言处理领域提供了丰富的资源。
特点
该数据集的主要特点在于其高质量的专家标注和广泛的应用场景。数据集包含超过20,000条训练样本,涵盖了多种命名实体类型,如人名、组织名和地名,适用于多种自然语言处理任务。此外,数据集的单语特性使其特别适合中文命名实体识别的研究和应用,为中文语境下的实体识别提供了可靠的基准。
使用方法
人民日报命名实体识别数据集可用于训练和评估命名实体识别模型。用户可以通过加载数据集的训练、验证和测试分割,分别用于模型的训练、调优和性能评估。数据集的特征包括文本序列和对应的命名实体标签,用户可以根据这些特征构建和优化模型。该数据集适用于多种深度学习框架,如TensorFlow和PyTorch,为中文命名实体识别任务提供了标准化的数据支持。
背景与挑战
背景概述
人民日报命名实体识别数据集(People's Daily NER)是由专家生成的标注数据集,专门用于中文命名实体识别(Named Entity Recognition, NER)任务。该数据集的核心研究问题是如何在中文文本中准确识别并分类人名、组织名和地名等实体。该数据集的创建旨在为中文自然语言处理领域提供一个标准化的基准,以推动命名实体识别技术的发展。尽管具体创建时间和主要研究人员信息未明确,但其对中文NER领域的贡献不容忽视,尤其是在推动相关算法和模型的性能提升方面。
当前挑战
人民日报NER数据集在构建过程中面临多项挑战。首先,中文文本的复杂性使得实体边界识别尤为困难,尤其是嵌套实体和长距离依赖问题。其次,数据标注的一致性和准确性是另一大挑战,专家生成的标注虽然质量较高,但成本和时间投入较大。此外,数据集的规模和多样性也限制了其在不同领域和场景中的泛化能力。最后,数据集的许可信息不明确,可能影响其在学术和商业应用中的使用。
常用场景
经典使用场景
人民日报命名实体识别数据集(People's Daily NER)在自然语言处理领域中,主要用于中文命名实体识别(Named Entity Recognition, NER)任务。该数据集通过标注文本中的实体,如人名(PER)、组织名(ORG)和地名(LOC),为研究者提供了一个标准化的基准,用于训练和评估NER模型。其经典使用场景包括构建和优化中文NER模型,特别是在新闻文本中的实体识别任务,为信息抽取、知识图谱构建等应用提供了基础数据支持。
解决学术问题
人民日报NER数据集解决了中文命名实体识别领域中的关键学术问题,特别是在缺乏大规模标注数据的情况下,如何有效提升模型性能。通过提供高质量的标注数据,该数据集为研究者提供了一个标准化的测试平台,促进了中文NER技术的进步。其意义在于推动了中文自然语言处理领域的发展,尤其是在信息抽取、文本理解等方向上,为后续研究奠定了坚实的基础。
衍生相关工作
基于人民日报NER数据集,研究者们开发了多种中文NER模型,并在此基础上进行了深入的研究和扩展。例如,一些研究工作通过引入预训练语言模型(如BERT)来进一步提升NER性能,另一些工作则探索了多任务学习、跨语言迁移等方法,以应对不同领域和场景下的NER任务。这些衍生工作不仅丰富了中文NER的研究内容,也为实际应用提供了更多技术选择。
以上内容由遇见数据集搜集并总结生成

社区讨论

【我遇到的问题】 • 现象:该数据集的下载链接已失效 【相关信息】 • 可考虑访问这个链接获取类似文件~https://www.selectdataset.com/dataset/3688356173feccbcf1f1e490ddc6bc72

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作