five

ChineseNlpCorpus

收藏
github2019-11-27 更新2024-05-31 收录
下载链接:
https://github.com/jialei711/ChineseNLPCorpus
下载链接
链接失效反馈
官方服务:
资源简介:
中文自然语言处理数据集,包含文本分类、情感分析、实体识别等多个领域的数据集,用于实验和研究。

A Chinese natural language processing dataset encompassing various domains such as text classification, sentiment analysis, and entity recognition, utilized for experimentation and research.
创建时间:
2019-06-24
原始信息汇总

数据集概述

文本分类

  • 今日头条中文新闻(短文本)分类数据集

    • 数据规模:共38万条,分布于15个分类中。
    • 采集时间:2018年05月。
    • 数据分割:0.7 0.15 0.15。
  • 清华新闻分类语料

    • 数据来源:根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成。
    • 数据量:74万篇新闻文档(2.19 GB)。
    • 可选类别:体育, 财经, 房产, 家居, 教育, 科技, 时尚, 时政, 游戏, 娱乐。
  • 中科大新闻分类语料库

    • 数据来源:http://www.nlpir.org/?action-viewnews-itemid-145

情感/观点/评论 倾向性分析

数据集 数据概览
ChnSentiCorp_htl_all 7000 多条酒店评论数据,5000 多条正向评论,2000 多条负向评论
waimai_10k 某外卖平台收集的用户评价,正向 4000 条,负向 约 8000 条
online_shopping_10_cats 10 个类别,共 6 万多条评论数据,正、负向评论各约 3 万条, 包括书籍、平板、手机、水果、洗发水、热水器、蒙牛、衣服、计算机、酒店
weibo_senti_100k 10 万多条,带情感标注 新浪微博,正负向评论约各 5 万条
simplifyweibo_4_moods 36 万多条,带情感标注 新浪微博,包含 4 种情感, 其中喜悦约 20 万条,愤怒、厌恶、低落各约 5 万条
dmsc_v2 28 部电影,超 70 万 用户,超 200 万条 评分/评论 数据
yf_dianping 24 万家餐馆,54 万用户,440 万条评论/评分数据
yf_amazon 52 万件商品,1100 多个类目,142 万用户,720 万条评论/评分数据

实体识别&词性标注

  • 微博实体识别

    • 数据来源:https://github.com/hltcoe/golden-horse
  • boson数据

    • 包含6种实体类型。
    • 数据来源:https://github.com/InsaneLife/ChineseNLPCorpus/tree/master/NER/boson
  • 人民日报数据集

    • 实体类型:人名、地名、组织名。
    • 1998年数据:https://github.com/InsaneLife/ChineseNLPCorpus/tree/master/NER/renMinRiBao
    • 2004年数据:https://pan.baidu.com/s/1LDwQjoj7qc-HT9qwhJ3rcA password: 1fa3
  • MSRA微软亚洲研究院数据集

    • 包含5万多条中文命名实体识别标注数据(包括地点、机构、人物)。
    • 数据来源:https://github.com/InsaneLife/ChineseNLPCorpus/tree/master/NER/MSRA

搜索匹配

  • OPPO手机搜索排序
    • 数据类型:query-title语义匹配数据集。
    • 数据来源:https://pan.baidu.com/s/1Hg2Hubsn3GEuu4gubbHCzw 提取码:7p3n

推荐系统

数据集 数据概览
ez_douban 5 万多部电影(3 万多有电影名称,2 万多没有电影名称),2.8 万 用户,280 万条评分数据
dmsc_v2 28 部电影,超 70 万 用户,超 200 万条 评分/评论 数据
yf_dianping 24 万家餐馆,54 万用户,440 万条评论/评分数据
yf_amazon 52 万件商品,1100 多个类目,142 万用户,720 万条评论/评分数据

百科数据

  • 维基百科

    • 数据来源:https://dumps.wikimedia.org/zhwiki/
  • 百度百科

    • 数据来源:https://pan.baidu.com/share/init?surl=i3wvfil 提取码 neqs

指代消歧

  • CoNLL 2012
    • 数据来源:http://conll.cemantix.org/2012/data.html

预训练

  • BERT

  • ELMO

    • 预训练的模型:https://allennlp.org/elmo
  • 腾讯词向量

    • 数据集包含800多万中文词汇,每个词对应一个200维的向量。
    • 下载地址:https://ai.tencent.com/ailab/nlp/embedding.html
  • 上百种预训练中文词向量

    • 数据来源:https://github.com/Embedding/Chinese-Word-Vectors

中文完形填空数据集

  • 数据来源:https://github.com/ymcui/Chinese-RC-Dataset

中华古诗词数据库

  • 数据集包含唐宋两朝近一万四千古诗人, 接近5.5万首唐诗加26万宋诗. 两宋时期1564位词人,21050首词。
  • 数据来源:https://github.com/chinese-poetry/chinese-poetry

保险行业语料库

  • 数据来源:https://github.com/Samurais/insuranceqa-corpus-zh

汉语拆字字典

  • 数据来源:https://github.com/kfcd/chaizi

中文数据集平台

  • 搜狗实验室

    • 数据来源:https://www.sogou.com/labs/resource/list_pingce.php
  • 中科大自然语言处理与信息检索共享平台

    • 数据来源:http://www.nlpir.org/?action-category-catid-28
  • 中文语料小数据

    • 数据来源:https://github.com/crownpku/Small-Chinese-Corpus
  • 维基百科数据集

    • 数据来源:https://dumps.wikimedia.org/

NLP工具

  • THULAC

    • 数据来源:https://github.com/thunlp/THULAC
  • HanLP

    • 数据来源:https://github.com/hankcs/HanLP
  • 哈工大LTP

    • 数据来源:https://github.com/HIT-SCIR/ltp
  • NLPIR

    • 数据来源:https://github.com/NLPIR-team/NLPIR
  • jieba

    • 数据来源:https://github.com/yanyiwu/cppjieba
搜集汇总
数据集介绍
main_image_url
构建方式
ChineseNlpCorpus 数据集的构建汇集了多样化的中文自然语言处理相关材料,涵盖了文本分类、情感分析、实体识别、搜索匹配、推荐系统等多个领域。具体构建方式包括对网络资源的爬取、已有数据集的整合以及用户生成内容的数据收集,旨在为研究者提供全面的实验素材。
使用方法
用户可通过数据集提供的链接直接访问并下载所需数据。针对不同类型的数据集,使用方法略有不同,一般需要用户自行根据数据集的特性和需求进行预处理,包括数据清洗、格式转换等步骤,以适应特定的研究场景和模型需求。
背景与挑战
背景概述
ChineseNlpCorpus是一个旨在促进中文自然语言处理研究的综合数据集,包含了文本分类、情感分析、实体识别、搜索匹配、推荐系统等多种类型的数据资源。该数据集的创建并非出自单一机构或研究人员,而是由多个来源和项目共同贡献而成,其研究背景主要来源于中文自然语言处理领域的需求,旨在为研究者提供实验材料。自2018年起,陆续有数据集被整合进入,其中包含了今日头条中文新闻分类数据集、清华大学新闻分类语料、中科大新闻分类语料库等,对推动中文文本分类研究具有重要价值。
当前挑战
该数据集在构建和应用过程中面临的挑战主要包括:数据标注的一致性和准确性,由于涉及多个数据来源,标注标准可能存在差异;数据隐私和版权问题,尤其是在处理用户生成内容如评论和微博数据时;此外,随着中文自然语言处理领域研究的不断深入,现有数据集在规模和多样性方面可能无法满足日益增长的研究需求。具体到各个领域问题,例如在情感分析中,如何准确捕捉和表达中文语境下的细微情感差异仍是一大挑战。
常用场景
经典使用场景
ChineseNlpCorpus数据集是中文自然语言处理领域的重要资源库,其经典使用场景主要集中于文本分类、情感/观点/评论倾向性分析、实体识别与词性标注等任务。在文本分类方面,该数据集支持新闻分类,如头条新闻分类数据集,可用于训练和评估分类模型的性能。情感分析方面,数据集中的酒店评论、外卖平台评价等,为研究者提供了丰富的情感标注文本,有助于模型的情感识别与预测。
解决学术问题
该数据集解决了中文自然语言处理中多项关键学术研究问题,包括但不限于文本的准确分类、情感倾向的有效识别、命名实体的精准标注等。这些问题对于提升中文信息处理技术的准确性和实用性至关重要,为学术研究提供了可靠的数据基础,推动了相关领域的学术进步和技术发展。
实际应用
在实际应用场景中,ChineseNlpCorpus数据集的应用广泛,其支持的任务可直接应用于新闻推荐、情感分析、搜索引擎、推荐系统等多个领域。例如,在推荐系统中,数据集中的电影评分和评论数据可帮助构建更精准的推荐算法,提升用户体验。
数据集最近研究
最新研究方向
近期,以ChineseNlpCorpus数据集为基础的研究多聚焦于文本分类、情感分析、实体识别、推荐系统等领域。文本分类方面,研究者探索深度学习模型在细粒度分类任务上的应用;情感分析领域,多模态情感识别成为研究热点,模型趋向于能够处理文本与图像等多种数据;实体识别的研究则关注于跨领域实体识别及实体关系抽取。在推荐系统研究中,基于用户行为的序列模型和图神经网络模型的应用日益增多,旨在提高推荐的个性化和准确性。这些研究对于提升中文自然语言处理技术的实际应用能力具有重要影响和意义。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作