five

ChineseNlpCorpus

收藏
github2020-03-27 更新2024-05-31 收录
下载链接:
https://github.com/fighting41love/ChineseNLPCorpus
下载链接
链接失效反馈
官方服务:
资源简介:
中文自然语言处理数据集,包含文本分类、情感/观点/评论倾向性分析、实体识别&词性标注、搜索匹配、推荐系统等多个领域的数据集,用于实验和研究。

The Chinese Natural Language Processing dataset encompasses a variety of datasets across multiple domains such as text classification, sentiment/opinion/comment analysis, entity recognition & part-of-speech tagging, search matching, and recommendation systems, intended for experimentation and research.
创建时间:
2019-06-29
原始信息汇总

数据集概述

文本分类

  • 今日头条中文新闻(短文本)分类数据集
    • 数据规模:38万条,分布于15个分类中。
    • 采集时间:2018年05月。
  • 清华新闻分类语料
    • 数据量:74万篇新闻文档(2.19 GB)
    • 可筛选类别:体育, 财经, 房产, 家居, 教育, 科技, 时尚, 时政, 游戏, 娱乐
  • 中科大新闻分类语料库

情感/观点/评论 倾向性分析

  • ChnSentiCorp_htl_all
    • 数据概览:7000多条酒店评论数据,5000多条正向评论,2000多条负向评论。
  • waimai_10k
    • 数据概览:某外卖平台收集的用户评价,正向4000条,负向约8000条。
  • online_shopping_10_cats
    • 数据概览:10个类别,共6万多条评论数据,正、负向评论各约3万条。
  • weibo_senti_100k
    • 数据概览:10万多条,带情感标注新浪微博,正负向评论约各5万条。
  • simplifyweibo_4_moods
    • 数据概览:36万多条,带情感标注新浪微博,包含4种情感。
  • dmsc_v2
    • 数据概览:28部电影,超70万用户,超200万条评分/评论数据。
  • yf_dianping
    • 数据概览:24万家餐馆,54万用户,440万条评论/评分数据。
  • yf_amazon
    • 数据概览:52万件商品,1100多个类目,142万用户,720万条评论/评分数据。

实体识别&词性标注

  • 微博实体识别
  • boson数据
    • 包含6种实体类型。
  • 人民日报数据集
    • 包含人名、地名、组织名三种实体类型。
  • MSRA微软亚洲研究院数据集
    • 包含5万多条中文命名实体识别标注数据(包括地点、机构、人物)。
  • SIGHAN Bakeoff 2005
    • 包含四个数据集,包含繁体中文和简体中文。

搜索匹配

  • OPPO手机搜索排序
    • 包含query-title语义匹配数据集。
  • 网页搜索结果评价(SogouE)
    • 包含用户查询及相关URL列表。

推荐系统

  • ez_douban
    • 数据概览:5万多部电影,2.8万用户,280万条评分数据。
  • dmsc_v2
    • 数据概览:28部电影,超70万用户,超200万条评分/评论数据。
  • yf_dianping
    • 数据概览:24万家餐馆,54万用户,440万条评论/评分数据。
  • yf_amazon
    • 数据概览:52万件商品,1100多个类目,142万用户,720万条评论/评分数据。

百科数据

  • 维基百科
    • 维基百科会定时将语料库打包发布。
  • 百度百科
    • 只能自己爬取。

指代消歧

  • CoNLL 2012

预训练

  • BERT
    • 模型下载:BERT-Base, Chinese。
  • ELMO
    • 预训练的模型。
  • 腾讯词向量
    • 包含800多万中文词汇,每个词对应一个200维的向量。
  • 上百种预训练中文词向量

中文完形填空数据集

  • 中文完形填空数据集

中华古诗词数据库

  • 中华古诗词数据库
    • 包含唐宋两朝近一万四千古诗人,接近5.5万首唐诗加26万宋诗。

保险行业语料库

  • 保险行业语料库

汉语拆字字典

  • 汉语拆字字典

中文数据集平台

  • 搜狗实验室
  • 中科大自然语言处理与信息检索共享平台
  • 中文语料小数据
    • 包含中文命名实体识别、中文关系识别、中文阅读理解等小量数据。
  • 维基百科数据集

NLP工具

  • THULAC
  • HanLP
  • 哈工大LTP
  • NLPIR
  • jieba
搜集汇总
数据集介绍
main_image_url
构建方式
ChineseNlpCorpus 数据集的构建基于多样化中文自然语言处理任务的需求,涵盖了文本分类、情感分析、实体识别、搜索匹配、推荐系统等多个领域。数据集通过整合不同来源的中文文本数据,如新闻、社交媒体评论、用户评分等,经过筛选、标注和预处理等步骤构建而成,旨在为中文自然语言处理研究提供丰富的实验材料。
特点
该数据集的特点在于数据类型丰富,覆盖了多个自然语言处理任务所需的不同类型的数据,如短文本新闻分类、情感倾向性标注的微博评论、电影评分数据等。此外,数据集规模较大,提供了充足的样本以供模型训练和评估,同时,部分数据集具有明确的情感标签或实体类型标注,有利于进行特定任务的研究。
使用方法
用户可根据具体的研究需求选择相应的子数据集。使用时,需先下载数据集并根据数据集的readme文件或相关文档了解数据格式和内容。对于分类任务,数据集通常包含训练集、验证集和测试集;对于情感分析,数据集通常包含带有情感标签的文本数据;对于实体识别,数据集则包含了已标注的实体类型信息。用户可以利用这些数据集进行模型的训练、验证和测试,以评估模型的性能。
背景与挑战
背景概述
ChineseNlpCorpus是一个集合了多种中文自然语言处理相关数据集的资源库,旨在为研究者提供丰富的实验材料。该数据集涵盖了文本分类、情感分析、实体识别、搜索匹配、推荐系统等多个NLP领域。其创建并非由单一机构或研究人员完成,而是由多个来源和项目共同贡献而成,如清华大学、中科大等学术机构。ChineseNlpCorpus的构建时间为不同数据集而异,最早的可追溯到2005年。该数据集对中文自然语言处理领域的研究具有深远的影响,为相关领域的模型训练和算法研究提供了宝贵的数据资源。
当前挑战
尽管ChineseNlpCorpus提供了丰富的数据资源,但其在构建和使用过程中也面临一些挑战。首先,不同数据集的质量参差不齐,存在数据标注不一致、数据分布不均衡等问题。其次,由于数据集来源多样,整合过程中可能存在格式兼容性和数据清洗的挑战。此外,随着NLP技术的不断发展,现有数据集可能无法满足新兴任务和研究方向的需求,如跨领域文本分类、细粒度情感分析等。
常用场景
经典使用场景
ChineseNlpCorpus 数据集在中文自然语言处理领域具有重要的应用价值,其经典使用场景主要涉及文本分类、情感/观点/评论倾向性分析、实体识别与词性标注、搜索匹配以及推荐系统等。例如,在文本分类任务中,研究者可以利用该数据集中的新闻分类语料,如清华新闻分类语料,进行模型训练,以实现对新闻文本的自动分类。
实际应用
在实际应用场景中,ChineseNlpCorpus 数据集的应用广泛,例如,在推荐系统中,可以利用ez_douban和dmsc_v2数据集进行电影推荐算法的训练,以提高推荐系统的准确性和用户体验。在商业领域,如电商平台,可以利用yf_amazon数据集中的用户评论和评分数据进行情感分析和产品推荐,从而提升用户满意度和平台销售业绩。
衍生相关工作
基于ChineseNlpCorpus 数据集,衍生了众多相关经典工作。例如,基于该数据集的预训练模型BERT-Base, Chinese,已经成为中文自然语言处理领域的重要基础模型,广泛应用于各种下游任务中,极大地推动了中文NLP技术的发展。此外,还有基于该数据集的情感分析、实体识别等方向的深入研究,产生了丰硕的研究成果。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作