five

ChineseNlpCorpus

收藏
github2019-07-18 更新2024-05-31 收录
下载链接:
https://github.com/iOSKesai/ChineseNLPCorpus
下载链接
链接失效反馈
官方服务:
资源简介:
中文自然语言处理数据集,包含文本分类、情感/观点/评论倾向性分析、实体识别&词性标注、搜索匹配、推荐系统等多个领域的数据集。

A Chinese natural language processing dataset encompassing various domains such as text classification, sentiment/opinion/comment analysis, entity recognition & part-of-speech tagging, search matching, and recommendation systems.
创建时间:
2019-07-18
原始信息汇总

ChineseNlpCorpus

中文自然语言处理数据集,用于实验和研究。

文本分类

新闻分类

  • 今日头条中文新闻(短文本)分类数据集
    • 数据规模:38万条,分布于15个分类中。
    • 采集时间:2018年05月。
  • 清华新闻分类语料
    • 数据量:74万篇新闻文档(2.19 GB)
    • 可筛选类别:体育, 财经, 房产, 家居, 教育, 科技, 时尚, 时政, 游戏, 娱乐
  • 中科大新闻分类语料库

情感/观点/评论 倾向性分析

数据集 数据概览
ChnSentiCorp_htl_all 7000 多条酒店评论数据,5000 多条正向评论,2000 多条负向评论
waimai_10k 某外卖平台收集的用户评价,正向 4000 条,负向 约 8000 条
online_shopping_10_cats 10 个类别,共 6 万多条评论数据,正、负向评论各约 3 万条, 包括书籍、平板、手机、水果、洗发水、热水器、蒙牛、衣服、计算机、酒店
weibo_senti_100k 10 万多条,带情感标注 新浪微博,正负向评论约各 5 万条
simplifyweibo_4_moods 36 万多条,带情感标注 新浪微博,包含 4 种情感, 其中喜悦约 20 万条,愤怒、厌恶、低落各约 5 万条
dmsc_v2 28 部电影,超 70 万 用户,超 200 万条 评分/评论 数据
yf_dianping 24 万家餐馆,54 万用户,440 万条评论/评分数据
yf_amazon 52 万件商品,1100 多个类目,142 万用户,720 万条评论/评分数据

实体识别&词性标注

  • 微博实体识别
  • boson数据
    • 包含6种实体类型。
  • 人民日报数据集
    • 人名、地名、组织名三种实体类型
  • MSRA微软亚洲研究院数据集
    • 5 万多条中文命名实体识别标注数据(包括地点、机构、人物)
  • SIGHAN Bakeoff 2005
    • 包含繁体中文和简体中文分词数据。

搜索匹配

  • OPPO手机搜索排序
  • 网页搜索结果评价(SogouE)

推荐系统

数据集 数据概览
ez_douban 5 万多部电影,2.8 万 用户,280 万条评分数据
dmsc_v2 28 部电影,超 70 万 用户,超 200 万条 评分/评论 数据
yf_dianping 24 万家餐馆,54 万用户,440 万条评论/评分数据
yf_amazon 52 万件商品,1100 多个类目,142 万用户,720 万条评论/评分数据

百科数据

  • 维基百科
  • 百度百科

指代消歧

  • CoNLL 2012

预训练

  • BERT
  • ELMO
  • 腾讯词向量
    • 包含800多万中文词汇,每个词对应一个200维的向量。
  • 上百种预训练中文词向量

中文完形填空数据集

中华古诗词数据库

  • 包含近一万四千古诗人, 接近5.5万首唐诗加26万宋诗. 两宋时期1564位词人,21050首词。

保险行业语料库

汉语拆字字典

中文数据集平台

  • 搜狗实验室
  • 中科大自然语言处理与信息检索共享平台
  • 中文语料小数据
  • 维基百科数据集
搜集汇总
数据集介绍
main_image_url
构建方式
ChineseNlpCorpus 数据集的构建主要基于网络爬虫技术,从多个来源如新闻网站、社交媒体、电子商务平台等收集大量中文文本数据。这些数据经过预处理,包括清洗、分类、标注等步骤,以满足不同的NLP任务需求,如文本分类、情感分析、实体识别等。
使用方法
用户可以根据具体的研究或开发需求,选择相应的数据集部分进行下载和使用。数据集的使用通常需要先进行数据解压,然后根据任务类型,采用适当的NLP工具和技术进行数据分析和模型训练。对于不同的NLP任务,可能需要不同的数据处理和模型构建方法。
背景与挑战
背景概述
ChineseNlpCorpus是一个旨在促进中文自然语言处理研究的数据集集合。该数据集由多位研究者和机构共同创建,并在2018年05月前不断更新与完善。它包含了新闻分类、情感分析、实体识别、搜索匹配和推荐系统等多个领域的子数据集,是中文自然语言处理领域的一个重要资源。特别是其中的今日头条中文新闻分类数据集和清华新闻分类语料,对推动文本分类研究具有重要意义。此外,该数据集还包含了大量的情感分析评论数据,如ChnSentiCorp_htl_all和weibo_senti_100k,为情感倾向性分析提供了丰富的语料。在实体识别与词性标注方面,ChineseNlpCorpus汇集了包括人民日报数据集、MSRA微软亚洲研究院数据集在内的多种资源,为相关领域的研究提供了支持。
当前挑战
尽管ChineseNlpCorpus为中文自然语言处理领域提供了丰富的数据资源,但在使用过程中也存在一些挑战。首先是数据集的质量控制,因为数据来源于不同的渠道和时期,需要确保其一致性和准确性。其次是数据标注的准确性,特别是在情感分析和实体识别等领域,标注错误可能会对模型训练造成负面影响。此外,随着自然语言处理技术的快速发展,如何整合新出现的标注体系和数据类型,以及如何处理不断增长的数据量,也是该数据集面临的挑战。
常用场景
经典使用场景
ChineseNlpCorpus数据集在文本分类领域尤为常见,其包含了今日头条中文新闻分类数据集、清华新闻分类语料以及中科大新闻分类语料库等,为研究者和开发者提供了丰富的文本资源,助力模型训练与算法验证。
解决学术问题
该数据集解决了中文文本分类中的数据稀缺问题,为学术研究提供了强有力的数据支撑,推动了中文自然语言处理技术的发展。此外,在情感分析、实体识别、搜索匹配及推荐系统等领域,它也为解决标注数据不足、模型泛化能力差等问题提供了帮助。
实际应用
在实际应用中,ChineseNlpCorpus数据集被广泛应用于新闻网站的内容分类、电商平台的商品评论情感分析、搜索引擎的搜索结果排序等场景,显著提升了相关应用的智能化水平和服务质量。
数据集最近研究
最新研究方向
近期,基于ChineseNlpCorpus数据集的研究主要聚焦于文本分类、情感分析、实体识别、搜索匹配以及推荐系统等方向。在文本分类领域,学者们探索了深度学习模型在新闻分类中的应用,以提高分类准确率和效率。情感分析方面,研究者利用该数据集进行情感倾向性分析,以期更精准地理解用户评论的情感色彩。实体识别的研究则致力于提高对中文文本中人名、地名、组织名的识别准确度。搜索匹配和推荐系统领域的研究则着重于提高检索质量和推荐算法的个性化水平,以增强用户体验。这些研究不仅推动了中文自然语言处理技术的发展,也为相关行业提供了有效的数据支持和应用案例。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作