中文聊天语料库|自然语言处理数据集|对话系统数据集
收藏数据集概述
数据集内容
该数据集是对市面上已有的开源中文聊天语料进行的搜集和系统化整理,包括以下8个语料:
- chatterbot
- 豆瓣多轮
- PTT八卦语料
- 青云语料
- 电视剧对白语料
- 贴吧论坛回帖语料
- 微博语料
- 小黄鸡语料
数据处理
数据处理过程包括:
- 按照原格式提取各个来源的语料
- 进行繁体字转换
- 统一变成一轮一轮的对话
数据来源及说明
语料名称 | 语料数量 | 语料来源说明 | 语料特点 | 是否已分词 |
---|---|---|---|---|
chatterbot | 560 | 开源项目 | 按类型分类,质量较高 | 否 |
豆瓣多轮 | 352W | 来自北航和微软的paper, 开源项目 | 噪音相对较少,原本是多轮(平均7.6轮) | 是 |
PTT八卦语料 | 40W | 开源项目,台湾PTT论坛八卦版 | 繁体,语料较生活化,有噪音 | 否 |
青云语料 | 10W | 某聊天机器人交流群 | 相对不错,生活化 | 否 |
电视剧对白语料 | 274W | 开源项目,来自爬取的电影和美剧的字幕 | 有一些噪音,对白不一定是严谨的对话,原本是多轮(平均5.3轮) | 否 |
贴吧论坛回帖语料 | 232W | 偶然找到的 | 多轮,有噪音 | 否 |
微博语料 | 443W | 来自华为的paper | 仍有一些噪音 | 否 |
小黄鸡语料 | 45W | 原人人网项目语料 | 有一些不雅对话,少量噪音 | 否 |
使用方法
- 下载语料:https://pan.baidu.com/s/1szmNZQrwh9y994uO8DFL_A 提取码:f2ex
- 将解压后的
raw_chat_corpus
文件夹放到当前目录下 - 执行命令:
python main.py
或python3 main.py
生成结果
- 每个来源的语料生成一个独立的
.tsv
文件 - 结果放在
clean_chat_corpus
文件夹下 - 格式为:
query answer

中国农村金融统计数据
该数据集包含了中国农村金融的统计信息,涵盖了农村金融机构的数量、贷款余额、存款余额、金融服务覆盖率等关键指标。数据按年度和地区分类,提供了详细的农村金融发展状况。
www.pbc.gov.cn 收录
网易云音乐数据集
该数据集包含了网易云音乐平台上的歌手信息、歌曲信息和歌单信息,数据通过爬虫技术获取并整理成CSV格式,用于音乐数据挖掘和推荐系统构建。
github 收录
中国1km分辨率逐月降水量数据集(1901-2023)
该数据集为中国逐月降水量数据,空间分辨率为0.0083333°(约1km),时间为1901.1-2023.12。数据格式为NETCDF,即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集,通过Delta空间降尺度方案在中国降尺度生成的。并且,使用496个独立气象观测点数据进行验证,验证结果可信。本数据集包含的地理空间范围是全国主要陆地(包含港澳台地区),不含南海岛礁等区域。为了便于存储,数据均为int16型存于nc文件中,降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理,Matlab发布了读入与存储nc文件的函数,读取函数为ncread,切换到nc文件存储文件夹,语句表达为:ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent]),其中XXX.nc为文件名,为字符串需要’’;var是从XXX.nc中读取的变量名,为字符串需要’’;i、j、t分别为读取数据的起始行、列、时间,leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样,研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令,可查看。数据坐标系统建议使用WGS84。
国家青藏高原科学数据中心 收录
Nexdata/chinese_dialect
该数据集包含25,000小时的中文方言语音数据,收集自多个方言区域的本地方言使用者,涵盖闽南语、粤语、四川话、河南话、东北话、上海话、维吾尔语和藏语等。数据格式为16kHz、16bit、未压缩的wav文件,单声道。句子准确率超过95%。数据集支持的任务包括自动语音识别(ASR)和音频说话人识别。
hugging_face 收录
LinkedIn Salary Insights Dataset
LinkedIn Salary Insights Dataset 提供了全球范围内的薪资数据,包括不同职位、行业、地理位置和经验水平的薪资信息。该数据集旨在帮助用户了解薪资趋势和市场行情,支持职业规划和薪资谈判。
www.linkedin.com 收录