chaotbot_corpus_Chinese
收藏github2019-11-15 更新2024-05-31 收录
下载链接:
https://github.com/fate233/chaotbot_corpus_Chinese
下载链接
链接失效反馈官方服务:
资源简介:
该库是对目前市面上已有的开源中文聊天语料的搜集和系统化整理工作,包括chatterbot、豆瓣多轮、PTT八卦语料、青云语料、电视剧对白语料、贴吧论坛回帖语料、微博语料和小黄鸡语料等8个公开闲聊常用语料和短信,白鹭时代问答等语料。并对这些语料进行了统一化规整和处理,以便直接使用。
This repository represents a comprehensive collection and systematic organization of existing open-source Chinese conversational corpora available on the market. It encompasses eight commonly used public chat corpora, including chatterbot, Douban multi-turn dialogues, PTT gossip corpus, Qingyun corpus, TV drama dialogue corpus, forum reply corpus from Tieba, Weibo corpus, and Xiaohuangji corpus, as well as SMS and White Egret Era Q&A corpora. These corpora have been uniformly standardized and processed to facilitate direct utilization.
创建时间:
2018-11-04
原始信息汇总
数据集概述
数据集内容
该数据集是对市面上已有的开源中文聊天语料的搜集和系统化整理,包括以下8个语料:
- chatterbot
- 豆瓣多轮
- PTT八卦语料
- 青云语料
- 电视剧对白语料
- 贴吧论坛回帖语料
- 微博语料
- 小黄鸡语料
数据处理
数据处理过程包括:
- 按照原格式提取各个来源的语料
- 进行繁体字转换
- 统一变成一轮一轮的对话
数据来源及说明
| 语料名称 | 语料数量 | 语料来源说明 | 语料特点 | 是否已分词 |
|---|---|---|---|---|
| chatterbot | 560 | 开源项目 | 按类型分类,质量较高 | 否 |
| 豆瓣多轮 | 352W | 来自北航和微软的paper, 开源项目 | 噪音相对较少,原本是多轮 | 是 |
| PTT八卦语料 | 40W | 开源项目,台湾PTT论坛八卦版 | 繁体,语料较生活化,有噪音 | 否 |
| 青云语料 | 10W | 某聊天机器人交流群 | 相对不错,生活化 | 否 |
| 电视剧对白语料 | 274W | 开源项目,来自爬取的电影和美剧的字幕 | 有一些噪音,对白不一定是严谨的对话 | 否 |
| 贴吧论坛回帖语料 | 232W | 偶然找到的 | 多轮,有噪音 | 否 |
| 微博语料 | 443W | 来自华为的paper | 仍有一些噪音 | 否 |
| 小黄鸡语料 | 45W | 原人人网项目语料 | 有一些不雅对话,少量噪音 | 否 |
使用方法
- 下载语料并解压到指定目录
- 执行
python main.py或python3 main.py命令进行处理
生成结果
- 每个来源的语料生成独立的*.tsv文件
- 结果存放于
clean_chat_corpus文件夹下 - 格式为
query answer
搜集汇总
数据集介绍

构建方式
chaotbot_corpus_Chinese数据集的构建,主要涉及对市面上开源中文聊天语料的搜集与系统化整理。该过程包括语料的提取、繁体字转换以及统一对话格式处理,旨在实现语料的直接粗略使用。
特点
该数据集的特点在于搜集了包括chatterbot、豆瓣多轮、PTT八卦语料等在内的多个开源闲聊常用语料和短信,总量丰富。数据集在处理上注重质量,减少了噪音,同时提供了统一格式的tsv文件,便于研究与应用。
使用方法
使用该数据集,用户需先下载语料,并将其放置于指定目录下。通过执行main.py脚本,用户即可生成每个来源的语料对应的独立tsv文件。该数据集的使用不受特定平台限制,用户可根据自身需求自主应用语料进行研究和开发。
背景与挑战
背景概述
chaotbot_corpus_Chinese数据集,是对开源中文聊天语料的搜集和系统化整理。该数据集的创建旨在为聊天机器人研究提供丰富的语料资源,其搜集工作涵盖了多个开源项目及不同类型的社交平台,如豆瓣、PTT论坛、贴吧、微博等。自整理以来,该数据集已成为中文自然语言处理领域,特别是聊天机器人开发领域的重要资源,为相关研究人员提供了便捷的语料获取途径,对推动中文聊天机器人技术的发展起到了积极作用。
当前挑战
尽管chaotbot_corpus_Chinese数据集为研究提供了便利,但在使用过程中也存在一些挑战。首先,数据集中的语料质量参差不齐,存在一定的噪音,这对模型的训练和评估提出了挑战。其次,数据集在构建过程中,面临着繁体字转换和格式统一等处理问题,需要研发有效的处理流程以确保数据的可用性。此外,由于语料来源的多样性和语境的复杂性,数据集在解决具体领域问题,如情感分析、对话生成等方面仍存在一定的局限性。
常用场景
经典使用场景
chaotbot_corpus_Chinese数据集作为自然语言处理领域的重要资源,其经典使用场景主要在于构建和训练中文聊天机器人。该数据集整合了多个来源的聊天语料,提供了丰富的对话样本,有助于提升机器人在语境理解、对话生成等方面的能力。
解决学术问题
该数据集有效解决了中文聊天机器人研究领域中数据稀缺、质量参差不齐的问题。通过系统的搜集和整理,它为学术研究提供了高质量、多样化的对话数据,极大地促进了中文对话系统的研究进展,对提升机器人的语言理解与生成技术具有显著意义。
衍生相关工作
基于该数据集,研究者们衍生出了一系列相关工作,包括但不限于对话系统的评价标准制定、情感分析模型的构建、对话生成策略的研究等。这些工作进一步拓展了中文自然语言处理领域的研究边界,推动了相关技术的成熟与应用。
以上内容由遇见数据集搜集并总结生成



