sina-news, guokr, conv-corpus-lines, sms-lines, wechat-content, news.utf8.dbc.data, wiki_chs.strip.data

github2018-05-14 更新2024-05-31 收录

下载链接：

https://github.com/moriW/corpus

下载链接

链接失效反馈

官方服务：

资源简介：

新浪国内新闻语料(2017/9/6日更新)、果壳(2017/9/5日更新)、对话语料库(两个合并在了一起之后一个完整的对话为一行)、NUS SMS Corpus(繁中转换成了简中)、微信公众号文章(一篇文章一行)、搜狗实验室新闻(一行一条新闻)、中文WIKI(一行是一条wiki词条)

Sina Domestic News Corpus (updated on 2017/9/6), Guokr (updated on 2017/9/5), Dialogue Corpus (merged into one complete dialogue per line), NUS SMS Corpus (traditional Chinese converted to simplified Chinese), WeChat Official Account Articles (one article per line), Sogou Lab News (one news item per line), Chinese WIKI (one WIKI entry per line)

创建时间：

2017-09-06

原始信息汇总

数据集概述

1. sina-news 新浪国内新闻语料

更新日期: 2017/9/6
获取方式: 自爬

2. guokr 果壳语料

更新日期: 2017/9/5
获取方式: 自爬

3. conv-corpus-lines 对话语料

来源: dgk_shooter_min.conv.zip 和小黄鸡
处理方式: 两个合并在了一起，一个完整的对话为一行

4. sms-lines NUS SMS Corpus

来源: The NUS SMS Corpus
处理方式: 繁中转换成了简中

5. wechat-content 微信公众号内容

来源: weixin_public_corpus
处理方式: 一篇文章一行

6. news.utf8.dbc.data 搜狗实验室新闻

来源: 搜狗实验室新闻
处理方式: 已经越过坑，一行一条新闻

7. wiki_chs.strip.data 中文WIKI

来源: 中文WIKI
处理方式: 已经处理过，一行是一条wiki词条

版权声明

版权归属: 所有语料版权为原作者所有

搜集汇总

数据集介绍

构建方式

sina-news、guokr等数据集均通过主动网络爬虫技术进行构建，其中sina-news为新浪国内新闻语料，guokr为果壳网内容。conv-corpus-lines数据集由两个对话集合合并而成，每行代表一个完整的对话。sms-lines是基于NUS SMS Corpus构建，对繁体中文进行了简体中文转换。wechat-content数据集则处理为每篇文章一行。news.utf8.dbc.data源自搜狗实验室新闻，每行一条新闻。wiki_chs.strip.data数据集由中文WIKI词条构成，每行代表一条经过处理的词条。

使用方法

用户在使用这些数据集时，可以直接通过GitHub提供的链接进行下载。下载后，sina-news、guokr等数据集可直接用于文本分析、自然语言处理等研究。conv-corpus-lines、sms-lines和wechat-content等数据集在经过适当处理后，能够有效支持对话系统训练、情感分析等任务。而对于news.utf8.dbc.data和wiki_chs.strip.data，用户需根据自身需求对数据进行进一步的预处理。

背景与挑战

背景概述

sina-news、guokr等数据集均是在2017年左右创建的，主要涉及新闻、社交网络和论坛等文本数据。这些数据集的创建旨在为自然语言处理、文本挖掘和机器学习等领域提供丰富的文本资源。创建者包括个人研究者和机构，如新浪、果壳、搜狗实验室等，他们的工作为相关领域的研究提供了坚实基础，推动了文本分析技术的发展。

当前挑战

这些数据集在构建和应用过程中面临着诸多挑战。首先，数据集的版权归属原作者所有，合法使用和分享数据集需要严格遵守版权规定。其次，由于数据集的构建时间较早，可能存在数据时效性问题。此外，数据集的多样性和代表性也是当前面临的重要挑战，这对于提高模型在不同领域的泛化能力至关重要。

常用场景

经典使用场景

在自然语言处理领域，sina-news新浪新闻语料库等数据集的典型应用场景是作为训练和测试文本分类、情感分析以及信息抽取等模型的基准数据。这些数据集覆盖了多样化的内容和格式，为模型提供了丰富的学习材料，从而有助于提高模型的泛化能力。

解决学术问题

该数据集解决了文本数据获取困难、标注质量不一等学术研究问题，为研究者提供了高质量、结构化的文本数据资源，极大地推动了自然语言处理领域的发展，特别是在模型训练和评估的标准化方面。

实际应用

在实际应用中，这些数据集被广泛运用于构建智能客服系统、内容推荐系统以及舆情分析工具等，它们为这些系统的文本理解和生成能力提供了重要支撑，提升了用户体验和服务质量。

数据集最近研究