nlp-datasets

github2024-05-24 更新2024-05-31 收录

下载链接：

https://github.com/niderhoff/nlp-datasets

下载链接

链接失效反馈

官方服务：

资源简介：

包含用于自然语言处理的免费/公共领域文本数据集的字母顺序列表。大部分数据为原始非结构化文本数据，如果需要注释语料库或树库，请参考底部来源。

An alphabetical list of free/public domain text datasets for natural language processing is included. Most of the data consists of raw unstructured text. For annotated corpora or treebanks, please refer to the sources listed at the bottom.

创建时间：

2016-03-24

原始信息汇总

数据集概述

自然语言处理（NLP）相关数据集列表

Apache Software Foundation Public Mail Archives
- 描述：所有公开的Apache软件基金会邮件存档，截至2011年7月11日。
- 大小：200 GB
Blog Authorship Corpus
- 描述：2004年8月从blogger.com收集的19,320名博主的帖子。
- 大小：298 MB
Amazon Fine Food Reviews [Kaggle]
- 描述：截至2012年10月的568,454条亚马逊用户留下的食品评论。
- 大小：240 MB
Amazon Reviews
- 描述：斯坦福大学收集的3500万条亚马逊评论。
- 大小：11 GB
ArXiv
- 描述：arXiv上的所有论文全文及源文件。
- 大小：270 GB（全文）+ 190 GB（源文件）
CLiPS Stylometry Investigation (CSI) Corpus
- 描述：每年扩充的学生文本，包括论文和评论，主要用于文体学研究。
- 大小：需请求
ClueWeb09 FACC
- 描述：ClueWeb09带Freebase注释。
- 大小：72 GB
ClueWeb11 FACC
- 描述：ClueWeb11带Freebase注释。
- 大小：92 GB
Common Crawl Corpus
- 描述：超过50亿个网页的网络爬虫数据。
- 大小：541 TB
Cornell Movie Dialog Corpus
- 描述：从原始电影剧本中提取的大量元数据丰富的虚构对话集合。
- 大小：9.5 MB
Crosswikis
- 描述：英语短语与相关维基百科文章的数据库。
- 大小：11 GB
DBpedia
- 描述：从维基百科提取的结构化信息。
- 大小：17 GB
Death Row
- 描述：自1984年以来被执行的每个囚犯的最后遗言。
- 大小：HTML表格
Diplomacy
- 描述：来自12场外交游戏的17,000条对话消息，注释了真实性。
- 大小：3 MB
Elsevier OA CC-BY Corpus
- 描述：40,001篇开放获取的完整科学文章，包含完整元数据。
- 大小：963 MB
Enron Email Data
- 描述：包含1,227,255封电子邮件和493,384个附件，涵盖151个保管人。
- 大小：210 GB
Event Registry
- 描述：提供实时访问来自全球100,000个新闻出版商的新闻文章的免费工具。
- 大小：查询工具
Examiner.com - Spam Clickbait News Headlines [Kaggle]
- 描述：2010年至2015年间由现已关闭的点击诱饵网站The Examiner发布的300万条新闻标题。
- 大小：200 MB
Federal Contracts from the Federal Procurement Data Center (USASpending.gov)
- 描述：联邦采购数据中心在USASpending.gov上找到的所有联邦合同的数据转储。
- 大小：180 GB
Flickr Personal Taxonomies
- 描述：个人标签的树形数据集。
- 大小：40 MB
Freebase Data Dump
- 描述：Freebase中所有当前事实和断言的数据转储。
- 大小：26 GB
Freebase Simple Topic Dump
- 描述：Freebase中每个主题的基本识别事实的数据转储。
- 大小：5 GB
Freebase Quad Dump
- 描述：Freebase中所有当前事实和断言的数据转储。
- 大小：35 GB
GigaOM Wordpress Challenge [Kaggle]
- 描述：博客帖子、元数据、用户点赞。
- 大小：1.5 GB
Google Books Ngrams
- 描述：在亚马逊S3上也可用的hadoop格式。
- 大小：2.2 TB
Google Web 5gram
- 描述：包含英语单词n-grams及其观察频率计数。
- 大小：24 GB
Gutenberg Ebook List
- 描述：电子书的注释列表。
- 大小：2 MB
Gutenberg Standardized Corpus
- 描述：标准化的Project Gutenberg语料库，包含55,905本书。
- 大小：3GB（计数）+ 18GB（标记）
Hansards text chunks of Canadian Parliament
- 描述：加拿大第36届议会的官方记录（Hansards）中的130万对对齐文本块。
- 大小：82 MB
Harvard Library
- 描述：哈佛图书馆持有的超过1200万条书目记录，包括书籍、期刊、电子资源、手稿、档案材料、乐谱、音频、视频等。
- 大小：4 GB
Hate speech identification
- 描述：贡献者查看简短文本并确定它是否包含仇恨言论，是否具有攻击性但没有仇恨言论，或者根本不具有攻击性。包含近15,000行，每个文本字符串有三个贡献者判断。
- 大小：3 MB
Hillary Clinton Emails [Kaggle]
- 描述：克林顿的大约7,000页经过大量编辑的电子邮件。
- 大小：12 MB
Historical Newspapers Yearly N-grams and Entities Dataset
- 描述：英国报纸档案库中1,000,000个最频繁的1-, 2-, 和 3-grams的使用情况的年

搜集汇总

数据集介绍

构建方式

nlp-datasets数据集的构建方式主要依赖于广泛收集和整理公开可用的文本数据。这些数据来源于多种渠道，包括但不限于Apache软件基金会的公开邮件档案、博客文章、亚马逊食品评论、学术论文、新闻文章、社交媒体帖子等。每个数据集都经过精心挑选和处理，以确保其质量和适用性。此外，部分数据集还通过众包平台进行标注和验证，以提高数据的准确性和可靠性。

特点

nlp-datasets数据集的特点在于其多样性和广泛性。该数据集涵盖了从技术讨论到日常生活、从学术研究到商业评论的广泛领域，为自然语言处理研究提供了丰富的语料资源。此外，数据集中的部分内容经过人工标注，适用于情感分析、主题分类、机器翻译等多种NLP任务。数据集的规模也从几兆字节到数百千兆字节不等，满足了不同研究需求。

使用方法

使用nlp-datasets数据集时，用户可以根据研究需求选择合适的数据子集。数据集通常以压缩文件的形式提供，用户需下载并解压后进行处理。对于需要标注的数据集，用户可以直接使用预先标注的数据，或根据需要自行进行标注。数据集的使用应遵循相应的许可协议，确保合法合规。此外，用户还可以利用数据集进行模型训练、性能评估和算法验证，推动自然语言处理技术的发展。

背景与挑战

背景概述

nlp-datasets数据集是一个精心策划的自然语言处理（NLP）领域的公共数据集列表，涵盖了多种语言和领域。该数据集由多个研究机构和独立研究人员共同维护，旨在为NLP研究提供丰富的文本数据资源。自创建以来，nlp-datasets已成为NLP社区的重要资源，支持了从文本分类到机器翻译等多个核心研究问题的探索。其广泛的影响力不仅体现在学术研究中，还推动了工业界在语言处理技术上的创新。

当前挑战

尽管nlp-datasets提供了丰富的文本数据资源，但其构建和维护过程中仍面临诸多挑战。首先，数据集的多样性和规模使得数据清洗和预处理成为一项艰巨任务。其次，不同数据源的格式和质量差异较大，增加了数据整合的复杂性。此外，随着NLP技术的快速发展，数据集需要不断更新以保持其前沿性和实用性，这对数据维护提出了持续的要求。最后，数据集的广泛使用也带来了隐私和伦理问题，如何在利用数据的同时保护用户隐私，是当前亟需解决的重要课题。

常用场景

经典使用场景

在自然语言处理（NLP）领域，nlp-datasets数据集被广泛用于文本分类、情感分析、机器翻译和信息检索等经典任务。例如，研究人员可以利用该数据集中的亚马逊食品评论数据进行情感分析，以评估消费者对产品的态度；或者使用Cornell Movie Dialog Corpus进行对话系统开发，以提升人机交互的自然度。此外，该数据集还常用于语言模型的训练，如使用Google Books Ngrams数据进行大规模语言模型的预训练，以提高模型的泛化能力。

实际应用

在实际应用中，nlp-datasets数据集被广泛用于开发和优化各种NLP应用，如智能客服、舆情监控和个性化推荐系统。例如，企业可以利用该数据集中的Twitter数据进行实时舆情分析，以快速响应市场变化；新闻机构则可以利用Common Crawl Corpus进行自动新闻摘要和内容推荐，提升用户体验。此外，该数据集还支持法律和医疗领域的文本分析应用，如利用Enron Email Data进行法律证据分析，或使用Elsevier OA CC-BY Corpus进行医学文献的自动分类和检索。

衍生相关工作

nlp-datasets数据集的广泛应用催生了众多相关研究和工作。例如，基于该数据集的情感分析研究成果被应用于多个商业产品中，如社交媒体监控工具和消费者反馈分析系统。此外，该数据集还促进了对话系统和问答系统的研究，如Stanford Question Answering Dataset（SQUAD 2.0）的开发，为阅读理解任务提供了标准化的评估基准。同时，该数据集还支持了多语言机器翻译模型的研究，如使用Machine Translation of European Languages数据集进行跨语言翻译模型的训练和评估。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集