nlp-datasets
收藏数据集概述
自然语言处理(NLP)相关数据集列表
-
Apache Software Foundation Public Mail Archives
- 描述:所有公开的Apache软件基金会邮件存档,截至2011年7月11日。
- 大小:200 GB
-
Blog Authorship Corpus
- 描述:2004年8月从blogger.com收集的19,320名博主的帖子。
- 大小:298 MB
-
Amazon Fine Food Reviews [Kaggle]
- 描述:截至2012年10月的568,454条亚马逊用户留下的食品评论。
- 大小:240 MB
-
Amazon Reviews
- 描述:斯坦福大学收集的3500万条亚马逊评论。
- 大小:11 GB
-
ArXiv
- 描述:arXiv上的所有论文全文及源文件。
- 大小:270 GB(全文)+ 190 GB(源文件)
-
CLiPS Stylometry Investigation (CSI) Corpus
- 描述:每年扩充的学生文本,包括论文和评论,主要用于文体学研究。
- 大小:需请求
-
ClueWeb09 FACC
- 描述:ClueWeb09带Freebase注释。
- 大小:72 GB
-
ClueWeb11 FACC
- 描述:ClueWeb11带Freebase注释。
- 大小:92 GB
-
Common Crawl Corpus
- 描述:超过50亿个网页的网络爬虫数据。
- 大小:541 TB
-
Cornell Movie Dialog Corpus
- 描述:从原始电影剧本中提取的大量元数据丰富的虚构对话集合。
- 大小:9.5 MB
-
Crosswikis
- 描述:英语短语与相关维基百科文章的数据库。
- 大小:11 GB
-
DBpedia
- 描述:从维基百科提取的结构化信息。
- 大小:17 GB
-
Death Row
- 描述:自1984年以来被执行的每个囚犯的最后遗言。
- 大小:HTML表格
-
Diplomacy
- 描述:来自12场外交游戏的17,000条对话消息,注释了真实性。
- 大小:3 MB
-
Elsevier OA CC-BY Corpus
- 描述:40,001篇开放获取的完整科学文章,包含完整元数据。
- 大小:963 MB
-
Enron Email Data
- 描述:包含1,227,255封电子邮件和493,384个附件,涵盖151个保管人。
- 大小:210 GB
-
Event Registry
- 描述:提供实时访问来自全球100,000个新闻出版商的新闻文章的免费工具。
- 大小:查询工具
-
Examiner.com - Spam Clickbait News Headlines [Kaggle]
- 描述:2010年至2015年间由现已关闭的点击诱饵网站The Examiner发布的300万条新闻标题。
- 大小:200 MB
-
Federal Contracts from the Federal Procurement Data Center (USASpending.gov)
- 描述:联邦采购数据中心在USASpending.gov上找到的所有联邦合同的数据转储。
- 大小:180 GB
-
Flickr Personal Taxonomies
- 描述:个人标签的树形数据集。
- 大小:40 MB
-
Freebase Data Dump
- 描述:Freebase中所有当前事实和断言的数据转储。
- 大小:26 GB
-
Freebase Simple Topic Dump
- 描述:Freebase中每个主题的基本识别事实的数据转储。
- 大小:5 GB
-
Freebase Quad Dump
- 描述:Freebase中所有当前事实和断言的数据转储。
- 大小:35 GB
-
GigaOM Wordpress Challenge [Kaggle]
- 描述:博客帖子、元数据、用户点赞。
- 大小:1.5 GB
-
Google Books Ngrams
- 描述:在亚马逊S3上也可用的hadoop格式。
- 大小:2.2 TB
-
Google Web 5gram
- 描述:包含英语单词n-grams及其观察频率计数。
- 大小:24 GB
-
Gutenberg Ebook List
- 描述:电子书的注释列表。
- 大小:2 MB
-
Gutenberg Standardized Corpus
- 描述:标准化的Project Gutenberg语料库,包含55,905本书。
- 大小:3GB(计数)+ 18GB(标记)
-
Hansards text chunks of Canadian Parliament
- 描述:加拿大第36届议会的官方记录(Hansards)中的130万对对齐文本块。
- 大小:82 MB
-
Harvard Library
- 描述:哈佛图书馆持有的超过1200万条书目记录,包括书籍、期刊、电子资源、手稿、档案材料、乐谱、音频、视频等。
- 大小:4 GB
-
Hate speech identification
- 描述:贡献者查看简短文本并确定它是否包含仇恨言论,是否具有攻击性但没有仇恨言论,或者根本不具有攻击性。包含近15,000行,每个文本字符串有三个贡献者判断。
- 大小:3 MB
-
Hillary Clinton Emails [Kaggle]
- 描述:克林顿的大约7,000页经过大量编辑的电子邮件。
- 大小:12 MB
-
Historical Newspapers Yearly N-grams and Entities Dataset
- 描述:英国报纸档案库中1,000,000个最频繁的1-, 2-, 和 3-grams的使用情况的年




