nlp-datasets
收藏数据集概述
自然语言处理(NLP)相关数据集列表
以下是按字母顺序排列的自然语言处理(NLP)相关数据集列表,主要包含英文和多语言文本数据。这些数据集大多数为原始非结构化文本数据,如需标注语料库或树库,请参考底部提供的资源。
-
Apache Software Foundation Public Mail Archives
- 描述:所有公开的Apache Software Foundation邮件档案,截至2011年7月11日,共200GB。
- 链接:http://aws.amazon.com/de/datasets/apache-software-foundation-public-mail-archives/
-
Blog Authorship Corpus
- 描述:2004年8月从blogger.com收集的19,320名博主的帖子,共681,288篇帖子,超过1400万字,大小为298MB。
- 链接:http://u.cs.biu.ac.il/~koppel/BlogCorpus.htm
-
Amazon Fine Food Reviews [Kaggle]
- 描述:截至2012年10月的568,454条亚马逊用户留下的食品评论,大小为240MB。
- 链接:https://www.kaggle.com/snap/amazon-fine-food-reviews
-
Amazon Reviews
- 描述:斯坦福大学收集的3500万条亚马逊评论,大小为11GB。
- 链接:https://snap.stanford.edu/data/web-Amazon.html
-
ArXiv
- 描述:档案中的所有论文全文(270GB)+源文件(190GB)。
- 链接:http://arxiv.org/help/bulk_data_s3
-
ASAP Automated Essay Scoring [Kaggle]
- 描述:本竞赛包含八个论文集,每个论文集由一个提示生成,论文平均长度为150至550字,由7至10年级学生撰写,均手工评分并双评分,大小为100MB。
- 链接:https://www.kaggle.com/c/asap-aes/data
-
ASAP Short Answer Scoring [Kaggle]
- 描述:每个数据集由一个提示生成,选定响应平均长度为50字,由10年级学生主要撰写,所有响应均手工评分并双评分,大小为35MB。
- 链接:https://www.kaggle.com/c/asap-sas/data
-
Classification of political social media
- 描述:政治社交媒体消息根据内容分类,大小为4MB。
- 链接:https://www.crowdflower.com/data-for-everyone/
-
CLiPS Stylometry Investigation (CSI) Corpus
- 描述:每年扩充的学生文本语料库,包含两种体裁:论文和评论,主要用于文体学研究,其他应用亦可,需申请。
- 链接:http://www.clips.uantwerpen.be/datasets/csi-corpus
-
ClueWeb09 FACC
- 描述:ClueWeb09带Freebase注释,大小为72GB。
- 链接:http://lemurproject.org/clueweb09/FACC1/
-
ClueWeb11 FACC
- 描述:ClueWeb11带Freebase注释,大小为92GB。
- 链接:http://lemurproject.org/clueweb12/FACC1/
-
Common Crawl Corpus
- 描述:由超过50亿个网页组成的网络爬虫数据,大小为541TB。
- 链接:http://aws.amazon.com/de/datasets/common-crawl-corpus/
-
Cornell Movie Dialog Corpus
- 描述:包含大量元数据丰富的虚构对话,从原始电影剧本中提取,包含220,579次对话,涉及10,292对电影角色,617部电影,大小为9.5MB。
- 链接:http://www.cs.cornell.edu/~cristian/Cornell_Movie-Dialogs_Corpus.html
-
Corporate messaging
- 描述:关于公司在社交媒体上实际谈论内容的数据分类工作,贡献者被要求将声明分类为信息(关于公司或其活动的客观声明)、对话(回复用户等)或行动(请求投票或请求用户点击链接等),大小为600KB。
- 链接:http://aws.amazon.com/de/datasets/common-crawl-corpus/
-
Crosswikis
- 描述:英文短语到相关维基百科文章的数据库,大小为11GB。
- 链接:http://nlp.stanford.edu/data/crosswikis-data.tar.bz2/
-
DBpedia
- 描述:从维基百科中提取的结构化信息,并使其在网络上可用,大小为17GB。
- 链接:http://aws.amazon.com/de/datasets/dbpedia-3-5-1/?tag=datasets%23keywords%23encyclopedic
-
Death Row
- 描述:自1984年以来被执行的每个囚犯的最后遗言,以HTML表格形式在线提供。
- 链接:http://www.tdcj.state.tx.us/death_row/dr_executed_offenders.html
-
Del.icio.us
- 描述:delicious.com上的125万书签,大小为170MB。
- 链接:http://arvindn.livejournal.com/116137.html
-
Disasters on social media
- 描述:10,000条推文,标注是否提及灾难事件,大小为2MB。
- 链接:https://www.crowdflower.com/data-for-everyone/
-
Economic News Article Tone and Relevance
- 描述:判断新闻文章是否与美国经济相关,如果是,则判断文章的语气,日期范围从1951年到2014年,大小为12MB。
- 链接:https://www.crowdflower.com/data-for-everyone/
-
Enron Email Data
- 描述:包含1,227,255封电子邮件,493,384个附件,涵盖151个保管人,大小为210GB。
- 链接:http://aws.amazon.com/de/datasets/enron-email-data/
-
Event Registry
- 描述:实时访问来自全球100,000家新闻出版商的新闻文章的免费工具,提供API。
- 链接:http://eventregistry.org/
-
Examiner.com - Spam Clickbait News Headlines [Kaggle]
- 描述:2010年至2015年间由现已关闭的点击诱饵网站The Examiner发布的300万条新闻标题,大小为200MB。
- 链接:https://www.kaggle.com/therohk/examine-the-examiner
-
Federal Contracts from the Federal Procurement Data Center (USASpending.gov)
- 描述:联邦采购数据中心在USASpending.gov上找到的所有联邦合同的数据转储,大小为180GB。
- 链接:http://aws.amazon.com/de/datasets/federal-contracts-from-the-federal-procurement-data-center-usaspending-gov/
-
Flickr Personal Taxonomies
- 描述:个人标签的树形数据集,大小为40MB。
- 链接:http://www.isi.edu/~lerman/downloads/flickr/flickr_taxonomies.html
-
Freebase Data Dump
- 描述:Freebase中所有当前事实和断言的数据转储,大小为26GB。
- 链接:http://aws.amazon.com/de/datasets/freebase-data-dump/
-
Freebase Simple Topic Dump
- 描述:Freebase中每个主题的基本识别事实的数据转储,大小为5GB。
- 链接:http://aws.amazon.com/de/datasets/freebase-simple-topic-dump/
-
Freebase Quad Dump
- 描述:Freebase中所有当前事实和断言的数据转储,大小为35GB。
- 链接:http://aws.amazon.com/de/datasets/freebase-quad-dump/
-
GigaOM Wordpress Challenge [Kaggle]
- 描述:博客文章、元数据、用户喜欢,大小为1.5GB。
- 链接:https://www.kaggle.com/c/predict-wordpress-likes/data
-
Google Books Ngrams
- 描述:在亚马逊S3上也可用hadoop格式,大小为2.2TB。
- 链接:http://storage.googleapis.com/books/ngrams/books/datasetsv2.html
-
Google Web 5gram
- 描述:包含英语单词n-gram及其观察频率计数,大小为24GB。
- 链接:https://catalog.ldc.upenn.edu/LDC2006T13
-
Gutenberg Ebook List
- 描述:带注释的电子书列表,大小为2MB。
- 链接:http://www.gutenberg.org/wiki/Gutenberg:Offline_Catalogs
-
Hansards text chunks of Canadian Parliament
- 描述:加拿大第36届议会的官方记录(Hansards)中的130万对对齐文本块(句子或更小的片段),大小为82MB。
- 链接:http://www.isi.edu/natural-language/download/hansard/
-
Harvard Library
- 描述:哈佛图书馆持有的超过1200万条书目记录,包括书籍、期刊、电子资源、手稿、档案材料、乐谱、音频、视频和其他材料,大小为4GB。
- 链接:http://library.harvard.edu/open-metadata#Harvard-Library-Bibliographic-Dataset
-
Hate speech identification
- 描述:贡献者查看简短文本并识别其是否包含仇恨言论、具有攻击性但不含仇恨言论,或根本不具有攻击性。包含近15,000行,每行文本有三个贡献者判断,大小为3MB。
- 链接:https://github.com/t-davidson/hate-speech-and-offensive-language
-
Hillary Clinton Emails [Kaggle]
- 描述:克林顿的近7,000页经过大量编辑的电子邮件,大小为12MB。
- 链接:https://www.kaggle.com/kaggle/hillary-clinton-emails
-
Historical Newspapers Yearly N-grams and Entities Dataset
- 描述:来自英国报纸档案馆语料库的一个子集的1,000,000个最频繁的1-, 2-, 和3-grams的年使用时间序列,以及与维基百科链接的100,000个最频繁的命名实体的年使用时间序列,以及数据集中包含的所有文章和报纸的列表,大小为3.1GB。
- 链接:https://data.bris.ac.uk/data/dataset/dobuvuu00mh51q773bo8ybkdz
-
Historical Newspapers Daily Word Time Series Dataset
- 描述:1836年至1922年间87年的英国和美国历史报纸中25,000个最频繁单词的每日使用时间序列,大小为2.7GB。
- 链接:https://datadryad.org/resource/doi:10.5061/dryad.nh775
-
Home Depot Product Search Relevance [Kaggle]
- 描述:包含Home Depot网站上的多个产品和真实客户搜索词。挑战是预测提供的搜索词和产品组合的相关性得分。为了创建地面实况标签,Home Depot将搜索/产品对众包给多个人类评分者,大小为65MB。
- 链接:https://www.kaggle.com/c/home-depot-product-search-relevance/data
-
Identifying key phrases in text
- 描述:问题/答案对+上下文;上下文被判断是否与问题/答案相关,大小为8MB。
- 链接:https://www.crowdflower.com/data-for-everyone/
-
Jeopardy
- 描述:216,930个过去的Jeopardy问题存档,大小为53MB




