five

nlp-datasets

收藏
github2019-03-26 更新2024-05-31 收录
下载链接:
https://github.com/renmengxing12/nlp-datasets
下载链接
链接失效反馈
官方服务:
资源简介:
包含自然语言处理(NLP)相关文本数据集的字母顺序列表,主要提供免费/公共领域的文本数据集。

An alphabetical list of text datasets related to Natural Language Processing (NLP), primarily offering free/public domain text datasets.
创建时间:
2019-03-26
原始信息汇总

数据集概述

自然语言处理(NLP)相关数据集列表

以下是一些用于自然语言处理(NLP)的公共和免费数据集,主要包含文本数据。这些数据集涵盖了多种语言和领域,包括英语和其他多语言数据。

  1. Apache Software Foundation Public Mail Archives

  2. Blog Authorship Corpus

    • 描述:2004年8月从blogger.com收集的19,320名博主的帖子。
    • 大小:298 MB
    • 链接:Blog Authorship Corpus
  3. Amazon Fine Food Reviews [Kaggle]

    • 描述:截至2012年10月的568,454条亚马逊用户对食品的评论。
    • 大小:240 MB
    • 链接:Amazon Fine Food Reviews
  4. Amazon Reviews

    • 描述:斯坦福大学收集的3500万条亚马逊评论。
    • 大小:11 GB
    • 链接:Amazon Reviews
  5. ArXiv

    • 描述:arXiv上的所有论文全文及源文件。
    • 大小:270 GB(全文)+ 190 GB(源文件)
    • 链接:ArXiv
  6. ASAP Automated Essay Scoring [Kaggle]

  7. ASAP Short Answer Scoring [Kaggle]

  8. Classification of political social media

  9. CLiPS Stylometry Investigation (CSI) Corpus

  10. ClueWeb09 FACC

    • 描述:ClueWeb09数据集,带有Freebase注释。
    • 大小:72 GB
    • 链接:ClueWeb09 FACC
  11. ClueWeb11 FACC

    • 描述:ClueWeb11数据集,带有Freebase注释。
    • 大小:92 GB
    • 链接:ClueWeb11 FACC
  12. Common Crawl Corpus

    • 描述:包含超过50亿网页的网络爬虫数据。
    • 大小:541 TB
    • 链接:Common Crawl Corpus
  13. Cornell Movie Dialog Corpus

    • 描述:从电影剧本中提取的大量元数据丰富的虚构对话集合。
    • 大小:9.5 MB
    • 链接:Cornell Movie Dialog Corpus
  14. Corporate messaging

    • 描述:关于公司在社交媒体上实际讨论内容的数据分类。
    • 大小:600 KB
    • 链接:Corporate messaging
  15. Crosswikis

    • 描述:英文短语与相关维基百科文章的数据库。
    • 大小:11 GB
    • 链接:Crosswikis
  16. DBpedia

    • 描述:从维基百科中提取的结构化信息,并使其在网络上可用。
    • 大小:17 GB
    • 链接:DBpedia
  17. Death Row

    • 描述:自1984年以来被执行的每个囚犯的最后遗言。
    • 大小:HTML表格
    • 链接:Death Row
  18. Del.icio.us

    • 描述:125万个delicious.com书签。
    • 大小:170 MB
    • 链接:Del.icio.us
  19. Disasters on social media

  20. Economic News Article Tone and Relevance

  21. Enron Email Data

    • 描述:包含1,227,255封电子邮件,涵盖151个保管人。
    • 大小:210 GB
    • 链接:Enron Email Data
  22. Event Registry

    • 描述:提供来自全球100,000个新闻出版商的实时新闻文章访问。
    • 大小:查询工具
    • 链接:Event Registry
  23. Examiner.com - Spam Clickbait News Headlines [Kaggle]

  24. Federal Contracts from the Federal Procurement Data Center (USASpending.gov)

  25. Flickr Personal Taxonomies

  26. Freebase Data Dump

    • 描述:Freebase中的所有当前事实和断言的数据转储。
    • 大小:26 GB
    • 链接:Freebase Data Dump
  27. Freebase Simple Topic Dump

  28. Freebase Quad Dump

    • 描述:Freebase中的所有当前事实和断言的数据转储。
    • 大小:35 GB
    • 链接:Freebase Quad Dump
  29. GigaOM Wordpress Challenge [Kaggle]

  30. Google Books Ngrams

    • 描述:Google图书中的n-grams数据,也可在Amazon S3上以Hadoop格式提供。
    • 大小:2.2 TB
    • 链接:Google Books Ngrams
  31. Google Web 5gram

    • 描述:包含英语单词n-grams及其观察频率计数。
    • 大小:24 GB
    • 链接:Google Web 5gram
  32. Gutenberg Ebook List

  33. Hansards text chunks of Canadian Parliament

  34. Harvard Library

    • 描述:哈佛图书馆持有的超过1200万条书目记录,包括书籍、期刊、电子资源等。
    • 大小:4 GB
    • 链接:Harvard Library
  35. Hate speech identification

    • 描述:查看短文本并识别是否包含仇恨言论、攻击性但无仇恨言论或完全不攻击性。
    • 大小:3 MB
    • 链接:Hate speech identification
  36. Hillary Clinton Emails [Kaggle]

  37. Historical Newspapers Yearly N-grams and Entities Dataset

  38. Historical Newspapers Daily Word Time Series Dataset

  39. Home Depot Product Search Relevance [Kaggle]

  40. Identifying key phrases in text

  41. Jeopardy

    • 描述:216,930个过往Jeopardy问题的档案。
    • 大小:53 MB
    • 链接:Jeopardy
  42. 200k English plaintext jokes

  43. Machine Translation of European Languages

  44. Material Safety Datasheets

  45. Million News Headlines - ABC Australia [Kaggle]

  46. Millions of News Article URLs

    • 描述:2014年10月至2015年4月期间,来自950多个英语新闻网站的前页的230万个新闻文章URL。
    • 大小:101 MB
    • 链接:Millions of News Article URLs
  47. MCTest

    • 描述:用于机器文本理解的660个故事和相关问题的自由可用集合。
    • 大小:1 MB
    • 链接:MCTest
  48. News Headlines of India - Times of India [Kaggle]

  49. News article / Wikipedia page pairings

  50. NIPS2015 Papers (version 2) [Kaggle]

    • 描述:NIPS2015会议的所有论文的全文。
    • 大小:335 MB
    • 链接:[NIPS20
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集是一个免费的、公开域的自然语言处理(NLP)文本数据集列表,涵盖了多种语言和类型的文本数据。数据集的构建主要依赖于搜集和整理现有的公开文本资源,包括但不限于邮件存档、博客文章、产品评论、学术论文等。
特点
nlp-datasets的特点在于其全面性和多样性,包含了从不同来源和不同应用场景收集的文本数据。这些数据集可用于各种NLP任务,如文本分类、情感分析、机器翻译等,为研究者提供了丰富的实验材料。
使用方法
用户可以根据自己的研究需求选择合适的数据集。数据集通常以压缩文件的形式提供,用户需要解压后使用。一些数据集可能需要特定的软件或工具来处理,例如某些数据集可能需要使用Python、R或其他编程语言的相关库来读取和处理数据。
背景与挑战
背景概述
nlp-datasets是一个免费的、包含文本数据的自然语言处理(NLP)数据集列表。该数据集由Alphabetical排序,大部分是未经处理的原始文本数据。若用户寻找带注释的语料库或树库,可参考底部提供的资源。该数据集的创建旨在为NLP研究提供方便,涵盖了从Apache软件基金会邮件存档到Yahoo!答案等多样化的数据源,创建时间不等,涉及多个研究人员和机构,其核心研究问题是如何有效地收集和利用这些文本数据进行语言处理任务。该数据集对相关领域的影响表现在它为研究人员提供了丰富的资源,推动了NLP技术的发展。
当前挑战
nlp-datasets在构建过程中遇到的挑战主要包括数据的多样性和质量保证。数据集涵盖了多种语言和来源,这就要求在整合过程中必须考虑到跨语言的兼容性和统一的数据处理标准。此外,确保数据的真实性和有效性也是一大挑战,因为这直接关系到基于这些数据集的研究成果的可靠性。在所解决的领域问题方面,例如,构建用于情感分析的Twitter数据集时,挑战包括如何准确地识别和分类情感表达,以及如何处理大量的非结构化文本数据。
常用场景
经典使用场景
nlp-datasets数据集的典型应用场景在于自然语言处理领域的研究与开发,特别是在构建和训练各种NLP模型时,提供了丰富多样的文本数据资源。该数据集涵盖了从邮件档案、博客文章、产品评论到新闻头条等多种类型的文本数据,使得研究者在进行语言模型训练、文本分类、情感分析、信息检索等任务时,能够获取到充足的语料支持。
衍生相关工作
基于nlp-datasets数据集,研究者们衍生出了许多相关工作,如构建了针对特定任务的子数据集,开发了新的NLP模型和算法,以及发表了大量学术论文。这些工作不仅推动了自然语言处理领域的学术发展,也为工业界提供了技术支持和创新思路。
数据集最近研究
最新研究方向
近期,关于nlp-datasets的研究主要集中在自然语言处理领域的多个前沿方向。这些数据集被广泛应用于机器学习模型的训练与测试,特别是在情感分析、文本分类、机器翻译、作者识别、以及风格学研究等方面。例如,Amazon Fine Food Reviews数据集被用于研究评论的情感倾向,而Twitter sentiment analysis数据集则用于分析公众对特定事件或品牌的情绪态度。此外,Wikipedia Extraction (WEX)和Freebase等知识库数据集,为研究信息抽取和知识图谱构建提供了丰富的资源。这些研究不仅推动了自然语言处理技术的进步,也对社交媒体分析、网络内容挖掘等领域产生了深远的影响。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作