five

nlp-datasets

收藏
github2020-07-27 更新2024-05-31 收录
下载链接:
https://github.com/tanmaylaud/open-datasets
下载链接
链接失效反馈
官方服务:
资源简介:
包含用于自然语言处理的免费/公共领域文本数据集的字母列表。大多数数据集包含原始非结构化文本数据。

A comprehensive alphabetical list of free/public domain text datasets for natural language processing. The majority of these datasets consist of raw, unstructured text data.
创建时间:
2020-03-24
原始信息汇总

数据集概述

自然语言处理(NLP)数据集列表

  • Apache Software Foundation Public Mail Archives

  • Blog Authorship Corpus

    • 描述:收集自2004年8月的19,320名博主的帖子,包含681,288篇帖子和超过140百万字,数据量为298 MB。
    • 链接:Blog Authorship Corpus
  • Amazon Fine Food Reviews [Kaggle]

    • 描述:包含至2012年10月的568,454条亚马逊用户对食品的评论,数据量为240 MB。
    • 链接:Amazon Fine Food Reviews
  • Amazon Reviews

    • 描述:斯坦福大学收集的3500万条亚马逊评论,数据量为11 GB。
    • 链接:Amazon Reviews
  • ArXiv

    • 描述:arXiv存档中的所有论文全文,数据量为270 GB,源文件为190 GB。
    • 链接:ArXiv
  • ASAP Automated Essay Scoring [Kaggle]

  • ASAP Short Answer Scoring [Kaggle]

  • Classification of political social media

  • CLiPS Stylometry Investigation (CSI) Corpus

  • ClueWeb09 FACC

    • 描述:ClueWeb09数据集,带有Freebase注释,数据量为72 GB。
    • 链接:ClueWeb09 FACC
  • ClueWeb11 FACC

    • 描述:ClueWeb11数据集,带有Freebase注释,数据量为92 GB。
    • 链接:ClueWeb11 FACC
  • Common Crawl Corpus

    • 描述:包含超过50亿个网页的网络爬虫数据,数据量为541 TB。
    • 链接:Common Crawl Corpus
  • Cornell Movie Dialog Corpus

    • 描述:包含从电影剧本中提取的大量元数据丰富的虚构对话,数据量为9.5 MB。
    • 链接:Cornell Movie Dialog Corpus
  • Corporate messaging

    • 描述:关于公司在社交媒体上实际谈论内容的分类数据,数据量为600 KB。
    • 链接:Corporate messaging
  • Crosswikis

    • 描述:英文短语与相关维基百科文章的数据库,数据量为11 GB。
    • 链接:Crosswikis
  • DBpedia

    • 描述:从维基百科中提取的结构化信息,数据量为17 GB。
    • 链接:DBpedia
  • Death Row

    • 描述:自1984年以来被执行的每个囚犯的最后遗言,数据集为HTML表格。
    • 链接:Death Row
  • Del.icio.us

    • 描述:125万条美味书签,数据量为170 MB。
    • 链接:Del.icio.us
  • Disasters on social media

  • Economic News Article Tone and Relevance

  • Enron Email Data

    • 描述:包含1,227,255封电子邮件,覆盖151个保管人,数据量为210 GB。
    • 链接:Enron Email Data
  • Event Registry

    • 描述:提供来自全球100,000个新闻出版商的实时新闻文章访问的免费工具,数据集为查询工具。
    • 链接:Event Registry
  • Examiner.com - Spam Clickbait News Headlines [Kaggle]

  • Federal Contracts from the Federal Procurement Data Center (USASpending.gov)

  • Flickr Personal Taxonomies

  • Freebase Data Dump

    • 描述:Freebase中所有当前事实和断言的数据转储,数据量为26 GB。
    • 链接:Freebase Data Dump
  • Freebase Simple Topic Dump

  • Freebase Quad Dump

    • 描述:Freebase中所有当前事实和断言的数据转储,数据量为35 GB。
    • 链接:Freebase Quad Dump
  • GigaOM Wordpress Challenge [Kaggle]

  • Google Books Ngrams

    • 描述:Google图书中的Ngrams数据,也可在Amazon S3上以Hadoop格式提供,数据量为2.2 TB。
    • 链接:Google Books Ngrams
  • Google Web 5gram

    • 描述:包含英语单词n-grams及其观察频率计数,数据量为24 GB。
    • 链接:Google Web 5gram
  • Gutenberg Ebook List

  • Hansards text chunks of Canadian Parliament

  • Harvard Library

    • 描述:哈佛图书馆持有的超过1200万条书目记录,包括书籍、期刊、电子资源等,数据量为4 GB。
    • 链接:Harvard Library
  • Hate speech identification

    • 描述:包含近15,000行数据,每个文本字符串有三个贡献者判断,数据量为3 MB。
    • 链接:Hate speech identification
  • Hillary Clinton Emails [Kaggle]

  • Historical Newspapers Yearly N-grams and Entities Dataset

  • Historical Newspapers Daily Word Time Series Dataset

  • Home Depot Product Search Relevance [Kaggle]

  • Identifying key phrases in text

  • Jeopardy

    • 描述:216,930个过去的Jeopardy问题存档,数据量为53 MB。
    • 链接:Jeopardy
  • 200k English plaintext jokes

  • Machine Translation of European Languages

  • Material Safety Datasheets

  • Million News Headlines - ABC Australia [Kaggle]

  • Millions of News Article URLs

    • 描述:2014年10月至2015年4月期间,来自950多个英语新闻网站的前页的230万个新闻文章URL,数据量为101 MB。
    • 链接:Millions of News Article URLs
  • MCTest

    • 描述:用于研究机器文本理解的660个故事和相关问题集,数据量为1 MB。
    • 链接:MCTest
  • News Headlines of India - Times of India [Kaggle]

  • News article / Wikipedia page pairings

  • NIPS2015 Papers (version 2) [Kaggle]

    • 描述:NIPS2015会议的所有论文全文,数据量为335 MB。
    • 链接:NIPS2015 Papers
  • NYTimes Facebook Data

  • One Week of Global News Feeds [Kaggle]

  • Objective truths of sentences/concept pairs

  • Open Library Data Dumps

    • 描述:Open Library中所有记录的所有修订的数据转储,数据量为16 GB。
    • 链接:[Open Library Data Dumps](https://open
搜集汇总
数据集介绍
main_image_url
构建方式
nlp-datasets数据集通过整合多个公开的自然语言处理(NLP)相关数据集构建而成,涵盖了从社交媒体文本、新闻文章到学术论文等多种类型的文本数据。数据来源包括Kaggle、Stanford Snap、Google Dataset Search等多个知名平台,确保了数据的多样性和广泛性。数据集中的文本数据多为非结构化形式,部分数据集还提供了标注信息,适用于多种NLP任务。
特点
nlp-datasets数据集的特点在于其广泛的覆盖范围和多样化的数据类型。数据集不仅包含大量的英文文本,还涵盖了多语言数据,如法语、日语等。此外,数据集中的文本长度和主题各异,从短文本(如推文)到长文本(如学术论文)均有涉及。部分数据集还提供了丰富的元数据,如时间戳、地理位置等,为研究提供了更多的维度。
使用方法
nlp-datasets数据集适用于多种自然语言处理任务,如文本分类、情感分析、机器翻译、问答系统等。用户可以根据具体任务选择合适的数据集进行下载和使用。数据集通常以CSV、JSON或XML格式提供,便于直接导入到机器学习框架中进行处理。对于需要进一步标注或处理的数据,用户可以参考数据集提供的文档或API进行定制化操作。
背景与挑战
背景概述
nlp-datasets是一个专注于自然语言处理(NLP)领域的开放数据集集合,涵盖了从电子邮件、社交媒体到新闻文章等多种文本数据。该数据集由多个研究机构和平台共同维护,包括Google、Stanford、Kaggle等,旨在为NLP研究者提供丰富的文本资源。这些数据集的时间跨度从2004年至今,涵盖了多个语言和领域,如情感分析、文本分类、机器翻译等。通过提供大量的原始文本和部分标注数据,nlp-datasets为NLP领域的研究和应用提供了重要的数据支持,推动了文本分析、信息检索和语言模型等技术的发展。
当前挑战
nlp-datasets在解决自然语言处理领域的核心问题时面临多重挑战。首先,数据集的多样性和规模带来了数据清洗和预处理的复杂性,尤其是非结构化文本的处理需要大量的计算资源和时间。其次,尽管数据集涵盖了广泛的领域和语言,但标注数据的稀缺性限制了监督学习模型的效果,特别是在低资源语言和特定领域任务中。此外,数据集的构建过程中还面临隐私和伦理问题,尤其是在处理社交媒体和电子邮件等敏感数据时,如何平衡数据的开放性与隐私保护成为了一个重要的挑战。最后,数据集的更新和维护也需要持续的资源投入,以确保其能够跟上快速发展的NLP研究需求。
常用场景
经典使用场景
在自然语言处理(NLP)领域,nlp-datasets数据集广泛应用于文本分类、情感分析、机器翻译和问答系统等任务。例如,Amazon Fine Food Reviews数据集常用于情感分析研究,帮助模型理解用户对产品的评价;而Stanford Question Answering Dataset (SQuAD 2.0)则被广泛用于训练和评估问答系统的性能。这些数据集为研究人员提供了丰富的文本资源,支持从基础语言模型到复杂对话系统的开发。
解决学术问题
nlp-datasets解决了自然语言处理中的多个核心问题。例如,通过提供大规模的标注数据,如SMS Spam Collection,研究人员能够开发更精确的垃圾邮件过滤算法。此外,数据集如Common Crawl Corpus和Google Books Ngrams为语言模型的预训练提供了海量语料,显著提升了模型的语言理解和生成能力。这些数据集的存在,极大地推动了NLP领域的技术进步,使得诸如机器翻译、文本生成等任务得以实现更高的准确性和流畅性。
衍生相关工作
nlp-datasets催生了许多经典的研究工作。例如,基于SQuAD 2.0数据集,BERT等预训练语言模型在问答任务中取得了突破性进展。此外,Google Books Ngrams数据集被用于研究语言演化和文化趋势,相关成果发表在顶级学术期刊上。Reddit Comments数据集则支持了社交网络分析和用户行为研究,衍生出多篇关于在线社区动态的高影响力论文。这些工作不仅推动了NLP技术的发展,还为跨学科研究提供了宝贵的数据支持。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作