five

nlp-datasets

收藏
github2019-02-19 更新2024-05-31 收录
下载链接:
https://github.com/sinjihn/nlp-datasets
下载链接
链接失效反馈
官方服务:
资源简介:
包含自然语言处理(NLP)领域使用的免费/公共域文本数据集的字母顺序列表。

An alphabetical list of free/public domain text datasets used in the field of Natural Language Processing (NLP).
创建时间:
2019-02-19
原始信息汇总

数据集概述

自然语言处理(NLP)相关数据集列表

以下是按字母顺序排列的自然语言处理(NLP)相关数据集列表,主要包含英文和多语言文本数据。这些数据集大多数为原始非结构化文本数据,如需标注语料库或树库,请参考底部提供的资源。

  1. Apache Software Foundation Public Mail Archives

  2. Blog Authorship Corpus

  3. Amazon Fine Food Reviews [Kaggle]

  4. Amazon Reviews

  5. ArXiv

  6. ASAP Automated Essay Scoring [Kaggle]

    • 描述:本竞赛包含八个论文集,每个论文集由一个提示生成,论文平均长度为150至550字,由7至10年级学生撰写,均手工评分并双评分,大小为100MB。
    • 链接:https://www.kaggle.com/c/asap-aes/data
  7. ASAP Short Answer Scoring [Kaggle]

    • 描述:每个数据集由一个提示生成,选定响应平均长度为50字,由10年级学生主要撰写,所有响应均手工评分并双评分,大小为35MB。
    • 链接:https://www.kaggle.com/c/asap-sas/data
  8. Classification of political social media

  9. CLiPS Stylometry Investigation (CSI) Corpus

  10. ClueWeb09 FACC

  11. ClueWeb11 FACC

  12. Common Crawl Corpus

  13. Cornell Movie Dialog Corpus

  14. Corporate messaging

    • 描述:关于公司在社交媒体上实际谈论内容的数据分类工作,贡献者被要求将声明分类为信息(关于公司或其活动的客观声明)、对话(回复用户等)或行动(请求投票或请求用户点击链接等),大小为600KB。
    • 链接:http://aws.amazon.com/de/datasets/common-crawl-corpus/
  15. Crosswikis

  16. DBpedia

  17. Death Row

  18. Del.icio.us

  19. Disasters on social media

  20. Economic News Article Tone and Relevance

  21. Enron Email Data

  22. Event Registry

    • 描述:实时访问来自全球100,000家新闻出版商的新闻文章的免费工具,提供API。
    • 链接:http://eventregistry.org/
  23. Examiner.com - Spam Clickbait News Headlines [Kaggle]

  24. Federal Contracts from the Federal Procurement Data Center (USASpending.gov)

  25. Flickr Personal Taxonomies

  26. Freebase Data Dump

  27. Freebase Simple Topic Dump

  28. Freebase Quad Dump

  29. GigaOM Wordpress Challenge [Kaggle]

  30. Google Books Ngrams

  31. Google Web 5gram

  32. Gutenberg Ebook List

  33. Hansards text chunks of Canadian Parliament

  34. Harvard Library

  35. Hate speech identification

  36. Hillary Clinton Emails [Kaggle]

  37. Historical Newspapers Yearly N-grams and Entities Dataset

    • 描述:来自英国报纸档案馆语料库的一个子集的1,000,000个最频繁的1-, 2-, 和3-grams的年使用时间序列,以及与维基百科链接的100,000个最频繁的命名实体的年使用时间序列,以及数据集中包含的所有文章和报纸的列表,大小为3.1GB。
    • 链接:https://data.bris.ac.uk/data/dataset/dobuvuu00mh51q773bo8ybkdz
  38. Historical Newspapers Daily Word Time Series Dataset

  39. Home Depot Product Search Relevance [Kaggle]

    • 描述:包含Home Depot网站上的多个产品和真实客户搜索词。挑战是预测提供的搜索词和产品组合的相关性得分。为了创建地面实况标签,Home Depot将搜索/产品对众包给多个人类评分者,大小为65MB。
    • 链接:https://www.kaggle.com/c/home-depot-product-search-relevance/data
  40. Identifying key phrases in text

  41. Jeopardy

    • 描述:216,930个过去的Jeopardy问题存档,大小为53MB
搜集汇总
数据集介绍
main_image_url
构建方式
nlp-datasets是一个包含多种自然语言处理(NLP)任务所需文本数据的综合数据集。该数据集的构建主要通过网络爬虫收集公开可用的文本数据,包括但不限于邮件存档、博客文章、产品评论、学术论文等,涵盖了从原始未结构化文本到经过注释的语料库等多种类型。
特点
该数据集的特点在于其内容的多样性,既包含了大量的未加工的原始文本数据,也提供了经过人工注释的语料库,适用于不同的NLP研究与应用场景。此外,数据集包含了多种语言的数据,不仅限于英语,也涵盖了其他语言的数据资源,为多语言NLP研究提供了便利。
使用方法
用户可以通过数据集提供的URL链接直接访问和下载数据。对于部分大型数据集,可能需要通过特定的平台或工具进行查询和获取。在使用数据集时,应遵循相应的数据使用条款和版权规定,确保合法合规地利用数据资源。
背景与挑战
背景概述
nlp-datasets是一个包含自然语言处理(NLP)领域免费/公共领域文本数据集的列表。该数据集涵盖了从原始的非结构化文本数据到经过注释的语料库和树库等多种类型的数据资源,旨在为NLP研究提供丰富多样的文本材料。自其创建以来,nlp-datasets已经成为推动自然语言处理领域发展的重要资源之一,吸引了众多研究人员和机构的使用和引用。
当前挑战
尽管nlp-datasets为NLP研究提供了宝贵的资源,但在使用过程中也存在一些挑战。首先,数据集的多样性和规模带来了数据清洗和处理的挑战,特别是在构建统一的数据处理流程时。其次,由于数据集的来源广泛,确保数据的质量和一致性也是一个挑战。此外,对于特定任务,如文本分类、情感分析等,选择合适的数据集和特征工程方法也具有一定的难度。
常用场景
经典使用场景
nlp-datasets数据集是一个全面收录自然语言处理领域公开数据集的资源库。其经典使用场景在于为研究者提供丰富的文本数据资源,包括但不限于邮件档案、博客文章、产品评论、论文摘要等,这些数据被广泛用于语言模型训练、文本分类、情感分析、信息抽取等自然语言处理任务。
解决学术问题
该数据集解决了自然语言处理领域中的多个学术研究问题,如语言模型预训练中的数据匮乏问题、文本分类中的标注数据不足问题、情感分析中的多语言处理问题等。通过提供多样化的文本数据,nlp-datasets极大地推动了相关学术研究的进展。
衍生相关工作
基于nlp-datasets,衍生出了一系列相关的经典工作,如构建了大规模的预训练语言模型、开发了一系列文本挖掘工具和算法、发表了众多高水平的研究论文等,这些成果进一步推动了自然语言处理领域的技术创新和应用发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作