five

NLP-Datasets

收藏
github2020-04-12 更新2024-05-31 收录
下载链接:
https://github.com/aitor-mir/NLP-Datasets
下载链接
链接失效反馈
官方服务:
资源简介:
按任务分类的NLP数据集精选集合

A curated collection of NLP datasets categorized by tasks
创建时间:
2019-06-04
原始信息汇总

文本摘要数据集

  1. Opinosis dataset

    • 类型:产品评论语料库
    • 规模:51篇文章
    • 描述:包含从用户评论中提取的句子,针对特定主题。
  2. Scisumm-corpus

    • 类型:科学文献摘要语料库
    • 描述:包含训练和测试主题,用于开发计算语言学摘要系统。
  3. BBC新闻摘要数据集

    • 类型:新闻摘要数据集
    • 来源:Kaggle
  4. Wikihow数据集

    • 类型:大型数据集
    • 规模:超过200,000对长序列
  5. 实时博客摘要语料库

    • 类型:实时博客文章
    • 来源:《卫报》和《BBC》实时博客
  6. TIPSTER数据集

    • 类型:科学论文语料库
    • 规模:183篇论文
    • 描述:出现在计算语言学(ACL)赞助的会议上的论文。
  7. Reddit数据集

    • 类型:抽象摘要数据集
    • 描述:适合使用深度学习进行抽象摘要,包含Reddit语料库的帖子。

对话数据集

  1. Ubuntu对话语料库

    • 类型:大型数据集
    • 描述:用于非结构化多轮对话系统研究。
  2. Lets Go数据集

    • 类型:人机对话数据集
    • 描述:包含使用Lets Go对话系统的完整数据集。
  3. 对话状态跟踪挑战2 & 3数据集

    • 类型:对话状态跟踪数据集
    • 描述:专注于提高口语对话系统状态跟踪的最新技术。
  4. MultiWOZ语料库

    • 类型:多领域任务导向对话数据集
    • 规模:10,000对话
    • 描述:完全标记的人-人对话,涵盖多个领域和主题。
  5. Frames语料库

    • 类型:语义框架和知识库操作数据集
    • 描述:标记的语义框架和在知识库上采取的操作。
  6. Loqui人-人对话语料库

    • 类型:电话交易转录
    • 规模:82对话
    • 描述:包含对话行为、邻接对、话语单元和书籍讨论中的指称表达的特定性注释。
  7. Microsoft研究社交媒体对话语料库

    • 类型:社交媒体对话数据集
    • 规模:4,232三步对话片段
    • 描述:从Twitter日志中提取的12,696条Tweet ID。
  8. USENET语料库

    • 类型:公共USENET帖子集合
    • 规模:47,860英语新闻组
    • 描述:收集于2005年10月至2011年1月。
  9. 电影对话数据集及其他Facebook研究数据集

    • 类型:电影对话及其他数据集
    • 描述:来自Facebook研究的数据集。
搜集汇总
数据集介绍
main_image_url
构建方式
NLP-Datasets数据集是针对自然语言处理任务而精心策划的数据集集合。该数据集的构建采取了按任务类型分类的方式,涵盖了文本摘要、对话系统等多个领域,旨在为研究者提供丰富多样的训练和测试资源。例如,文本摘要领域包含了从产品评论中提取的句子集合,以及科学论文摘要等。对话领域则包括了多轮对话的记录,以及人类对话者的语义框架标注等。
特点
该数据集集合的一大特点是涵盖了广泛的NLP任务,且每个任务下都有多个数据集可供选择,体现了其多样性和全面性。数据集包含了不同来源和主题的文本,既有来自社交媒体的实时讨论,也有学术领域的专业论文摘要。此外,这些数据集通常带有详细的标注信息,如语义框架、对话状态等,为相关研究提供了宝贵的基础数据。
使用方法
使用NLP-Datasets数据集时,研究者可以根据自身的任务需求,选择相应的数据集进行模型训练和评估。每个数据集的获取方式在其详情页面中有明确说明,通常涉及从GitHub或相关网站下载。对于需要特定格式或预处理的数据集,用户可能需要执行相应的数据清洗和格式转换操作。数据集的详细文档和示例代码也常常提供,以帮助用户更高效地利用这些资源。
背景与挑战
背景概述
NLP-Datasets是一个经过精心策划的自然语言处理(NLP)任务数据集集合,旨在为研究人员和开发者提供针对特定任务的丰富数据资源。该数据集涵盖了文本摘要、对话系统等多个NLP领域,其创建并非由单一机构或研究人员主导,而是汇集了众多研究者的成果,自诞生以来,对推动NLP领域的学术研究和技术应用产生了显著影响。
当前挑战
尽管NLP-Datasets为研究提供了宝贵的资源,但其在构建和应用过程中亦面临诸多挑战。其中包括数据集的多样性、标注质量、以及跨任务和跨领域的适应性等问题。此外,如何确保数据集的公平性和无偏见性,以及如何处理大规模数据集的计算资源需求,都是当前研究者和开发者需要解决的难题。
常用场景
经典使用场景
在自然语言处理领域,NLP-Datasets数据集广泛用于文本摘要与对话系统的研究。该数据集包含多个子数据集,如Opinosis dataset与Scisumm-corpus,它们为文本摘要任务提供了丰富的训练与测试资源,尤其是对于新闻摘要和科学论文摘要的研究。此外,BBC news summaries dataset和Wikihow dataset等则提供了多样化的文本来源,有利于模型的泛化能力的提升。
衍生相关工作
基于NLP-Datasets数据集的研究衍生出了多项经典工作,如多轮对话状态跟踪技术的进步、深度学习在文本摘要中的应用研究等。这些工作推动了自然语言处理领域的理论发展和技术应用,对构建更智能的语言模型和对话系统具有重要的意义。
数据集最近研究
最新研究方向
在自然语言处理领域,文本摘要任务正逐步向着自动化的方向迈进。NLP-Datasets数据集集合了多种文本摘要相关的数据集,如Opinosis dataset、Scisumm-corpus以及BBC news summaries dataset等,这些数据集为研究者提供了丰富的文本素材。目前,该领域的前沿研究方向集中在利用深度学习技术进行抽象式摘要生成,如Reddit dataset for abstractive summarization所示,该数据集适用于深度学习模型的训练,以实现从原始文本到简洁摘要的转换。同时,对话系统的状态跟踪亦是一个热点研究方向,Dialog State Tracking Challenge datasets和MultiWOZ Corpus等数据集为此类研究提供了重要的数据支撑。这些研究对于提升自然语言理解与生成能力,增强人机交互的自然性和有效性具有深远影响。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作