Cornell Movie-Dialogs Corpus|电影对话数据集|自然语言处理数据集
收藏
- Cornell Movie-Dialogs Corpus首次发表,由康奈尔大学的研究人员Christopher Potts和Justine Cassell等人创建,旨在为自然语言处理和对话系统研究提供丰富的电影对话数据。
- 该数据集首次应用于学术研究,特别是在对话系统、情感分析和文本生成等领域,为研究人员提供了宝贵的资源。
- Cornell Movie-Dialogs Corpus被广泛应用于多个国际会议和期刊的论文中,成为对话系统研究的重要基准数据集之一。
- 随着深度学习技术的发展,该数据集开始被用于训练和评估基于神经网络的对话模型,进一步推动了对话系统的发展。
- Cornell Movie-Dialogs Corpus被整合到多个开源项目和工具包中,如NLTK和Gensim,方便研究人员和开发者使用。
- 该数据集在自然语言处理领域的应用进一步扩展,包括对话生成、情感识别和角色扮演等多个新兴研究方向。
- 随着对话系统技术的成熟,Cornell Movie-Dialogs Corpus继续作为经典数据集被广泛引用和应用,支持新一代对话系统的研发。
- 1Cornell Movie-Dialogs CorpusCornell University · 2011年
- 2A Neural Conversational ModelGoogle Research · 2015年
- 3DialogueRNN: An Attentive RNN for Emotion Detection in ConversationsUniversity of California, Irvine · 2019年
- 4DialogueGCN: A Graph Convolutional Neural Network for Emotion Recognition in ConversationUniversity of California, Irvine · 2020年
- 5A Survey on Dialogue Systems: Recent Advances and New FrontiersUniversity of Texas at Austin · 2017年
VisDrone2019
VisDrone2019数据集由AISKYEYE团队在天津大学机器学习和数据挖掘实验室收集,包含288个视频片段共261,908帧和10,209张静态图像。数据集覆盖了中国14个不同城市的城市和乡村环境,包括行人、车辆、自行车等多种目标,以及稀疏和拥挤场景。数据集使用不同型号的无人机在各种天气和光照条件下收集,手动标注了超过260万个目标边界框,并提供了场景可见性、对象类别和遮挡等重要属性。
github 收录
中国气象数据
本数据集包含了中国2023年1月至11月的气象数据,包括日照时间、降雨量、温度、风速等关键数据。通过这些数据,可以深入了解气象现象对不同地区的影响,并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。
github 收录
网易云音乐数据集
该数据集包含了网易云音乐平台上的歌手信息、歌曲信息和歌单信息,数据通过爬虫技术获取并整理成CSV格式,用于音乐数据挖掘和推荐系统构建。
github 收录
CE-CSL
CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集,旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段,涵盖超过70种不同的复杂背景,确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向,通过收集大量真实场景下的手语视频材料,覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域,旨在提高手语识别技术在复杂环境中的准确性和效率,促进聋人与听人社区之间的无障碍沟通。
arXiv 收录
Data_on_Data_Analysts
我们正在探索数据分析师职位的就业市场趋势:需求技能、薪资变化和招聘模式。该数据集汇编了美国数据分析师职位的招聘信息,直接来源于Google的职位搜索结果。数据收集始于2022年11月4日,并持续增长,每天新增约100个职位信息,提供了当前就业市场的持续更新快照。
github 收录