five

CMU Movie Summary Corpus|文本分析数据集|自然语言处理数据集

收藏
OpenDataLab2025-04-05 更新2024-05-09 收录
文本分析
自然语言处理
下载链接:
https://opendatalab.org.cn/OpenDataLab/CMU_Movie_Summary_Corpus
下载链接
链接失效反馈
资源简介:
数据集 [46 M] 和自述文件:从 Wikipedia 中提取的 42,306 个电影情节摘要 + 从 Freebase 中提取的对齐元数据,包括:电影票房收入、类型、发行日期、运行时间和语言角色名称和有关描绘他们的演员的对齐信息,包括电影上映时的性别和估计年龄 补充:Stanford CoreNLP 处理的摘要 [628 M]。上面的所有情节摘要都通过斯坦福 CoreNLP 管道(标记、解析、NER 和 coref)运行。
提供机构:
OpenDataLab
创建时间:
2022-05-23
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

URPC系列数据集, S-URPC2019, UDD

URPC系列数据集包括URPC2017至URPC2020DL,主要用于水下目标的检测和分类。S-URPC2019专注于水下环境的特定检测任务。UDD数据集信息未在README中详细描述。

github 收录

GME Data

关于2021年GameStop股票活动的数据,包括每日合并的GME短期成交量数据、每日失败交付数据、可借股数、期权链数据以及不同时间框架的开盘/最高/最低/收盘/成交量条形图。

github 收录

Plant-Diseases

Dataset for Plant Diseases containg variours Plant Disease

kaggle 收录

M3FD

M3FD数据集由大连理工大学软件学院创建,包含4200对校准后的红外和可见光图像,覆盖多种场景和像素变化,特别强调两种模式的广泛范围。数据集旨在支持对象检测任务,通过融合红外和可见光图像,提高检测精度和视觉质量。M3FD数据集的应用领域包括监控和自动驾驶等,旨在解决多模态图像融合和对象检测中的挑战。

arXiv 收录

Global Burden of Disease (GBD)

全球疾病负担数据库(Global Burden of Disease,GBD)是一个全球性的健康数据平台,旨在提供详尽的健康数据资源,涵盖调查、人口普查、生命统计等多方面信息,为全球健康研究提供重要支持。该数据库可通过其官方网站访问,为非商业用户免费提供数据下载、共享、修改及二次开发等服务,但需遵循 IHME 免费非商业用户协议,商业用途需咨询 IHME 条款和条件。GBD 2021 数据及所有 IHME 数据均在此平台提供,是健康数据研究者的重要资源。

ghdx.healthdata.org 收录