five

CMU Movie Summary Corpus|文本分析数据集|自然语言处理数据集

收藏
OpenDataLab2025-04-05 更新2024-05-09 收录
文本分析
自然语言处理
下载链接:
https://opendatalab.org.cn/OpenDataLab/CMU_Movie_Summary_Corpus
下载链接
链接失效反馈
资源简介:
数据集 [46 M] 和自述文件:从 Wikipedia 中提取的 42,306 个电影情节摘要 + 从 Freebase 中提取的对齐元数据,包括:电影票房收入、类型、发行日期、运行时间和语言角色名称和有关描绘他们的演员的对齐信息,包括电影上映时的性别和估计年龄 补充:Stanford CoreNLP 处理的摘要 [628 M]。上面的所有情节摘要都通过斯坦福 CoreNLP 管道(标记、解析、NER 和 coref)运行。
提供机构:
OpenDataLab
创建时间:
2022-05-23
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

rule34lol-images-part2

该数据集'rule34lol-images-part2'是'rule34lol-images'数据集的第二部分,包含来自rule34.lol图像板的77,000个图像文件的元数据。数据集包括每个图像的URL、图像URL、文件路径和标签等字段。图像存储在zip存档中,并提供索引文件以便于访问。该数据集采用CC0许可,允许无限制使用、修改和分发。

huggingface 收录

AIS数据集

该研究使用了多个公开的AIS数据集,这些数据集经过过滤、清理和统计分析。数据集涵盖了多种类型的船舶,并提供了关于船舶位置、速度和航向的关键信息。数据集包括来自19,185艘船舶的AIS消息,总计约6.4亿条记录。

github 收录

Oxford 102 Flowers

牛津102花卉数据集是一个主要用于图像分类的花卉集合数据集,分为102个类别,共102种花卉,其中每个类别包含40到258幅图像。 该数据集由牛津大学工程科学系2008年在相关论文 “大量类别上的自动花分类” 中发布

OpenDataLab 收录

Breast Cancer Dataset

该项目专注于清理和转换一个乳腺癌数据集,该数据集最初由卢布尔雅那大学医学中心肿瘤研究所获得。目标是通过应用各种数据转换技术(如分类、编码和二值化)来创建一个可以由数据科学团队用于未来分析的精炼数据集。

github 收录

CMU-MOSI

CMU-MOSI数据集包括了从93个YouTube的视频中获取的2199个独白类型的短视频片段。每个片段都是一个独立的多模态示例,其中图像、文本和音频占比是均匀的,情感分数取值为[-3,+3],表示从强负向到强正向情感。

DataCite Commons 收录