vishnupriyavr/wiki-movie-plots-with-summaries
收藏Hugging Face2023-10-08 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/vishnupriyavr/wiki-movie-plots-with-summaries
下载链接
链接失效反馈官方服务:
资源简介:
---
license:
- cc-by-sa-4.0
converted_from: kaggle
kaggle_id: gabrieltardochi/wikipedia-movie-plots-with-plot-summaries
---
# Dataset Card for Wikipedia Movie Plots with AI Plot Summaries
## Table of Contents
- [Table of Contents](#table-of-contents)
- [Dataset Description](#dataset-description)
- [Dataset Summary](#dataset-summary)
- [Supported Tasks and Leaderboards](#supported-tasks-and-leaderboards)
- [Languages](#languages)
- [Dataset Structure](#dataset-structure)
- [Data Instances](#data-instances)
- [Data Fields](#data-fields)
- [Data Splits](#data-splits)
- [Dataset Creation](#dataset-creation)
- [Curation Rationale](#curation-rationale)
- [Source Data](#source-data)
- [Annotations](#annotations)
- [Personal and Sensitive Information](#personal-and-sensitive-information)
- [Considerations for Using the Data](#considerations-for-using-the-data)
- [Social Impact of Dataset](#social-impact-of-dataset)
- [Discussion of Biases](#discussion-of-biases)
- [Other Known Limitations](#other-known-limitations)
- [Additional Information](#additional-information)
- [Dataset Curators](#dataset-curators)
- [Licensing Information](#licensing-information)
- [Citation Information](#citation-information)
- [Contributions](#contributions)
## Dataset Description
- **Homepage:** https://kaggle.com/datasets/gabrieltardochi/wikipedia-movie-plots-with-plot-summaries
- **Repository:**
- **Paper:**
- **Leaderboard:**
- **Point of Contact:**
### Dataset Summary
### Context
Wikipedia Movies Plots dataset by JustinR ( https://www.kaggle.com/jrobischon/wikipedia-movie-plots )
### Content
Everything is the same as in https://www.kaggle.com/jrobischon/wikipedia-movie-plots
### Acknowledgements
Please, go upvote https://www.kaggle.com/jrobischon/wikipedia-movie-plots dataset, since this is 100% based on that.
### Supported Tasks and Leaderboards
[More Information Needed]
### Languages
[More Information Needed]
## Dataset Structure
### Data Instances
[More Information Needed]
### Data Fields
[More Information Needed]
### Data Splits
[More Information Needed]
## Dataset Creation
### Curation Rationale
[More Information Needed]
### Source Data
#### Initial Data Collection and Normalization
[More Information Needed]
#### Who are the source language producers?
[More Information Needed]
### Annotations
#### Annotation process
[More Information Needed]
#### Who are the annotators?
[More Information Needed]
### Personal and Sensitive Information
[More Information Needed]
## Considerations for Using the Data
### Social Impact of Dataset
[More Information Needed]
### Discussion of Biases
[More Information Needed]
### Other Known Limitations
[More Information Needed]
## Additional Information
### Dataset Curators
This dataset was shared by [@gabrieltardochi](https://kaggle.com/gabrieltardochi)
### Licensing Information
The license for this dataset is cc-by-sa-4.0
### Citation Information
```bibtex
[More Information Needed]
```
### Contributions
[More Information Needed]
许可证:
- 知识共享署名-相同方式共享4.0(CC BY-SA 4.0)
转换来源:Kaggle平台
Kaggle数据集ID:gabrieltardochi/wikipedia-movie-plots-with-plot-summaries
# 带AI生成剧情摘要的维基百科电影剧情数据集卡片
## 目录
- [目录](#目录)
- [数据集描述](#数据集描述)
- [数据集概览](#数据集概览)
- [支持任务与排行榜](#支持任务与排行榜)
- [语言](#语言)
- [数据集结构](#数据集结构)
- [数据实例](#数据实例)
- [数据字段](#数据字段)
- [数据划分](#数据划分)
- [数据集构建](#数据集构建)
- [数据集筛选逻辑](#数据集筛选逻辑)
- [源数据](#源数据)
- [标注信息](#标注信息)
- [个人与敏感信息](#个人与敏感信息)
- [数据集使用注意事项](#数据集使用注意事项)
- [数据集的社会影响](#数据集的社会影响)
- [偏差讨论](#偏差讨论)
- [其他已知局限性](#其他已知局限性)
- [附加信息](#附加信息)
- [数据集维护者](#数据集维护者)
- [许可证信息](#许可证信息)
- [引用信息](#引用信息)
- [贡献信息](#贡献信息)
## 数据集描述
- **主页:** https://kaggle.com/datasets/gabrieltardochi/wikipedia-movie-plots-with-plot-summaries
- **代码仓库:**
- **相关论文:**
- **排行榜:**
- **联系人:**
### 数据集概览
#### 背景
本数据集基于JustinR发布的《维基百科电影剧情》数据集(https://www.kaggle.com/jrobischon/wikipedia-movie-plots)
#### 数据集内容
本数据集的内容与https://www.kaggle.com/jrobischon/wikipedia-movie-plots完全一致
#### 致谢
本数据集100%基于上述JustinR的数据集,请前往为该数据集点赞(https://www.kaggle.com/jrobischon/wikipedia-movie-plots)
### 支持任务与排行榜
【需补充更多信息】
### 语言
【需补充更多信息】
## 数据集结构
### 数据实例
【需补充更多信息】
### 数据字段
【需补充更多信息】
### 数据划分
【需补充更多信息】
## 数据集构建
### 数据集筛选逻辑
【需补充更多信息】
### 源数据
#### 初始数据收集与标准化
【需补充更多信息】
#### 源语言生产者是谁?
【需补充更多信息】
### 标注信息
#### 标注流程
【需补充更多信息】
#### 标注者是谁?
【需补充更多信息】
### 个人与敏感信息
【需补充更多信息】
## 数据集使用注意事项
### 数据集的社会影响
【需补充更多信息】
### 偏差讨论
【需补充更多信息】
### 其他已知局限性
【需补充更多信息】
## 附加信息
### 数据集维护者
本数据集由[@gabrieltardochi](https://kaggle.com/gabrieltardochi)共享
### 许可证信息
本数据集采用知识共享署名-相同方式共享4.0(CC BY-SA 4.0)协议进行授权
### 引用信息
bibtex
【需补充更多信息】
### 贡献信息
【需补充更多信息】
提供机构:
vishnupriyavr
原始信息汇总
数据集卡片 - Wikipedia Movie Plots with AI Plot Summaries
数据集描述
数据集摘要
支持的任务和排行榜
[更多信息需补充]
语言
[更多信息需补充]
数据集结构
数据实例
[更多信息需补充]
数据字段
[更多信息需补充]
数据分割
[更多信息需补充]
数据集创建
策划理由
[更多信息需补充]
源数据
初始数据收集和规范化
[更多信息需补充]
源语言生产者
[更多信息需补充]
注释
注释过程
[更多信息需补充]
注释者
[更多信息需补充]
个人和敏感信息
[更多信息需补充]
使用数据集的考虑因素
数据集的社会影响
[更多信息需补充]
偏见的讨论
[更多信息需补充]
其他已知限制
[更多信息需补充]
附加信息
数据集策展人
该数据集由 @gabrieltardochi 分享。
许可信息
该数据集的许可为 cc-by-sa-4.0。
引用信息
bibtex [更多信息需补充]
贡献
[更多信息需补充]
搜集汇总
数据集介绍

构建方式
在电影信息挖掘领域,vishnupriyavr/wiki-movie-plots-with-summaries数据集源自Kaggle平台上的Wikipedia Movie Plots原始资源,经由社区贡献者转换并引入HuggingFace生态。其构建过程主要依赖于对维基百科电影条目中情节描述的自动化采集与整理,原始数据由网络用户协同编辑生成,确保了内容的广泛覆盖。数据集以结构化形式呈现,遵循CC BY-SA 4.0许可协议,体现了开放协作的知识共享精神。
特点
该数据集的核心特点在于其囊括了维基百科中丰富的电影情节原文,为自然语言处理任务提供了宝贵的文本语料。每一数据实例均关联特定影片,蕴含了叙事结构、角色关系及主题元素等多维度信息。尽管数据字段与划分细节在现有文档中尚未明确,但其源于社区驱动的特性使其具备了持续扩展与更新的潜力,适用于跨语言、跨文化的电影内容分析。
使用方法
针对电影文本分析的研究,该数据集可作为训练与评估模型的基础资源,尤其适用于摘要生成、情节分类及叙事模式识别等任务。使用者可通过HuggingFace数据集库直接加载,并依据CC BY-SA 4.0协议的要求进行后续处理与分发。鉴于数据源的自发性,在实际应用中需注意潜在的内容偏差与完整性限制,建议结合领域知识进行数据清洗与验证,以确保分析结果的稳健性。
背景与挑战
背景概述
在自然语言处理领域,电影情节文本数据为叙事理解与生成任务提供了丰富的语义资源。vishnupriyavr/wiki-movie-plots-with-summaries数据集基于Kaggle平台上的Wikipedia Movie Plots原始数据构建,由贡献者gabrieltardochi于2023年整理并共享,遵循CC BY-SA 4.0许可协议。该数据集的核心研究问题聚焦于利用维基百科中结构化的电影情节描述,推动文本摘要、情节分析及跨模态叙事建模等任务的发展。其整合了海量电影叙事文本,为学术界探索故事线提取、情感弧识别以及自动化内容生成提供了关键语料基础,显著促进了计算叙事学与娱乐分析领域的实证研究。
当前挑战
该数据集旨在应对电影情节文本的自动化处理与深度语义理解挑战,具体包括如何从非结构化的叙事描述中抽取出连贯的故事要素,以及如何生成准确且流畅的情节摘要。在构建过程中,数据来源于维基百科的众包编辑,这导致了文本质量与风格的不一致性,例如叙述详略差异、文化偏见隐含以及事实准确性验证困难。此外,原始数据缺乏统一的标注框架与任务导向的划分,使得模型训练与评估面临数据噪声干扰与领域适应性问题,制约了其在复杂叙事推理任务中的直接应用。
常用场景
经典使用场景
在自然语言处理领域,电影情节与摘要数据集为文本摘要生成任务提供了丰富的训练资源。该数据集整合了维基百科电影情节描述与人工智能生成的摘要,使得研究者能够利用其进行自动摘要模型的训练与评估。通过对比原始情节文本与摘要文本,模型可以学习如何从冗长叙述中提取关键信息,生成简洁而准确的摘要,这在文本压缩和信息检索中具有重要价值。
衍生相关工作
围绕该数据集,已衍生出多项经典研究工作,主要集中在文本摘要与叙事分析方向。例如,基于Transformer的摘要模型利用该数据进行微调,提升了生成摘要的连贯性与信息密度。此外,研究者还探索了跨语言摘要迁移、情节结构挖掘等任务,这些工作不仅丰富了自然语言处理的应用场景,也为计算叙事学等交叉学科提供了数据基础。
数据集最近研究
最新研究方向
在自然语言处理领域,电影情节数据集正成为叙事分析与生成模型研究的关键资源。该数据集整合了维基百科电影情节与AI生成的摘要,为文本摘要、情节生成及跨模态理解提供了丰富素材。前沿研究聚焦于利用此类数据训练大型语言模型,以提升情节连贯性生成与风格迁移能力,同时探索其在电影推荐系统与文化遗产数字化中的应用。热点事件如生成式AI的兴起,推动了基于电影情节的创意写作辅助工具开发,其影响在于深化了机器对复杂叙事结构的理解,并为娱乐产业智能化转型提供了数据支撑。
以上内容由遇见数据集搜集并总结生成



