EugeneMeng/Hongguo-Short-Drama-Corpus-AI-Labeled

Name: EugeneMeng/Hongguo-Short-Drama-Corpus-AI-Labeled
Creator: EugeneMeng
Published: 2026-05-02 03:22:01
License: 暂无描述

Hugging Face2026-05-02 更新2026-05-03 收录

下载链接：

https://hf-mirror.com/datasets/EugeneMeng/Hongguo-Short-Drama-Corpus-AI-Labeled

下载链接

链接失效反馈

官方服务：

资源简介：

本数据集包含了约1500条来自红果平台的微短剧精选数据，旨在为中文短剧的NLP研究、市场趋势分析以及自动化剧名生成等任务提供高质量的基准数据。数据集具有多维度标注，涵盖了标题、受众、标签、简介及集数，并且使用了AI增强受众标签技术，针对部分原始数据未标注受众标签的问题，使用了专门的sex_divide.py脚本进行预测，并保留了预测置信度。数据字段包括drama_id、title、audience_type、tags、episode_count、description、ai_confidence和label_source。数据来源为红果平台公开信息，标注过程包括提取平台原有的受众标签和使用AI预测缺失标签。

This dataset contains approximately 1,500 selected micro-drama data from the Hongguo platform, aiming to provide high-quality benchmark data for NLP research, market trend analysis, and automated drama title generation tasks for Chinese short dramas. The dataset features multi-dimensional annotations, covering titles, audiences, tags, descriptions, and episode counts, and uses AI-enhanced audience labeling technology. For some original data without audience labels, a specialized sex_divide.py script was used for prediction, and the prediction confidence was retained. Data fields include drama_id, title, audience_type, tags, episode_count, description, ai_confidence, and label_source. The data source is public information from the Hongguo platform, and the annotation process includes extracting original audience labels from the platform and using AI to predict missing labels.

提供机构：

EugeneMeng

搜集汇总

数据集介绍

构建方式

在短剧内容生态蓬勃发展的当下，精确的文本语料成为自然语言处理研究的重要基石。该数据集的构建始于对红果平台公开微短剧信息的系统采集，随后针对原始数据中受众标签缺失的问题，引入了基于TF-IDF特征提取与逻辑回归分类器的预测模型。通过`sex_divide.py`脚本，利用剧集的标题与简介语义特征推断性别偏好，最终形成涵盖约1500条记录的多维度标注语料库。每一条目均包含脱敏编号、标题、受众类型、标签、集数、剧情简介、AI预测置信度及标签来源字段，实现了从原始信息到结构化标注的完整流程。

使用方法

研究人员可灵活调用该数据集开展多样化任务。最简单的接入方式是通过Pandas库读取Parquet格式文件，快速加载数据框后进行探索性分析或模型训练。对于文本分类任务，可直接以`title`与`description`作为输入特征，将`audience_type`作为目标标签；在特征提取场景中，多字段的语义信息能辅助构建剧名生成或标签推荐系统。建议使用者根据`label_source`字段筛选数据，以保证训练集标签可靠性，并利用`ai_confidence`字段调整预测标签的权重，在学术研究中实现最佳效果。

背景与挑战

背景概述

随着移动互联网的快速发展，微短剧作为一种新兴的娱乐内容形式，以其短小精悍、情节紧凑的特点迅速占领了用户碎片化时间，成为数字娱乐领域的重要增长点。在此背景下，2025年由个人研究者构建的Hongguo-Short-Drama-Corpus-AI-Labeled数据集应运而生，面向中文微短剧的多维度自然语言处理研究。该数据集收录了约1500条来自红果平台的精选微短剧信息，涵盖标题、受众类型、标签、简介及集数等字段，并创新性地引入AI增强受众标签，针对原始数据中缺失的受众信息进行预测补充。数据集聚焦于短剧市场趋势分析、自动化剧名生成等核心研究问题，为理解中文微短剧的语言特征与受众偏好提供了高质量基准，弥补了该领域结构化数据的空白。

当前挑战

本数据集所解决的领域挑战在于微短剧内容理解与受众画像的自动化分析，尤其是传统文本分类方法在处理短剧标题与简介时面临语义稀疏、标签噪声等问题，难以精准捕捉性别偏好的细微差异。在构建过程中，主要挑战包括：1) 原始数据中受众标签大量缺失，需依赖TF-IDF与逻辑回归模型进行预测，但模型受限于关键词特征与训练样本规模，导致部分预测置信度较低，且可能存在偏差；2) 数据采集自公开平台，需严格处理隐私脱敏与版权合规问题，避免触发法务风险；3) 标签体系覆盖度有限，仅区分男频/女频，难以反映更复杂的受众细分偏好，且预测结果仅供学术参考，无法完全代表真实市场分布。

常用场景

经典使用场景

《Hongguo-Short-Drama-Corpus-AI-Labeled》数据集汇聚了来自红果平台的约1500条微短剧数据，涵盖标题、受众类型、标签、简介及集数等丰富信息。其经典使用场景在于为中文短剧领域的自然语言处理（NLP）研究提供高质量的基准数据，尤其适用于文本分类任务，如受众性别偏好预测、剧集标签多标签分类，以及基于标题和简介的语义理解与特征提取。研究者可借助该数据集开展短剧标题的自动化生成、剧情简介的摘要提炼，甚至探索短剧市场趋势与叙事模式的挖掘，从而为新兴微短剧生态的数字化分析奠定坚实的数据基础。

解决学术问题

该数据集核心解决了微短剧领域结构化标注数据匮乏的难题，填补了中文短剧在受众细分研究中的空白。通过引入AI增强的受众标签（男频/女频）及置信度指标，它助力学界探讨性别偏好如何影响短剧内容创作与传播机制，例如标题语言风格、标签组合与受众吸引度之间的关联。此外，数据集为验证TF-IDF与逻辑回归等传统机器学习方法在短文本性别预测中的有效性提供了实验平台，推动了低资源场景下的半监督标注技术革新。其意义在于，不仅促进了娱乐产业与计算语言学的交叉研究，还为理解数字时代文化产品的差异化供给提供了定量分析工具。

实际应用

在实际应用层面，该数据集可赋能多家领域：内容创作平台上，自动标签系统能辅助剧集分类与个性化推荐，提升用户检索效率；市场营销中，基于受众类型的预测结果可指导广告定向投放与宣传策略优化，尤其针对男频/女频偏好的差异化触达。影视制作决策时，剧本评估工具可借助数据集挖掘爆款标题的共性特征，降低投资风险。此外，舆情监测系统能通过分析短剧简介与用户评论，实时洞察流行叙事主题的演变。这些应用均受益于数据集的多维标注与可复用的预测脚本，推动短剧产业链从经验驱动向数据驱动转型。

数据集最近研究