nothingiisreal/screenplays-3k
收藏Hugging Face2024-05-31 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/nothingiisreal/screenplays-3k
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含2500多个来自scriptlab的剧本,主要用于科学研究。数据集中的`texts`文件夹包含从PDF转换而来的.txt文件,但部分文件存在格式问题、空白或文本混淆的情况。原始计划使用OCR技术,但由于某些PDF文件包含图像解压缩炸弹,导致部分文件无法转换为.txt格式。建议使用LLM进行数据清理,但不要改变实际内容。
该数据集包含2500多个来自scriptlab的剧本,主要用于科学研究。数据集中的`texts`文件夹包含从PDF转换而来的.txt文件,但部分文件存在格式问题、空白或文本混淆的情况。原始计划使用OCR技术,但由于某些PDF文件包含图像解压缩炸弹,导致部分文件无法转换为.txt格式。建议使用LLM进行数据清理,但不要改变实际内容。
提供机构:
nothingiisreal
原始信息汇总
数据集概述
数据集内容
- 包含2500多个剧本,来源于scriptlab,主要用于科学研究。
文件结构
texts文件夹:包含从PDF转换而来的.txt文件。约1/6的文件存在格式问题,部分文件为空白或文本被混淆。建议根据文件大小排序并移除空白文件,可能需要进一步清理。
注意事项
- 原计划使用OCR技术处理,但由于部分PDF文件中存在图像解压缩炸弹,目前约1/6的DRM保护PDF文件无法转换为.txt格式。用户可自行转换并提交合并请求。
- 压缩文件(TAR格式)是文件夹的压缩版本。
建议使用
- 推荐使用大型语言模型(LLM)进行数据清理,确保不改变原始内容。



