five

nothingiisreal/screenplays-3k

收藏
Hugging Face2024-05-31 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/nothingiisreal/screenplays-3k
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含2500多个来自scriptlab的剧本,主要用于科学研究。数据集中的`texts`文件夹包含从PDF转换而来的.txt文件,但部分文件存在格式问题、空白或文本混淆的情况。原始计划使用OCR技术,但由于某些PDF文件包含图像解压缩炸弹,导致部分文件无法转换为.txt格式。建议使用LLM进行数据清理,但不要改变实际内容。

该数据集包含2500多个来自scriptlab的剧本,主要用于科学研究。数据集中的`texts`文件夹包含从PDF转换而来的.txt文件,但部分文件存在格式问题、空白或文本混淆的情况。原始计划使用OCR技术,但由于某些PDF文件包含图像解压缩炸弹,导致部分文件无法转换为.txt格式。建议使用LLM进行数据清理,但不要改变实际内容。
提供机构:
nothingiisreal
原始信息汇总

数据集概述

数据集内容

  • 包含2500多个剧本,来源于scriptlab,主要用于科学研究。

文件结构

  • texts 文件夹:包含从PDF转换而来的.txt文件。约1/6的文件存在格式问题,部分文件为空白或文本被混淆。建议根据文件大小排序并移除空白文件,可能需要进一步清理。

注意事项

  • 原计划使用OCR技术处理,但由于部分PDF文件中存在图像解压缩炸弹,目前约1/6的DRM保护PDF文件无法转换为.txt格式。用户可自行转换并提交合并请求。
  • 压缩文件(TAR格式)是文件夹的压缩版本。

建议使用

  • 推荐使用大型语言模型(LLM)进行数据清理,确保不改变原始内容。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作