lorinma/PetrochemicalCorpora_CPTtest_200bks_zh
收藏Hugging Face2024-02-04 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/lorinma/PetrochemicalCorpora_CPTtest_200bks_zh
下载链接
链接失效反馈官方服务:
资源简介:
用于垂域(化工)LLM的增量预训练使用的语料,测试版。200本书,仅经过了OCR,没有进行任何数据清理,所以质量不高。尤其是涉及到复杂的表格和公式,以及这批书的扫描质量偏低。仅用于测试使用。
用于垂域(化工)LLM的增量预训练使用的语料,测试版。200本书,仅经过了OCR,没有进行任何数据清理,所以质量不高。尤其是涉及到复杂的表格和公式,以及这批书的扫描质量偏低。仅用于测试使用。
提供机构:
lorinma
原始信息汇总
数据集概述
数据集基本信息
- 任务类别:text-generation
- 语言:中文(zh)
- 数据集大小:10K<n<100K
数据集描述
- 用途:用于垂域(化工)LLM的增量预训练。
- 内容:包含200本书的文本,主要涉及化工领域的知识。
- 质量:数据未经清理,尤其是复杂的表格和公式处理不当,扫描质量较低。
- 使用限制:仅用于测试目的。
样例内容
- 样例1:涉及化工设备和管道的详细描述,包括安全设施、管道规格、仪表配置等。
- 样例2:关于化工物质的安全处理和中毒预防措施,如环氧乙烷和乙二醇的处理方法。



