five

lorinma/PetrochemicalCorpora_CPTtest_200bks_zh

收藏
Hugging Face2024-02-04 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/lorinma/PetrochemicalCorpora_CPTtest_200bks_zh
下载链接
链接失效反馈
官方服务:
资源简介:
用于垂域(化工)LLM的增量预训练使用的语料,测试版。200本书,仅经过了OCR,没有进行任何数据清理,所以质量不高。尤其是涉及到复杂的表格和公式,以及这批书的扫描质量偏低。仅用于测试使用。

用于垂域(化工)LLM的增量预训练使用的语料,测试版。200本书,仅经过了OCR,没有进行任何数据清理,所以质量不高。尤其是涉及到复杂的表格和公式,以及这批书的扫描质量偏低。仅用于测试使用。
提供机构:
lorinma
原始信息汇总

数据集概述

数据集基本信息

  • 任务类别:text-generation
  • 语言:中文(zh)
  • 数据集大小:10K<n<100K

数据集描述

  • 用途:用于垂域(化工)LLM的增量预训练。
  • 内容:包含200本书的文本,主要涉及化工领域的知识。
  • 质量:数据未经清理,尤其是复杂的表格和公式处理不当,扫描质量较低。
  • 使用限制:仅用于测试目的。

样例内容

  • 样例1:涉及化工设备和管道的详细描述,包括安全设施、管道规格、仪表配置等。
  • 样例2:关于化工物质的安全处理和中毒预防措施,如环氧乙烷和乙二醇的处理方法。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作