five

lorinma/BookBasedQAGen_Petrochemical

收藏
Hugging Face2024-04-22 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/lorinma/BookBasedQAGen_Petrochemical
下载链接
链接失效反馈
官方服务:
资源简介:
--- license: mit task_categories: - question-answering language: - zh tags: - chemistry --- 如果你有领域相关的一些文本材料(可以是OCR出来还比较脏的数据),想转化成单轮 alpaca 形式的的QA对,这是一个简易的教程。也就图一乐,因为真正高质量的领域QA还是得来自于行业专家,并且向LLM注入领域知识应该通过pretrain而不是SFT也已经是共识了。 bookgen文件夹中包含了样例文本和py文件,注意prompt根据领域调整一下,即使原始语料比较脏LLM也基本可以理解。并没有核查过会不会出现幻觉现象。 当然了2024年已经不太容易低成本的买到奥特曼的key了,所以这个过程会有点贵。BUT! 只要是和OpenAI SDK兼容的API服务都可以平滑迁移,比如零一万物的API注册即送60元,34B贼便宜用不完根本用不完,百B模型也即将上线(效果真的好)。 https://platform.lingyiwanwu.com/ 这组数据是于23年6月使用3.5-turbo生成的,只放了一部分,随便玩玩就好~ ![image/png](https://cdn-uploads.huggingface.co/production/uploads/6413d7be996b2e426f230fb7/396mpWSLFmtzAM0unl1cE.png) glhf :-)
提供机构:
lorinma
原始信息汇总

数据集概述

基本信息

  • 许可证: MIT
  • 任务类别: 问答
  • 语言: 中文
  • 标签: 化学

数据集内容

  • 数据集包含用于将领域相关文本材料转换为单轮问答对的样例文本和Python文件。
  • 数据集中的prompt需要根据领域进行调整,即使原始语料质量较低,大型语言模型(LLM)也能基本理解。
  • 数据集未核查是否存在幻觉现象。

生成信息

  • 数据集是于2023年6月使用3.5-turbo模型生成的,目前只公开了一部分数据。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作