science-on-a-sphere-prompt-completions
收藏Hugging Face2025-05-13 更新2025-05-14 收录
下载链接:
https://huggingface.co/datasets/HacksHaven/science-on-a-sphere-prompt-completions
下载链接
链接失效反馈官方服务:
资源简介:
Science On a Sphere QA数据集是由美国国家海洋和大气管理局(NOAA)的Science On a Sphere网站内容生成的问答对数据集。该数据集包含从该网站提取的问题和相应的由大型语言模型生成的答案,旨在支持科学通信和教育领域的研究和应用。数据集采用JSONL格式,可通过Hugging Face的datasets库加载,适合用于训练和评估科学教育领域的问答模型。
创建时间:
2025-05-09
原始信息汇总
Science On a Sphere QA Dataset 概述
数据集详情
数据集描述
- 内容:包含从NOAA的Science On a Sphere (SOS)网站生成的问答对,支持文档和数据集目录。
- 格式:JSONL格式,每个条目包含提示和对应的完成。
- 用途:支持地球科学领域的教育和研究用例。
- 相关产品:NOAA的SOS产品线,包括物理SOS安装和SOS Explorer平台。
数据集来源
- 来源网站:https://sos.noaa.gov/
- 存储库:https://huggingface.co/datasets/HacksHaven/science-on-a-sphere-prompt-completions/
文件
sos_qa_pairs.jsonl:用于训练的提示-完成对。
使用方式
python from datasets import load_dataset dataset = load_dataset("HacksHaven/science-on-a-sphere-prompt-completions", data_files="*.jsonl")
数据集结构
- 字段:
prompt:学生友好的问题。completion:基于数据集描述的事实性结构化答案。title:原始SOS数据集的名称。categories:结构化类别路径列表。tags:与数据集相关的关键词。date_added:数据集的发布日期(ISO格式)。url:原始SOS数据集页面的链接。ftp_download:相关数据的直接FTP链接(如果可用)。source:通常为“SOS Catalog”。language:提示和完成的语言(如“en”)。modality:始终为“text”。difficulty:估计的难度评级(如“easy”、“medium”、“hard”)。
数据集创建
创建理由
支持科学传播和教育领域的LLM研究和应用。
源数据
- 数据收集和处理:内容从https://sos.noaa.gov/提取,包括帮助文章、产品文档和目录条目。
- 数据生产者:NOAA Science On a Sphere团队编写和发布源内容,Eric Hackathorn生成和策划提示-完成对。
注释
- 注释过程:使用LLM(Gemma3:12b)创建问答对,并进行手动审查。
- 注释者:Eric Hackathorn。
偏见、风险和限制
- 答案可能反映生成它们的LLM的局限性或偏见。
- 某些内容可能过度简化复杂的科学现象。
- NOAA未正式批准完成内容。
建议
- 适用于非正式教育和研究用途。
- 在正式教育或公共宣传环境中使用前应验证输出。
引用
BibTeX: bibtex @dataset{hackathorn_2025_sosqa, title = {Science On a Sphere QA Dataset}, author = {Hackathorn, Eric}, year = {2025}, url = {https://huggingface.co/datasets/HacksHaven/science-on-a-sphere-prompt-completions/} }
APA: Hackathorn, E. (2025). Science On a Sphere QA Dataset. Hugging Face. https://huggingface.co/datasets/HacksHaven/science-on-a-sphere-prompt-completions/
更多信息
https://sos.noaa.gov/
数据集联系人
Eric Hackathorn
Eric.J.Hackathorn@noaa.gov
搜集汇总
数据集介绍

构建方式
该数据集基于美国国家海洋和大气管理局(NOAA)的Science On a Sphere(SOS)网站内容构建,涵盖地球科学领域的问答对。数据收集过程涉及从SOS网站提取帮助文章、产品文档和目录条目,随后利用gemma3:12b大型语言模型生成问答对,并经过人工审核以确保相关性和准确性。这一过程结合了自动化生成与专家审核,确保了数据质量。
特点
该数据集以JSONL格式存储,每条记录包含问题、答案、标题、分类、标签等丰富字段。其特点在于问题设计符合学生友好型标准,答案则基于SOS数据集的描述,具有结构化和事实性。数据集覆盖多种难度级别,适用于不同层次的学习需求,且所有内容均源自权威的科学机构,保证了信息的可靠性。
使用方法
该数据集适用于训练和评估问答模型,尤其适合科学教育领域的应用。用户可通过Hugging Face的datasets库加载数据,具体操作为调用load_dataset函数并指定数据集名称及文件格式。数据集旨在支持非正式教育和研究用途,建议在使用前验证输出内容的准确性,以确保其在正式教育或公共宣传中的适用性。
背景与挑战
背景概述
由美国国家海洋和大气管理局(NOAA)主导的Science On a Sphere QA数据集,旨在支持地球科学领域的教育及研究应用。该数据集基于NOAA的Science On a Sphere(SOS)项目,通过整合其官方网站的支持文档和数据集目录,构建了一系列问答对。数据集由Eric Hackathorn主导开发,采用Gemma3:12b大语言模型生成初始问答对,并经过人工审核以确保内容的准确性和教育价值。其核心研究问题聚焦于如何利用结构化数据提升科学传播与教育的效果,特别是在地球科学领域。该数据集不仅为大型语言模型的研究提供了丰富资源,同时也为教育工具和交互式内容的开发奠定了基础。
当前挑战
Science On a Sphere QA数据集面临的主要挑战包括:1) 领域问题的挑战:问答对需准确反映复杂的地球科学现象,但生成过程中可能存在过度简化或偏差,影响内容的科学严谨性;2) 构建过程的挑战:尽管采用了先进的大语言模型生成初始数据,但仍需依赖人工审核来消除模型幻觉并确保问题清晰,这一过程耗时且对领域专业知识要求较高。此外,数据集未经过NOAA的正式批准,其内容在正式教育或公共传播场景中的应用需谨慎验证。
常用场景
经典使用场景
在科学教育领域,Science On a Sphere QA数据集被广泛应用于构建智能问答系统,特别是在地球科学相关的教学场景中。该数据集通过精心设计的问答对,为教育工作者和学生提供了丰富的学习资源,帮助他们更好地理解复杂的地球科学现象。数据集的结构化设计使其成为训练和评估问答模型的理想选择,尤其适合用于开发交互式教育工具。
实际应用
在实际应用中,该数据集被整合到NOAA的Science On a Sphere®和SOS Explorer®平台中,为公众和教育机构提供即时科学知识解答。教育工作者利用这些问答对开发互动课件,而科研人员则将其作为验证模型性能的基准数据集。其开放许可特性更促进了在科普应用和智慧教育系统中的广泛采用。
衍生相关工作
基于该数据集,研究者已开发出多个创新性应用,包括自适应学习系统和虚拟科学助手。在学术领域,它启发了关于科学知识图谱构建和跨模态表示学习的研究。部分衍生工作还探索了如何将大型语言模型与专业科学数据库结合,提升科学传播的效率和准确性。
以上内容由遇见数据集搜集并总结生成



