ORBIT-curated astronomy dataset
收藏arXiv2024-12-19 更新2024-12-21 收录
下载链接:
https://github.com/ModeEric/ORBIT-Llama
下载链接
链接失效反馈官方服务:
资源简介:
ORBIT-curated astronomy dataset是由伊利诺伊大学厄巴纳-香槟分校的研究团队创建的高质量天文学领域数据集,包含100亿个Tokens。该数据集从FineWeb-Edu数据集中筛选而来,结合了学术文本和网络教育内容,旨在为大语言模型提供深度和广度兼具的天文学知识。数据集的创建过程采用了嵌入式相似性匹配和BERT回归模型进行过滤,确保了数据的质量和相关性。该数据集主要用于提升大语言模型在天文学领域的性能,解决通用模型在专业领域知识不足的问题。
ORBIT-curated astronomy dataset is a high-quality domain-specific astronomy dataset created by the research team from the University of Illinois Urbana-Champaign, which contains 10 billion Tokens. This dataset is curated from the FineWeb-Edu corpus, combining academic texts and online educational content, with the objective of supplying Large Language Models (LLMs) with astronomical knowledge that balances both depth and breadth. During the dataset construction process, embedding-based similarity matching and BERT regression models were employed for filtering, ensuring the quality and relevance of the data. This dataset is primarily utilized to enhance the performance of LLMs in the astronomy domain, addressing the issue of inadequate professional domain knowledge in general-purpose AI models.
提供机构:
伊利诺伊大学厄巴纳-香槟分校
创建时间:
2024-12-19
搜集汇总
数据集介绍

构建方式
ORBIT-curated astronomy dataset通过结合嵌入式相似性匹配和BERT回归模型,从噪声较大的网络数据中高效筛选出高质量的领域特定数据集。首先,使用GloVe词嵌入技术,通过计算文档与预定义天文学术语的平均嵌入向量之间的余弦相似度,筛选出与天文学相关性较高的文档。随后,利用BERT回归模型对筛选出的文档进行教育价值评估,确保数据集不仅在内容上与天文学相关,还具有较高的教育价值。最终,该方法从FineWeb-Edu数据集中筛选出100亿个标记的高质量天文学数据。
特点
ORBIT-curated astronomy dataset的显著特点在于其高度的领域相关性和教育价值。通过结合学术文本和网络教育内容,该数据集在深度和广度上均表现出色,能够全面覆盖天文学领域的知识。此外,该数据集的构建方法具有高度的可扩展性和通用性,不仅适用于天文学领域,还可推广至法律和医学等其他领域,展现出显著的质量提升。
使用方法
ORBIT-curated astronomy dataset主要用于训练和微调大型语言模型,以提升其在天文学领域的性能。通过使用该数据集对LLaMA-3-8B模型进行微调,模型在MMLU天文学基准测试中的表现从69%提升至76%,并在AstroBench等天文学特定基准测试中取得了领先成绩。该数据集还可用于开发天文学领域的问答系统、知识检索工具等,支持科学研究和教育应用。
背景与挑战
背景概述
近年来,大规模语言模型(LLMs)在自然语言处理(NLP)和人工智能(AI)领域取得了显著进展,但通用模型在处理需要专业知识的任务时往往表现不足。为了解决这一问题,领域适应训练成为提升模型性能的关键,但其前提是需要大量高质量的领域特定数据。ORBIT数据集由伊利诺伊大学厄巴纳-香槟分校和国家超级计算应用中心的研究团队开发,旨在通过从噪声较大的网络资源中高效筛选出高质量的天文学领域数据,支持大规模语言模型的领域适应训练。该数据集基于FineWeb-Edu数据集,经过精心筛选,形成了包含100亿个标记的高质量天文学子集,显著提升了模型在MMLU天文学基准和AstroBench等天文学特定任务中的表现。
当前挑战
ORBIT数据集的构建面临多重挑战。首先,领域特定数据的获取和筛选需要克服数据噪声大、相关性低的问题。传统的关键词过滤方法难以平衡数据覆盖率和质量,可能导致重要信息的遗漏或低质量内容的引入。其次,天文学领域的数据多样性和复杂性要求筛选方法既能捕捉深度知识,又能保持数据的广度。此外,跨领域的通用性验证也面临挑战,不同领域的术语和知识结构差异较大,需要进一步优化筛选流程以适应多样化的领域需求。
常用场景
经典使用场景
ORBIT-curated astronomy dataset 最经典的使用场景在于为大型语言模型(LLMs)提供高质量的天文学领域数据,以进行领域适应性训练。通过从FineWeb-Edu数据集中筛选出10亿个与天文学相关的高质量token,该数据集能够显著提升模型在处理天文学相关任务时的表现。例如,在MMLU天文学基准测试中,经过微调的LLaMA-3-8B模型性能从69%提升至76%,并在AstroBench测试中取得了顶尖成绩。
实际应用
在实际应用中,ORBIT-curated astronomy dataset 可以广泛应用于天文学教育和研究领域。例如,它可以用于开发智能辅导系统,帮助学生更好地理解天文学概念;也可以用于天文学研究中的文本分析和知识提取,加速科学发现的进程。此外,该数据集还可以支持天文数据的可视化和交互式探索,为天文学家提供更高效的工具。
衍生相关工作
ORBIT-curated astronomy dataset 的成功应用催生了一系列相关工作,特别是在领域适应性数据集的构建和模型微调方面。例如,研究者们将ORBIT方法扩展到法律和医学领域,构建了高质量的领域特定数据集,并取得了显著的性能提升。此外,基于ORBIT数据集训练的Orbit-LLaMA模型在多个天文学基准测试中表现优异,推动了领域特定语言模型的进一步发展。
以上内容由遇见数据集搜集并总结生成



