five

curie

收藏
Hugging Face2025-04-18 更新2025-04-19 收录
下载链接:
https://huggingface.co/datasets/nhop/curie
下载链接
链接失效反馈
官方服务:
资源简介:
CURIE数据集是针对多任务科学长文本理解和推理任务评估的大型数据集。它包含10个任务,映射到8个子数据集中,涵盖生物学、物理、地理空间分析、材料科学和量子计算等多个领域。数据集包含的字段有:样本ID、任务描述提示、样本特定信息、地面真实答案和任务难度等级。部分数据集还有特殊字段,如地图图像、子任务提示等。
创建时间:
2025-04-13
搜集汇总
数据集介绍
main_image_url
构建方式
CURIE数据集作为科学领域多任务长上下文理解的评估基准,其构建过程体现了严谨的学科交叉特性。研究团队通过整合8个核心科学领域的专业任务,包括生物多样性地理编码、密度泛函理论分析、蛋白质序列重构等,采用专家标注与结构化数据提取相结合的方式构建样本。每个任务样本均包含任务描述提示词、领域特定文本信息、真实答案的JSON字符串及难度分级,部分任务还附加了图像数据或元数据提示词,确保评估维度的全面性。
特点
该数据集最显著的特点在于其跨学科的科学深度与任务多样性。涵盖从量子计算到材料科学的8个专业领域,每个任务都设计有特定领域的评估指标和结构化真实答案。数据集特别注重长上下文理解能力的测评,样本平均文本长度显著高于常规NLP数据集。生物地理编码任务中整合了地理空间图像数据,密度泛函理论分析则包含三个关联子任务,这种多模态与多层次的任务设计为评估大语言模型在复杂科学场景下的表现提供了理想测试平台。
使用方法
使用CURIE数据集时,研究者可通过HuggingFace接口加载特定领域的子数据集。典型工作流程包括:初始化语言模型后,将样本中的提示词与领域文本进行模板填充,获取模型响应后与JSON格式的真实答案进行比对。数据集特别推荐使用json5库解析真实答案字段以处理科学数据中的特殊符号。示例代码展示了如何结合LangChain框架调用GPT-4等先进模型进行评估,这种标准化流程确保了不同研究间的结果可比性。
背景与挑战
背景概述
CURIE数据集由Google研究团队于2025年推出,旨在评估大型语言模型在科学长文本理解与多任务推理方面的能力。该数据集涵盖了生物多样性地理编码、凝聚态物理中的密度泛函理论分析、蛋白质序列重构、地理空间数据分析、材料科学属性提取、量子纠错码等八个科学领域的复杂任务,共包含138个样本。作为ICLR会议的研究成果,CURIE通过多模态数据(包含文本与地理图像)和结构化标注,为科学领域的语言模型评估建立了新基准,推动了AI在专业科学问题解决中的研究进展。
当前挑战
CURIE数据集面临的核心挑战在于科学领域复杂问题的多维度建模。在领域问题层面,不同学科(如量子计算与生物地理)的术语体系、推理逻辑差异显著,要求模型同时具备跨学科知识整合与长程依赖关系捕捉能力。数据构建过程中,研究团队需克服科学文献数据稀疏性、专业标注成本高昂等难题,尤其在地图图像坐标解析、材料属性结构化提取等任务中,精确标注需要领域专家深度参与。此外,部分任务(如Hartree-Fock方程推导)涉及非结构化文本到数学表达的转换,进一步增加了数据质量控制的复杂度。
常用场景
经典使用场景
CURIE数据集在科学领域的多任务长文本理解和推理评估中展现出卓越价值,尤其在生物多样性地理定位、凝聚态物理分析、蛋白质序列重建等任务中,为研究人员提供了丰富的跨学科实验平台。其独特的图像-文本混合模态设计,使得模型在处理地理空间地图解析或量子计算代码生成等复杂场景时,能够充分验证多模态理解能力。
衍生相关工作
基于CURIE的评估范式,衍生出包括《SciBench》跨学科基准测试框架、《MATS》材料科学专用测评体系等经典工作。Google Research团队进一步扩展其量子计算模块构建了QED数据集,而MIT团队则借鉴其难度分级机制开发了面向生物医学领域的BioRAG评估标准,形成系列具有领域适应性的评测体系。
数据集最近研究
最新研究方向
近年来,随着大语言模型在科学计算领域的广泛应用,CURIE数据集因其多任务科学长文本理解与推理的评估能力而备受关注。该数据集涵盖了生物多样性地理定位、密度泛函理论分析、蛋白质序列重建等8个科学子领域,为研究者在复杂科学场景下的模型性能评估提供了标准化基准。特别是在量子计算和凝聚态物理等前沿领域,CURIE数据集通过结构化任务设计,推动了语言模型在科学推理、跨模态理解等方面的突破性研究。2024年ICLR会议的相关研究表明,基于该数据集开发的评估框架能有效检验模型处理长程依赖关系和专业术语的能力,为AI辅助科研提供了重要工具。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作