llm_scores_hep_th

Hugging Face2024-12-09 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/LLMsForHepth/llm_scores_hep_th

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集源自LLMsForHepth/infer_hep_th，并添加了新的列`score_Llama-3.1-8B`, `score_s1-L-3.1-8B-base`, `score_s2-L-3.1-8B-base`和`score_s3-L-3.1-8B-base_v3`。这些新列中的值是`abstract`中的真实摘要与`comp_Llama-3.1-8B`, `comp_s1-L-3.1-8B-base`, `comp_s2-L-3.1-8B-base`和`comp_s3-L-3.1-8B-base_v3`中的LLM完成摘要之间的余弦相似度分数。相似度分数是通过使用基础模型`meta-llama/Llama-3.1-8B`对`abstract`和`comp_Llama-3.1-8B`列中的序列进行嵌入计算的，其余分数使用微调模型嵌入。嵌入采用均值池化方法。

创建时间：

2024-12-06

原始信息汇总

LLMsForHepth/llm_scores_hep_th 数据集概述

数据集信息

特征

id: 字符串类型
submitter: 字符串类型
authors: 字符串类型
title: 字符串类型
comments: 字符串类型
journal-ref: 字符串类型
doi: 字符串类型
report-no: 字符串类型
categories: 字符串类型
license: 字符串类型
orig_abstract: 字符串类型
versions: 列表类型，包含 created 和 version 字段，均为字符串类型
update_date: 字符串类型
authors_parsed: 序列类型，包含字符串序列
abstract: 字符串类型
prompt: 字符串类型
y_true: 字符串类型
comp_s1-L-3.1-8B-base: 字符串类型
preds_s1-L-3.1-8B-base: 字符串类型
comp_s3-L-3.1-8B-base_v3: 字符串类型
preds_s3-L-3.1-8B-base_v3: 字符串类型
comp_Llama-3.1-8B: 字符串类型
preds_Llama-3.1-8B: 字符串类型
comp_s2-L-3.1-8B-base: 字符串类型
preds_s2-L-3.1-8B-base: 字符串类型
score_Llama-3.1-8B: 浮点数类型
score_s1-L-3.1-8B-base: 浮点数类型
score_s2-L-3.1-8B-base: 浮点数类型
score_s3-L-3.1-8B-base_v3: 浮点数类型

数据集分割

test: 包含 15808 个样本，占用 168006609 字节

数据集大小

下载大小: 73501424 字节
数据集大小: 168006609 字节

配置

default: 包含 test 分割，路径为 data/test-*

数据集来源

该数据集源自 LLMsForHepth/infer_hep_th，并新增了以下列：
- score_Llama-3.1-8B
- score_s1-L-3.1-8B-base
- score_s2-L-3.1-8B-base
- score_s3-L-3.1-8B-base_v3

新增列说明

这些新增列的值是 abstract 列中的真实摘要与 comp_Llama-3.1-8B、comp_s1-L-3.1-8B-base、comp_s2-L-3.1-8B-base 和 comp_s3-L-3.1-8B-base_v3 列中 LLM 生成的摘要之间的余弦相似度分数。
score_Llama-3.1-8B 的相似度分数是通过使用 meta-llama/Llama-3.1-8B 基础模型对 abstract 和 comp_Llama-3.1-8B 列进行嵌入计算的。
其余分数使用微调模型进行嵌入计算。
嵌入使用均值池化方法。

搜集汇总

数据集介绍

构建方式

该数据集源自LLMsForHepth/infer_hep_th，并通过添加新的列`score_Llama-3.1-8B`、`score_s1-L-3.1-8B-base`、`score_s2-L-3.1-8B-base`和`score_s3-L-3.1-8B-base_v3`进行了扩展。这些新列中的值是通过计算`abstract`列中的真实摘要与`comp_Llama-3.1-8B`、`comp_s1-L-3.1-8B-base`、`comp_s2-L-3.1-8B-base`和`comp_s3-L-3.1-8B-base_v3`列中LLM生成的摘要之间的余弦相似度得出的。具体而言，`score_Llama-3.1-8B`的相似度分数是通过使用基础模型`meta-llama/Llama-3.1-8B`对`abstract`和`comp_Llama-3.1-8B`列中的序列进行嵌入并进行平均池化计算得出的。其他分数则使用微调模型进行嵌入计算。

使用方法

该数据集主要用于评估和比较不同LLM模型在生成科学摘要任务上的性能。研究者可以通过分析`score_Llama-3.1-8B`、`score_s1-L-3.1-8B-base`、`score_s2-L-3.1-8B-base`和`score_s3-L-3.1-8B-base_v3`等列中的余弦相似度分数，来判断各模型在生成摘要时的准确性和一致性。此外，数据集中的元数据也可用于进一步的分析和模型训练，帮助研究者更好地理解模型的表现并进行改进。

背景与挑战

背景概述

llm_scores_hep_th数据集源自LLMsForHepth/infer_hep_th，由主要研究人员或机构在某一时间点创建，旨在通过大规模语言模型（LLM）评估高能物理与理论物理领域的研究摘要的相似性。该数据集的核心研究问题在于如何利用LLM生成的摘要与真实摘要之间的余弦相似度来衡量模型的性能，从而推动高能物理领域的研究自动化与智能化。通过引入`score_Llama-3.1-8B`等列，研究人员能够量化不同模型在摘要生成任务中的表现，进而为模型优化提供数据支持。

当前挑战

该数据集在构建过程中面临的主要挑战包括：首先，如何确保LLM生成的摘要与真实摘要之间的相似度计算的准确性，尤其是在不同模型和微调版本之间进行比较时。其次，数据集的多样性和覆盖范围也是一个挑战，确保涵盖高能物理与理论物理领域的广泛研究主题，以提高模型的泛化能力。此外，数据集的更新与维护也是一个持续的挑战，随着新研究的涌现，数据集需要不断扩展和更新，以保持其时效性和相关性。

常用场景

经典使用场景

llm_scores_hep_th数据集的经典使用场景主要集中在高能物理领域的文献摘要生成与评估。通过计算不同语言模型生成的摘要与真实摘要之间的余弦相似度，研究人员能够量化模型在生成高能物理文献摘要方面的表现。这一过程不仅有助于评估现有模型的性能，还为模型优化提供了定量依据。

解决学术问题

该数据集解决了高能物理领域中语言模型生成摘要质量评估的难题。通过引入余弦相似度作为评估指标，研究人员能够客观地比较不同模型在生成摘要时的准确性和相关性。这一方法不仅提升了模型评估的科学性，还为高能物理领域的自动化文献摘要生成提供了理论支持。

实际应用

在实际应用中，llm_scores_hep_th数据集可用于高能物理领域的文献摘要自动化生成系统。通过训练和优化语言模型，系统能够快速生成高质量的文献摘要，从而提高科研人员的工作效率。此外，该数据集还可用于模型选择和调优，帮助科研团队选择最适合其需求的语言模型。

数据集最近研究