five

lmg-anon/vntl-leaderboard

收藏
Hugging Face2024-07-19 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/lmg-anon/vntl-leaderboard
下载链接
链接失效反馈
官方服务:
资源简介:
VNTL Leaderboard数据集用于评估大型语言模型(LLMs)在将日本视觉小说翻译成英文方面的表现。数据集包含256个翻译样本,分别来自两个不同的数据集。评估方法基于余弦相似度和chrF分数,旨在衡量翻译的语义准确性。文件还提到了与现有翻译工具的比较,并指出了当前评估方法的局限性和未来改进方向。
提供机构:
lmg-anon
原始信息汇总

VNTL Leaderboard 数据集概述

数据集描述

VNTL leaderboard 是一个用于评估大型语言模型(LLMs)在将日文视觉小说翻译成英文方面的性能的排行榜。当前结果是初步的,可能会随着新模型的评估或评估脚本的更改而变化。

评估方法

排行榜的排名基于从 VNTL 的评估数据集中选取的 128 个翻译对子集。每个 LLM 为每个日文句子生成一个翻译,然后使用余弦相似度与参考翻译进行比较。最终的准确率通过平均余弦相似度并根据标准差进行惩罚来计算,以考虑性能的不稳定性。这种调整后的准确率旨在评估模型在一致地将日文视觉小说翻译成英文方面的能力。

局限性与未来改进

排行榜虽然提供了基于翻译性能的 LLMs 排名,但存在一些局限性。准确率分数基于余弦相似度,这依赖于一个不完美的嵌入模型。尽管这种方法足以对模型进行排名,但它可能无法完全捕捉翻译质量的细微差别。此外,当前评估仅限于 128 个翻译对,这是一个相对较小的样本量,并且范围较窄,没有考虑到各种视觉小说中的多样性设置、语言模式和其他独特特征。扩大数据集以包括更广泛的视觉小说将提供对 LLMs 翻译能力的更全面评估。

结果

每个模型的数据,包括生成的翻译及其相应的余弦相似度,可以在 results 文件夹中找到。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作