five

cruxia/chain-determinism-bench-v1

收藏
Hugging Face2026-04-29 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/cruxia/chain-determinism-bench-v1
下载链接
链接失效反馈
官方服务:
资源简介:
Chain-Determinism Bench v1是一个用于测量和减少跨LLM供应商的代理循环非确定性的参考数据集。它包含了来自22,000次多供应商链确定性研究及后续阶段的31,764个仅哈希的观察结果。每个记录行捕获了一个代理循环在一个(供应商、模型、温度、查询、运行)单元中产生的内容,以提示文本和内容哈希的形式记录,而非原始响应。数据集分为多个阶段,每个阶段有不同的配置和目的。数据集还包括详细的模式描述、哈希规范、复制方法以及引用和许可信息。

Chain-Determinism Bench v1 is a reference dataset for measuring and reducing agent-loop non-determinism across LLM vendors. It includes 31,764 hash-only observations from a 22,000-run multi-vendor chain-determinism study plus follow-up phases. Each row records what an agent loop produced for one (vendor, model, temperature, query, run) cell — captured as prompt text + content hashes, not raw responses. The dataset is divided into several phases, each with specific purposes and configurations. The README also provides detailed schema descriptions, hash specifications, replication methods, and citation and licensing information.
提供机构:
cruxia
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作