GPT-5

Model: deepseek/deepseek-v3.2-20251201 +0.30 @cf/meta/llama-3.3-70b-instruct-fp8-fast lite 0.00 @cf/meta/llama-4-scout-17b-16e-instruct lite 0.00 claude-haiku-4-5 lite 0.00 claude-haiku-4-5-20251001 -0.28 Compare

Longitudinal · 37 evals

Audit Trail 57 entries

2026-03-01 20:27	model_divergence	Cross-model spread 0.28 exceeds threshold (3 models)	- -
2026-03-01 20:27	eval_success	Evaluated: Moderate positive (0.35)	- -
2026-03-01 20:27	eval	Evaluated by deepseek-v3.2: +0.35 (Moderate positive) 8,147 tokens +0.34
2026-03-01 20:27	rater_validation_warn	Validation warnings for model deepseek-v3.2: 0W 10R	- -
2026-03-01 18:58	eval_success	Evaluated: Neutral (0.01)	- -
2026-03-01 18:58	model_divergence	Cross-model spread 0.28 exceeds threshold (3 models)	- -
2026-03-01 18:58	eval	Evaluated by deepseek-v3.2: +0.01 (Neutral) 9,405 tokens -0.14
2026-03-01 18:07	eval_success	Evaluated: Mild positive (0.15)	- -
2026-03-01 18:07	model_divergence	Cross-model spread 0.28 exceeds threshold (3 models)	- -
2026-03-01 18:07	eval	Evaluated by deepseek-v3.2: +0.15 (Mild positive) 7,499 tokens +0.15
2026-03-01 18:07	rater_validation_warn	Validation warnings for model deepseek-v3.2: 0W 1R	- -
2026-03-01 08:43	eval_success	Evaluated: Neutral (0.00)	- -
2026-03-01 08:43	model_divergence	Cross-model spread 0.28 exceeds threshold (3 models)	- -
2026-03-01 08:43	eval	Evaluated by deepseek-v3.2: 0.00 (Neutral) 8,147 tokens -0.55
2026-03-01 08:43	rater_validation_warn	Validation warnings for model deepseek-v3.2: 0W 1R	- -
2026-02-28 15:40	eval_success	Lite evaluated: Neutral (0.00)	- -
2026-02-28 15:40	model_divergence	Cross-model spread 0.82 exceeds threshold (5 models)	- -
2026-02-28 15:40	eval	Evaluated by llama-3.3-70b-wai: 0.00 (Neutral) 0.00
	reasoning PR neutral tech announcement
2026-02-28 14:14	model_divergence	Cross-model spread 0.82 exceeds threshold (5 models)	- -
2026-02-28 14:14	eval_success	Lite evaluated: Neutral (0.00)	- -
2026-02-28 14:14	eval	Evaluated by llama-4-scout-wai: 0.00 (Neutral) 0.00
	reasoning Product announcement, no explicit human rights discussion
2026-02-28 12:50	model_divergence	Cross-model spread 0.82 exceeds threshold (5 models)	- -
2026-02-28 12:50	eval_success	Evaluated: Moderate positive (0.55)	- -
2026-02-28 12:50	rater_validation_warn	Validation warnings for model deepseek-v3.2: 1W 0R	- -
2026-02-28 12:50	eval	Evaluated by deepseek-v3.2: +0.55 (Moderate positive) 7,705 tokens
2026-02-28 11:55	model_divergence	Cross-model spread 0.28 exceeds threshold (4 models)	- -
2026-02-28 11:55	eval_success	Lite evaluated: Neutral (0.00)	- -
2026-02-28 11:55	eval	Evaluated by llama-3.3-70b-wai: 0.00 (Neutral) 0.00
	reasoning PR neutral tech announcement
2026-02-28 11:50	eval	Evaluated by llama-4-scout-wai: 0.00 (Neutral) 0.00
	reasoning Product announcement, no explicit human rights discussion
2026-02-28 11:09	eval	Evaluated by llama-3.3-70b-wai: 0.00 (Neutral) 0.00
	reasoning PR neutral tech announcement
2026-02-28 10:13	eval	Evaluated by llama-4-scout-wai: 0.00 (Neutral) 0.00
	reasoning Product announcement, no explicit human rights discussion
2026-02-28 09:57	eval	Evaluated by llama-4-scout-wai: 0.00 (Neutral) 0.00
	reasoning Product announcement, no explicit human rights discussion
2026-02-28 09:33	eval	Evaluated by llama-3.3-70b-wai: 0.00 (Neutral) 0.00
	reasoning PR neutral tech announcement
2026-02-28 08:11	eval	Evaluated by llama-3.3-70b-wai: 0.00 (Neutral) 0.00
	reasoning PR neutral tech announcement
2026-02-28 08:05	eval	Evaluated by llama-3.3-70b-wai: 0.00 (Neutral) 0.00
	reasoning PR neutral tech announcement
2026-02-28 08:00	eval	Evaluated by llama-3.3-70b-wai: 0.00 (Neutral) 0.00
	reasoning PR neutral tech announcement
2026-02-28 07:16	eval	Evaluated by llama-3.3-70b-wai: 0.00 (Neutral) 0.00
	reasoning PR neutral tech announcement
2026-02-28 07:04	eval	Evaluated by llama-4-scout-wai: 0.00 (Neutral) 0.00
	reasoning Product announcement, no explicit human rights discussion
2026-02-28 06:25	eval	Evaluated by llama-3.3-70b-wai: 0.00 (Neutral) 0.00
	reasoning PR neutral tech announcement
2026-02-28 05:43	eval	Evaluated by llama-3.3-70b-wai: 0.00 (Neutral) 0.00
	reasoning PR neutral tech announcement
2026-02-28 05:23	eval	Evaluated by llama-4-scout-wai: 0.00 (Neutral) 0.00
	reasoning Product announcement, no explicit human rights discussion
2026-02-28 05:19	eval	Evaluated by llama-3.3-70b-wai: 0.00 (Neutral) 0.00
	reasoning PR neutral tech announcement
2026-02-28 05:10	eval	Evaluated by llama-4-scout-wai: 0.00 (Neutral) 0.00
	reasoning Product announcement, no explicit human rights discussion
2026-02-28 04:48	eval	Evaluated by llama-4-scout-wai: 0.00 (Neutral) 0.00
	reasoning Product announcement, no explicit human rights discussion
2026-02-28 04:39	eval	Evaluated by llama-4-scout-wai: 0.00 (Neutral) 0.00
	reasoning Product announcement, no explicit human rights discussion
2026-02-28 04:34	eval	Evaluated by llama-4-scout-wai: 0.00 (Neutral) 0.00
	reasoning Product announcement, no explicit human rights discussion
2026-02-28 04:29	eval	Evaluated by llama-4-scout-wai: 0.00 (Neutral) 0.00
	reasoning Product announcement, no explicit human rights discussion
2026-02-28 04:08	eval	Evaluated by llama-4-scout-wai: 0.00 (Neutral) 0.00
	reasoning Product announcement, no explicit human rights discussion
2026-02-28 03:56	eval	Evaluated by llama-3.3-70b-wai: 0.00 (Neutral) 0.00
	reasoning PR neutral tech announcement
2026-02-28 03:53	eval	Evaluated by llama-3.3-70b-wai: 0.00 (Neutral) 0.00
	reasoning PR neutral tech announcement
2026-02-28 03:15	eval	Evaluated by llama-3.3-70b-wai: 0.00 (Neutral) 0.00
	reasoning PR neutral tech announcement
2026-02-28 02:52	eval	Evaluated by llama-3.3-70b-wai: 0.00 (Neutral) 0.00
	reasoning PR neutral tech announcement
2026-02-28 02:39	eval	Evaluated by llama-4-scout-wai: 0.00 (Neutral) 0.00
	reasoning Product announcement, no explicit human rights discussion
2026-02-28 01:55	eval	Evaluated by llama-3.3-70b-wai: 0.00 (Neutral)
	reasoning PR neutral tech announcement
2026-02-28 01:51	eval	Evaluated by llama-4-scout-wai: 0.00 (Neutral) 0.00
	reasoning Product announcement, no explicit human rights discussion
2026-02-28 01:38	eval	Evaluated by llama-4-scout-wai: 0.00 (Neutral)
	reasoning Product announcement, no explicit human rights discussion
2026-02-27 01:29	eval	Evaluated by claude-haiku-4-5: 0.00 (Neutral)

build 1ad9551+j7zs · deployed 2026-03-02 09:09 UTC · evaluated 2026-03-02 10:41:39 UTC