Comparing Python packages for A/B test analysis

Alpha This system is experimental. Scores and classifications are early-stage research and may be unreliable. Methodology →

Model: @cf/meta/llama-4-scout-17b-16e-instruct lite ND @cf/meta/llama-3.3-70b-instruct-fp8-fast lite ND @cf/meta/llama-3.3-70b-instruct-fp8-fast lite 0.00 @cf/meta/llama-4-scout-17b-16e-instruct lite 0.00 @cf/qwen/qwen3-30b-a3b-fp8 lite ND @cf/qwen/qwen3-30b-a3b-fp8 lite ND openai/gpt-oss-120b:free lite ND google/gemma-3-27b-it:free lite ND qwen/qwen3-coder:free lite ND Compare

ND	Comparing Python packages for A/B test analysis (e10v.me)
	9 points by e10v_me 4 days ago \| 1 comments on HN ~lite vlite-2.0

Summary ~lite

The article provides a neutral comparison of Python packages for A/B test analysis.

Lite evaluation by llama-4-scout-wai-psq · editorial channel only · no per-section breakdown available

Longitudinal 124 HN snapshots · 20 evals

Audit Trail 40 entries

2026-03-06 09:10	eval_success	PSQ evaluated: g-PSQ=0.440 (3 dims)	- -
2026-03-06 09:10	eval	Evaluated by llama-4-scout-wai-psq: +0.44 (Moderate positive) 0.00
2026-03-06 08:44	eval_success	PSQ evaluated: g-PSQ=0.642 (3 dims)	- -
2026-03-06 08:44	eval	Evaluated by llama-3.3-70b-wai-psq: +0.64 (Strong positive) 0.00
2026-03-06 08:38	eval_success	PSQ evaluated: g-PSQ=0.440 (3 dims)	- -
2026-03-06 08:38	eval	Evaluated by llama-4-scout-wai-psq: +0.44 (Moderate positive) 0.00
2026-03-06 08:14	eval_success	PSQ evaluated: g-PSQ=0.642 (3 dims)	- -
2026-03-06 08:14	eval	Evaluated by llama-3.3-70b-wai-psq: +0.64 (Strong positive) 0.00
2026-03-06 08:03	eval_success	PSQ evaluated: g-PSQ=0.440 (3 dims)	- -
2026-03-06 08:03	eval	Evaluated by llama-4-scout-wai-psq: +0.44 (Moderate positive) 0.00
2026-03-06 07:42	eval_success	PSQ evaluated: g-PSQ=0.642 (3 dims)	- -
2026-03-06 07:42	eval	Evaluated by llama-3.3-70b-wai-psq: +0.64 (Strong positive) 0.00
2026-03-06 07:37	eval_success	PSQ evaluated: g-PSQ=0.642 (3 dims)	- -
2026-03-06 07:37	eval	Evaluated by llama-3.3-70b-wai-psq: +0.64 (Strong positive) 0.00
2026-03-06 07:31	eval_success	PSQ evaluated: g-PSQ=0.440 (3 dims)	- -
2026-03-06 07:31	eval	Evaluated by llama-4-scout-wai-psq: +0.44 (Moderate positive) 0.00
2026-03-06 07:04	eval_success	PSQ evaluated: g-PSQ=0.642 (3 dims)	- -
2026-03-06 07:04	eval	Evaluated by llama-3.3-70b-wai-psq: +0.64 (Strong positive) 0.00
2026-03-06 07:00	eval_success	PSQ evaluated: g-PSQ=0.440 (3 dims)	- -
2026-03-06 07:00	eval	Evaluated by llama-4-scout-wai-psq: +0.44 (Moderate positive) 0.00
2026-03-06 06:32	eval_success	PSQ evaluated: g-PSQ=0.642 (3 dims)	- -
2026-03-06 06:32	eval	Evaluated by llama-3.3-70b-wai-psq: +0.64 (Strong positive) 0.00
2026-03-06 06:27	eval_success	PSQ evaluated: g-PSQ=0.440 (3 dims)	- -
2026-03-06 06:27	eval	Evaluated by llama-4-scout-wai-psq: +0.44 (Moderate positive) 0.00
2026-03-06 06:27	eval_success	PSQ evaluated: g-PSQ=0.642 (3 dims)	- -
2026-03-06 06:27	eval	Evaluated by llama-3.3-70b-wai-psq: +0.64 (Strong positive) 0.00
2026-03-06 05:55	eval_success	PSQ evaluated: g-PSQ=0.440 (3 dims)	- -
2026-03-06 05:55	eval	Evaluated by llama-4-scout-wai-psq: +0.44 (Moderate positive) 0.00
2026-03-06 05:54	eval_success	PSQ evaluated: g-PSQ=0.642 (3 dims)	- -
2026-03-06 05:54	eval	Evaluated by llama-3.3-70b-wai-psq: +0.64 (Strong positive) 0.00
2026-03-06 04:53	eval_success	PSQ evaluated: g-PSQ=0.440 (3 dims)	- -
2026-03-06 04:53	eval	Evaluated by llama-4-scout-wai-psq: +0.44 (Moderate positive)
2026-03-06 04:53	eval_success	PSQ evaluated: g-PSQ=0.642 (3 dims)	- -
2026-03-06 04:53	eval	Evaluated by llama-3.3-70b-wai-psq: +0.64 (Strong positive)
2026-03-05 20:36	eval_success	Lite evaluated: Neutral (0.00)	- -
2026-03-05 20:36	eval	Evaluated by llama-3.3-70b-wai: 0.00 (Neutral) 0.00
	reasoning Technical comparison of Python packages
2026-03-05 20:36	rater_validation_warn	Lite validation warnings for model llama-3.3-70b-wai: 1W 0R	- -
2026-03-05 20:30	eval_success	Lite evaluated: Neutral (0.08)	- -
2026-03-05 20:30	eval	Evaluated by llama-4-scout-wai: +0.08 (Neutral)
	reasoning Technical article comparing Python packages for A/B test analysis, no human rights discussion
2026-03-05 20:30	eval	Evaluated by llama-3.3-70b-wai: 0.00 (Neutral)
	reasoning Technical comparison of Python packages

build da0abe7+kru8 · deployed 2026-03-07 03:28 UTC · evaluated 2026-03-03 07:16:53 UTC