Agent Evaluator

Visualize evaluator-optimizer iterative improvement loops where an evaluator scores agent output and an optimizer refines it until quality thresholds are met.

Features

Iteration Timeline: Step through each evaluate-optimize cycle with diffs between versions
Quality Scoring: Radar or bar chart showing scores across multiple evaluation dimensions
Evaluation Criteria: Configurable rubric cards displaying pass/fail status for each criterion
Convergence Tracking: Line chart plotting quality scores over iterations to visualize improvement
Threshold Controls: Adjustable quality thresholds that determine when the loop should stop

Examples

Content Quality Loop

91Excellent

Evaluator-Optimizer Loop

Email Subject Line Optimization

Threshold: 85

|Iteration 3 of 5

Threshold met

+46 ptstotal improvement

Score Convergence

3 iterations

Evaluation Criteria

Iteration #3

Clarity

92/100

Engagement

95/100

Length

85/100

Spam-score

90/100

Iteration Timeline

Generator output

Your Monday just got 2 hours shorter — here's how

Evaluation criteria