Eval Results

40 prompts across 8 categories, tested on 14 models.

Code Generation

Writing code from specifications

Analyzing and improving existing code

Natural dialogue and sensitive topics

Fiction, poetry, and imaginative prose

Answering factual questions accurately

Following complex multi-step instructions

Logic, math, and multi-step problems

Condensing information clearly