:root{--arm-baseline-bg: color-mix(in oklch, var(--ink) 4%, var(--paper));--arm-wiki-bg: color-mix(in oklch, var(--accent) 6%, var(--paper));--arm-divider: color-mix(in oklch, var(--ink) 12%, transparent)}.eval-page{max-width:84rem;margin:0 auto;padding:var(--s-12) var(--s-6) var(--s-24)}.eval-page-header{max-width:64ch;margin-bottom:var(--s-12)}.eval-kicker{font-family:var(--font-sans);font-size:12px;font-weight:600;text-transform:uppercase;letter-spacing:.12em;color:var(--accent);margin:0 0 var(--s-2)}.eval-page-header h1{font-family:var(--font-display);font-size:var(--fs-h1);font-weight:700;letter-spacing:-.02em;margin:0 0 var(--s-4);line-height:1.05}.eval-lede{font-family:var(--font-display);font-style:italic;color:var(--ink-muted);font-size:var(--fs-h3);line-height:1.5;margin:0 0 var(--s-3)}.eval-lede-meta{font-family:var(--font-sans);font-size:14px;color:var(--ink-muted);margin:0}.eval-lede-meta code{font-family:var(--font-mono);font-size:12px;background:#0000000a;padding:1px 4px;border-radius:2px}.eval-lede-meta a{color:var(--accent);border-bottom:1px solid currentColor;padding-bottom:1px}.eval-state{display:flex;flex-direction:column;align-items:flex-start;gap:var(--s-3);padding:var(--s-12) var(--s-6);border:1px solid var(--rule);border-radius:2px;background:#00000005;font-family:var(--font-sans)}.eval-state-title{font-family:var(--font-display);font-size:var(--fs-h3);font-weight:600;margin:0;color:var(--ink)}.eval-state-help{font-size:14px;color:var(--ink-muted);margin:0;line-height:1.6}.eval-state-help code{font-family:var(--font-mono);font-size:12px;background:var(--paper);border:1px solid var(--rule);padding:1px 6px;border-radius:2px}.eval-spinner{width:18px;height:18px;border:2px solid var(--rule);border-top-color:var(--accent);border-radius:50%;animation:eval-spin .7s linear infinite}@keyframes eval-spin{to{transform:rotate(360deg)}}@media(prefers-reduced-motion:reduce){.eval-spinner{animation:none}}.eval-header{display:flex;flex-wrap:wrap;gap:var(--s-8);align-items:baseline;padding:var(--s-6) 0;border-top:1px solid var(--rule);border-bottom:1px solid var(--rule);margin-bottom:var(--s-8)}.eval-header-stat{display:flex;flex-direction:column;gap:var(--s-1)}.eval-header-num{font-family:var(--font-display);font-size:32px;font-weight:700;color:var(--ink);letter-spacing:-.01em;line-height:1}.eval-header-label{font-family:var(--font-sans);font-size:12px;font-weight:600;text-transform:uppercase;letter-spacing:.08em;color:var(--ink-muted)}.eval-header-frac{text-transform:none;letter-spacing:0;font-weight:400;font-family:var(--font-mono);font-size:11px}.eval-header-meta{margin-left:auto;font-family:var(--font-mono);font-size:12px;color:var(--ink-muted);align-self:flex-end}.eval-header-costs{flex-basis:100%;border-top:1px solid var(--rule);padding-top:var(--s-3);margin-top:var(--s-2);display:flex;flex-direction:column;gap:var(--s-2)}.eval-header-cost-row{display:flex;flex-wrap:wrap;gap:var(--s-5);align-items:baseline;font-family:var(--font-mono);font-size:12px;color:var(--ink-muted)}.eval-header-cost-row--tier{font-size:11px;padding-left:var(--s-3);opacity:.85}.eval-header-cost-row--tier .eval-header-cost-model{color:var(--ink-muted);font-weight:400;text-transform:none;letter-spacing:0}.eval-header-cost-model{font-weight:600;color:var(--ink);text-transform:uppercase;letter-spacing:.06em;font-size:11px}.eval-header-cost-stat strong{color:var(--ink);font-weight:600}.eval-header-cost-label{color:var(--ink-muted)}.eval-filters{display:flex;flex-direction:column;gap:var(--s-4);margin-bottom:var(--s-8)}.eval-filter-row{display:flex;flex-wrap:wrap;gap:var(--s-4);align-items:stretch}.eval-filter-search{display:flex;flex-direction:column;gap:var(--s-1);flex:1;min-width:240px}.eval-filter-label{font-family:var(--font-sans);font-size:11px;font-weight:600;text-transform:uppercase;letter-spacing:.12em;color:var(--ink-muted)}.eval-filter-input{font:inherit;font-size:14px;font-family:var(--font-sans);padding:var(--s-2) var(--s-3);background:var(--paper);color:var(--ink);border:1px solid var(--rule);border-radius:2px}.eval-filter-input:focus-visible{outline:2px solid var(--accent);outline-offset:1px;border-color:transparent}.eval-filter-pass{display:flex;gap:2px;align-self:flex-end}.eval-pill{font:inherit;font-family:var(--font-sans);font-size:13px;font-weight:500;padding:var(--s-2) var(--s-4);background:transparent;color:var(--ink-muted);border:1px solid var(--rule);cursor:pointer;text-transform:capitalize}.eval-pill:first-child{border-radius:2px 0 0 2px}.eval-pill:last-child{border-radius:0 2px 2px 0}.eval-pill+.eval-pill{border-left:0}.eval-pill:hover{color:var(--ink)}.eval-pill.is-active{color:var(--paper);background:var(--ink);border-color:var(--ink)}.eval-pill:focus-visible{outline:2px solid var(--accent);outline-offset:1px;z-index:1;position:relative}.eval-chip-group{border:0;padding:0;margin:0;display:flex;flex-direction:column;gap:var(--s-2)}.eval-chip-group legend{padding:0}.eval-chip-row{display:flex;flex-wrap:wrap;gap:var(--s-2)}.eval-chip{font:inherit;font-family:var(--font-sans);font-size:13px;color:var(--ink);background:transparent;border:1px solid var(--rule);border-radius:999px;padding:var(--s-1) var(--s-3);cursor:pointer;transition:border-color .15s ease,color .15s ease,background .15s ease}.eval-chip:hover{border-color:var(--accent);color:var(--accent)}.eval-chip:focus-visible{outline:2px solid var(--accent);outline-offset:1px}.eval-chip.is-active{background:var(--accent);color:var(--paper);border-color:var(--accent)}.eval-filter-summary{display:flex;justify-content:space-between;align-items:baseline;gap:var(--s-3);padding-top:var(--s-3);border-top:1px dashed var(--rule);font-family:var(--font-sans);font-size:13px;color:var(--ink-muted)}.eval-filter-summary strong{color:var(--ink);font-weight:600}.eval-filter-clear{font:inherit;font-family:var(--font-sans);font-size:13px;color:var(--ink-muted);background:transparent;border:0;cursor:pointer;padding:2px 0;border-bottom:1px solid currentColor}.eval-filter-clear:hover{color:var(--accent)}.eval-filter-clear:focus-visible{outline:2px solid var(--accent);outline-offset:2px}.eval-list-wrap{height:70vh;min-height:480px;overflow-y:auto;border:1px solid var(--rule);border-radius:2px;background:var(--paper)}.eval-list-inner{width:100%}.eval-empty{padding:var(--s-12) var(--s-6);text-align:center;color:var(--ink-muted);font-family:var(--font-sans);font-size:14px}.eval-case-list{list-style:none;padding:0;margin:0}.eval-case-list>li{border-bottom:1px solid var(--rule)}.eval-case-list>li:last-child{border-bottom:0}.eval-case-row{display:grid;grid-template-columns:auto auto auto auto minmax(0,1fr) auto auto;align-items:center;column-gap:var(--s-4);padding:var(--s-3) var(--s-5);text-decoration:none;color:inherit;font-family:var(--font-sans);border-bottom:0;background:var(--paper);transition:background .12s ease}.eval-case-tier{font-size:10px;text-transform:uppercase;letter-spacing:.08em;font-weight:600;padding:2px 6px;border-radius:3px;cursor:help;border:1px solid currentColor}.eval-case-tier--hidden{color:var(--accent)}.eval-case-tier--named{color:var(--ink-muted)}.eval-case-row:hover{background:#8a3a2e08}.eval-case-row:focus-visible{outline:2px solid var(--accent);outline-offset:-2px}.eval-case-row .eval-case-prompt{font-family:var(--font-body);font-size:15px;line-height:1.4;color:var(--ink);display:-webkit-box;-webkit-line-clamp:1;-webkit-box-orient:vertical;overflow:hidden;grid-area:auto}.eval-case-verdict-pill{width:10px;height:10px;border-radius:50%;border:1px solid var(--rule);display:inline-block}.eval-case-verdict-pill[data-verdict=pass]{background:var(--success);border-color:var(--success)}.eval-case-verdict-pill[data-verdict=fail]{background:var(--error);border-color:var(--error)}.eval-case-verdict-pill[data-verdict=unjudged]{background:transparent;border-style:dashed}.eval-case-arrow{font-family:var(--font-mono);font-size:14px;color:var(--ink-muted);opacity:0;transition:opacity .12s ease}.eval-case-row:hover .eval-case-arrow,.eval-case-row:focus-visible .eval-case-arrow{opacity:1;color:var(--accent)}@media(max-width:640px){.eval-case-row{grid-template-columns:1fr auto auto;grid-template-areas:"meta meta verdict" "prompt prompt arrow";row-gap:var(--s-1);column-gap:var(--s-2)}.eval-case-row .eval-case-id{grid-area:meta}.eval-case-row .eval-case-cat,.eval-case-row .eval-case-diff,.eval-case-row .eval-case-tier{display:none}.eval-case-row .eval-case-prompt{grid-area:prompt;-webkit-line-clamp:2}.eval-case-row .eval-case-verdict-pill{grid-area:verdict;justify-self:end}.eval-case-row .eval-case-arrow{grid-area:arrow;opacity:1}}.eval-case{border-bottom:1px solid var(--rule);background:var(--paper)}.eval-case-summary{display:grid;grid-template-columns:minmax(0,1fr) auto;grid-template-rows:auto auto;grid-template-areas:"meta verdicts" "prompt verdicts";column-gap:var(--s-6);row-gap:var(--s-1);width:100%;text-align:left;background:transparent;border:0;padding:var(--s-3) var(--s-5);cursor:pointer;font:inherit;font-family:var(--font-sans);align-items:center}.eval-case-summary:hover{background:#8a3a2e08}.eval-case-summary:focus-visible{outline:2px solid var(--accent);outline-offset:-2px}.eval-case.is-expanded>.eval-case-summary{background:#8a3a2e0d}.eval-case-meta{grid-area:meta;display:flex;flex-wrap:wrap;gap:var(--s-3);align-items:baseline;font-size:11px;color:var(--ink-muted)}.eval-case-id{font-family:var(--font-mono);font-size:11px;color:var(--ink-muted);letter-spacing:.02em}.eval-case-cat{font-family:var(--font-sans);font-size:11px;text-transform:uppercase;letter-spacing:.08em;color:var(--accent);font-weight:600}.eval-case-diff{font-family:var(--font-sans);font-size:11px;text-transform:uppercase;letter-spacing:.08em;font-weight:600;color:var(--ink-muted)}.eval-case-diff.diff-easy{color:var(--success)}.eval-case-diff.diff-medium{color:var(--ink-muted)}.eval-case-diff.diff-hard{color:var(--accent)}.eval-case-diff.diff-adversarial{color:var(--error)}.eval-case-prompt{grid-area:prompt;font-family:var(--font-body);font-size:15px;line-height:1.4;color:var(--ink);display:-webkit-box;-webkit-line-clamp:2;-webkit-box-orient:vertical;overflow:hidden}.eval-case.is-expanded .eval-case-prompt{-webkit-line-clamp:unset;display:block}.eval-case-verdicts{grid-area:verdicts;display:flex;flex-wrap:wrap;gap:var(--s-2);justify-content:flex-end}.eval-verdict{display:inline-flex;align-items:baseline;gap:var(--s-1);padding:2px 8px;border-radius:2px;font-family:var(--font-mono);font-size:11px;border:1px solid var(--rule)}.eval-verdict-label{color:var(--ink-muted);text-transform:lowercase}.eval-verdict-glyph{font-weight:700;font-size:13px}.eval-verdict.verdict-pass{border-color:var(--success)}.eval-verdict.verdict-pass .eval-verdict-glyph{color:var(--success)}.eval-verdict.verdict-fail{border-color:var(--error)}.eval-verdict.verdict-fail .eval-verdict-glyph{color:var(--error)}.eval-verdict.verdict-na{border-style:dashed;opacity:.7}.eval-case-panel{display:flex;flex-direction:column;gap:var(--s-6);padding:var(--s-6) var(--s-5) var(--s-8);background:var(--paper);border-top:1px dashed var(--rule);font-family:var(--font-sans)}.eval-case-question{display:flex;flex-direction:column;gap:var(--s-2);padding:var(--s-4) var(--s-5);background:#00000005;border-left:3px solid var(--accent)}.eval-case-question-label{font-size:11px;font-weight:600;text-transform:uppercase;letter-spacing:.12em;color:var(--ink-muted);margin:0}.eval-case-question-body{font-family:var(--font-body);font-size:17px;line-height:1.5;color:var(--ink);margin:0}.eval-case-rationale,.eval-case-expected{font-size:13px;color:var(--ink-muted);margin:0;line-height:1.5}.eval-case-expected-label{font-weight:600;text-transform:uppercase;letter-spacing:.06em;font-size:11px}.eval-case-models{display:grid;grid-template-columns:repeat(auto-fit,minmax(360px,1fr));gap:var(--s-5)}.eval-model-card{display:flex;flex-direction:column;gap:var(--s-3);padding:var(--s-4) var(--s-5);border:1px solid var(--rule);border-radius:2px;background:var(--paper)}.eval-model-card-empty{opacity:.55;border-style:dashed}.eval-model-head{display:flex;flex-wrap:wrap;gap:var(--s-3);align-items:baseline;border-bottom:1px solid var(--rule);padding-bottom:var(--s-2)}.eval-model-name{font-family:var(--font-display);font-weight:600;font-size:16px;color:var(--ink);flex:1}.eval-model-na,.eval-model-dur{font-family:var(--font-mono);font-size:11px;color:var(--ink-muted)}.eval-section{border-top:1px solid var(--rule);padding-top:var(--s-2)}.eval-section:first-of-type{border-top:0;padding-top:0}.eval-section>summary{font-family:var(--font-sans);font-size:11px;font-weight:600;text-transform:uppercase;letter-spacing:.1em;color:var(--ink-muted);cursor:pointer;padding:var(--s-1) 0;list-style:none;user-select:none}.eval-section>summary::-webkit-details-marker{display:none}.eval-section>summary::marker{content:""}.eval-section>summary:before{content:"▸ ";font-size:10px;color:var(--ink-muted);transition:transform .15s ease;display:inline-block}.eval-section[open]>summary:before{content:"▾ "}.eval-section>summary:hover{color:var(--ink)}.eval-section>summary:focus-visible{outline:2px solid var(--accent);outline-offset:2px;border-radius:2px}.eval-answer{font-family:var(--font-body);font-size:15px;line-height:1.65;color:var(--ink);white-space:pre-wrap;margin:var(--s-2) 0 0;font-weight:400}.eval-tool-trace{list-style:none;margin:var(--s-2) 0 0;padding:0;display:flex;flex-direction:column;gap:var(--s-2)}.eval-tool-trace li{display:flex;flex-wrap:wrap;gap:var(--s-2);align-items:baseline;font-family:var(--font-mono);font-size:12px;color:var(--ink);padding:var(--s-1) 0}.eval-tool-name{color:var(--accent);font-weight:600;font-family:var(--font-mono)}.eval-tool-args{color:var(--ink-muted);font-family:var(--font-mono);word-break:break-word}.eval-tool-summary{color:var(--ink);font-family:var(--font-sans);font-size:12px;font-style:italic;flex:1 1 100%;margin-left:var(--s-3)}.eval-citation-list{list-style:none;margin:var(--s-2) 0 0;padding:0;display:flex;flex-direction:column;gap:var(--s-1)}.eval-link-mono{font-family:var(--font-mono);font-size:12px;color:var(--accent);border-bottom:1px solid currentColor;padding-bottom:1px}.eval-link-mono:hover{color:var(--ink)}.eval-judge{background:#00000005;margin:0 calc(-1 * var(--s-5));padding:var(--s-3) var(--s-5);border-top:1px solid var(--rule)}.eval-judge>summary{text-transform:none;letter-spacing:0;font-family:var(--font-mono);font-size:12px;color:var(--ink);font-weight:500}.eval-judge .verdict-pass{color:var(--success)}.eval-judge .verdict-fail{color:var(--error)}.eval-judge .verdict-na{color:var(--ink-muted)}.eval-judge-reasoning{font-family:var(--font-body);font-size:14px;line-height:1.6;color:var(--ink);margin:var(--s-2) 0 0;padding-left:var(--s-3);border-left:2px solid var(--rule)}@media(max-width:640px){.eval-page-header h1{font-size:36px}.eval-lede{font-size:18px}.eval-header-num{font-size:24px}.eval-case-summary{grid-template-columns:1fr;grid-template-areas:"meta" "prompt" "verdicts"}.eval-case-verdicts{justify-content:flex-start}}.eval-header-caption{font-size:11px;color:var(--ink-muted);font-family:var(--font-sans);text-transform:lowercase;letter-spacing:.04em;display:block;margin-top:4px}.sr-only{position:absolute;width:1px;height:1px;padding:0;margin:-1px;overflow:hidden;clip:rect(0,0,0,0);white-space:nowrap;border:0}.eval-scoreboard{display:grid;grid-template-columns:auto 1fr 1fr;gap:var(--s-4);align-items:stretch;border-bottom:1px solid var(--arm-divider);padding-bottom:var(--s-4)}.eval-scoreboard-anchor{display:flex;flex-direction:column;justify-content:center;gap:var(--s-1);padding-right:var(--s-3)}.eval-scoreboard-num{font-family:var(--font-display);font-size:2.5rem;font-weight:600;line-height:1;letter-spacing:-.01em;color:var(--ink)}.eval-scoreboard-label{font-family:var(--font-sans);font-size:.75rem;text-transform:uppercase;letter-spacing:.06em;color:var(--ink-muted)}.eval-scoreboard-col{padding:var(--s-3) var(--s-4);border-radius:6px}.eval-scoreboard-col--baseline{background:var(--arm-baseline-bg)}.eval-scoreboard-col--wiki{background:var(--arm-wiki-bg)}.eval-scoreboard-col-header{display:flex;flex-direction:column;gap:2px;margin-bottom:var(--s-3)}.eval-scoreboard-arm{font-family:var(--font-sans);font-size:.75rem;font-weight:600;letter-spacing:.08em;color:var(--ink)}.eval-scoreboard-model{font-family:var(--font-sans);font-size:.875rem;color:var(--ink-muted)}.eval-scoreboard-partial{font-family:var(--font-sans);font-size:.7rem;color:var(--ink-muted);font-style:italic}.eval-scoreboard-rows{display:grid;gap:var(--s-1);margin:0}.eval-scoreboard-row{display:grid;grid-template-columns:5.5rem 1fr;align-items:baseline;gap:var(--s-2)}.eval-scoreboard-row dt{font-family:var(--font-sans);font-size:.7rem;letter-spacing:.06em;color:var(--ink-muted);text-transform:uppercase;font-weight:600}.eval-scoreboard-row dd{margin:0;font-family:var(--font-mono);font-variant-numeric:tabular-nums;font-size:.875rem;color:var(--ink)}.eval-scoreboard-meta{grid-column:1 / -1;text-align:right;font-family:var(--font-mono);font-size:.75rem;color:var(--ink-muted)}.eval-case-pillpair{display:inline-flex;gap:.25rem;align-items:center}.eval-ab-pill{display:inline-flex;align-items:center;gap:.25rem;padding:.125rem .375rem;border-radius:999px;font-family:var(--font-sans);font-size:.7rem;font-variant-numeric:tabular-nums;line-height:1.4}.eval-ab-pill-label{font-family:var(--font-mono);font-weight:700;opacity:.6}.eval-ab-pill--pass{background:color-mix(in oklch,var(--success) 18%,var(--paper));color:var(--success)}.eval-ab-pill--fail{background:color-mix(in oklch,var(--error) 14%,var(--paper));color:var(--error)}.eval-ab-pill--pending{background:color-mix(in oklch,var(--ink) 6%,var(--paper));color:var(--ink-muted)}.eval-filter-compare .eval-pill{letter-spacing:.02em}.eval-pill-count{color:var(--ink-muted);font-size:.85em;margin-left:.25rem;font-variant-numeric:tabular-nums}.eval-case-tabs{display:inline-flex;gap:.25rem;margin-block:.5rem 1rem}.eval-case-tab{padding:.375rem .875rem;border:1px solid var(--arm-divider);border-radius:999px;text-decoration:none;font-family:var(--font-sans);font-size:.875rem;color:var(--ink)}.eval-case-tab:hover{border-color:color-mix(in oklch,var(--ink) 30%,transparent)}.eval-case-tab:focus-visible{outline:2px solid var(--accent);outline-offset:2px}.eval-case-tab--baseline{background:var(--arm-baseline-bg)}.eval-case-tab--wiki{background:transparent}.eval-case-arm--baseline{display:block}.eval-case-arm--wiki{display:none}.eval-case-arm--wiki:target{display:block}body:has(#case-wiki:target) .eval-case-arm--baseline{display:none}body:has(#case-wiki:target) .eval-case-tab--baseline{background:transparent}body:has(#case-wiki:target) .eval-case-tab--wiki{background:var(--arm-wiki-bg)}.eval-case-tab.is-active{background:var(--arm-baseline-bg)}.eval-delta-strip{display:grid;gap:.25rem;border:1px solid var(--arm-divider);border-radius:6px;padding:.625rem .875rem;margin-bottom:1rem}.eval-delta-row{display:grid;grid-template-columns:6rem auto auto auto auto;gap:1rem;align-items:baseline;font-family:var(--font-sans);font-size:.875rem;font-variant-numeric:tabular-nums;padding:.25rem .5rem;border-radius:4px}.eval-delta-row--baseline{background:var(--arm-baseline-bg)}.eval-delta-row--wiki{background:var(--arm-wiki-bg)}.eval-delta-row--pending{color:var(--ink-muted);font-style:italic;display:block;grid-template-columns:none}.eval-delta-row-label{font-family:var(--font-sans);font-weight:600;color:var(--ink-muted);text-transform:uppercase;letter-spacing:.04em;font-size:.75rem}.eval-delta-row-verdict--pass{color:var(--success)}.eval-delta-row-verdict--fail{color:var(--error)}.eval-delta-row-verdict--unjudged{color:var(--ink-muted)}.eval-delta-row-tools,.eval-delta-row-cost,.eval-delta-row-tokens{font-family:var(--font-mono);color:var(--ink)}.eval-case-arm-tag{font-family:var(--font-sans);font-size:11px;font-weight:500;letter-spacing:.04em;color:var(--ink-muted);text-transform:lowercase}.eval-case-arm-tag--baseline{color:var(--ink-muted)}.eval-case-arm-tag--wiki{color:var(--accent)}
