# PeliBench model registry — adding a model = adding an entry here.
# Adapter values: anthropic | openai | openai_compatible | gemini
defaults: &defaults
  temperature: 1.0
  top_p: 1.0
  max_output_tokens: 8192
  n_samples: 3
  timeout_ms: 120000

models:
  - id: claude-opus
    display_name: "Claude Opus"
    adapter: anthropic
    model_alias: "claude-opus-latest"
    auth_env: ANTHROPIC_API_KEY
    pricing: { input: 15.00, output: 75.00 }
    capabilities: { supports_system_prompt: true, supports_seed: false }
    rate_limit: { rpm: 50, concurrent: 4 }
    enabled: true

  - id: claude-fable
    display_name: "Claude Fable"
    adapter: anthropic
    model_alias: "claude-fable-latest"
    auth_env: ANTHROPIC_API_KEY
    pricing: { input: 5.00, output: 25.00 }
    capabilities: { supports_system_prompt: true, supports_seed: false }
    rate_limit: { rpm: 50, concurrent: 4 }
    enabled: true

  - id: claude-haiku
    display_name: "Claude Haiku"
    adapter: anthropic
    model_alias: "claude-haiku-latest"
    auth_env: ANTHROPIC_API_KEY
    pricing: { input: 0.80, output: 4.00 }
    capabilities: { supports_system_prompt: true, supports_seed: false }
    rate_limit: { rpm: 100, concurrent: 8 }
    enabled: true

  - id: gpt-5.5
    display_name: "GPT-5.5"
    adapter: openai
    model_alias: "gpt-5.5"
    auth_env: OPENAI_API_KEY
    pricing: { input: 10.00, output: 40.00 }
    capabilities: { supports_system_prompt: true, supports_seed: true }
    rate_limit: { rpm: 60, concurrent: 6 }
    enabled: true

  - id: qwen
    display_name: "Qwen (large)"
    adapter: openai_compatible
    model_alias: "qwen-max-latest"
    endpoint: "https://api.example-inference.com/v1"
    auth_env: QWEN_API_KEY
    pricing: { input: 1.60, output: 6.40 }
    capabilities: { supports_system_prompt: true, supports_seed: true }
    rate_limit: { rpm: 60, concurrent: 6 }
    enabled: true

  - id: gpt-oss
    display_name: "gpt-oss"
    adapter: openai_compatible
    model_alias: "gpt-oss-120b"
    endpoint: "https://api.example-inference.com/v1"
    auth_env: GPT_OSS_API_KEY
    pricing: { input: 0.15, output: 0.60 }
    capabilities: { supports_system_prompt: true, supports_seed: true }
    rate_limit: { rpm: 60, concurrent: 6 }
    enabled: true

  - id: gemini-flash-3.5
    display_name: "Gemini Flash 3.5"
    adapter: gemini
    model_alias: "gemini-flash-3.5"
    auth_env: GOOGLE_API_KEY
    pricing: { input: 0.10, output: 0.40 }
    capabilities: { supports_system_prompt: true, supports_seed: false }
    rate_limit: { rpm: 100, concurrent: 8 }
    enabled: true

  - id: gemini-pro-3.0
    display_name: "Gemini Pro 3.0"
    adapter: gemini
    model_alias: "gemini-pro-3.0"
    auth_env: GOOGLE_API_KEY
    pricing: { input: 2.50, output: 10.00 }
    capabilities: { supports_system_prompt: true, supports_seed: false }
    rate_limit: { rpm: 60, concurrent: 4 }
    enabled: true

judge:
  model: gemini-pro-3.0       # pinned vision judge; its own outputs flagged self_judged
  temperature: 0
  retries_on_schema_fail: 2
  certified_judgings: 3        # median-of-3 for leaderboard runs

budget:
  max_run_usd: 5.00            # hard cap per user-triggered run
  user_runs_per_hour: 3