> ## Documentation Index
> Fetch the complete documentation index at: https://veniceai-docs-revamp.mintlify.site/llms.txt
> Use this file to discover all available pages before exploring further.

# Rate limit

> Rate limit per richieste e token dell'API Venice.

I rate limit variano in base al modello e al tier. I limiti predefiniti qui sotto sono un riferimento utile, ma l'endpoint API `/api_keys/rate_limits` è il modo canonico per ottenere i tuoi limiti correnti. Puoi controllare i tuoi limiti esatti in qualsiasi momento:

<CardGroup cols={2}>
  <Card title="Visualizza i tuoi limiti" icon="gauge-high" href="/api-reference/endpoint/api_keys/rate_limits?playground=open">
    Playground interattivo
  </Card>

  <Card title="Log dei rate limit" icon="clock-rotate-left" href="/api-reference/endpoint/api_keys/rate_limit_logs?playground=open">
    Scopri quali richieste hanno raggiunto i limiti
  </Card>
</CardGroup>

```bash theme={"dark"}
curl https://api.venice.ai/api/v1/api_keys/rate_limits \
  -H "Authorization: Bearer $VENICE_API_KEY"
```

## Limiti predefiniti

### Modelli di testo

I modelli di testo sono raggruppati in tier in base alle dimensioni. Ogni card di modello sulla [pagina Modelli](/models/text) mostra il badge del proprio tier.

| Tier | Richieste/min | Token/min |
| :--- | ------------: | --------: |
| XS   |           500 | 1.000.000 |
| S    |            75 |   750.000 |
| M    |            50 |   750.000 |
| L    |            20 |   500.000 |

<Accordion title="Quali modelli sono in ciascun tier?">
  **XS** `qwen3-4b` `llama-3.2-3b`

  **S** `mistral-31-24b` `venice-uncensored`

  **M** `zai-org-glm-5` `qwen3-next-80b` `google-gemma-3-27b-it`

  **L** `qwen3-235b-a22b-instruct-2507` `qwen3-235b-a22b-thinking-2507` `deepseek-ai-DeepSeek-R1` `grok-41-fast` `kimi-k2-thinking` `gemini-3-pro-preview` `hermes-3-llama-3.1-405b` `qwen3-coder-480b-a35b-instruct` `zai-org-glm-4.7` `openai-gpt-oss-120b`
</Accordion>

### Altri modelli

| Tipo             | Richieste/min |
| :--------------- | ------------: |
| Image            |            20 |
| Audio            |            60 |
| Embedding        |           500 |
| Video (queue)    |            40 |
| Video (retrieve) |           120 |

## Gestione degli errori

Le richieste fallite (500, 503, 429) dovrebbero essere ritentate con backoff esponenziale.

Per gli errori 429 specificamente, controlla l'header `x-ratelimit-reset-requests` per il timestamp Unix esatto in cui puoi riprovare. La maggior parte delle librerie HTTP dispone di meccanismi di retry integrati che gestiscono questo automaticamente.

### Protezione anti-abuso

Se generi più di 20 richieste fallite in 30 secondi, l'API bloccherà ulteriori richieste per 30 secondi:

```
Too many failed attempts (> 20) resulting in a non-success status code. Please wait 30s and try again.
```

## Response headers

Ogni risposta include questi header:

| Header                           | Descrizione                                                    |
| :------------------------------- | :------------------------------------------------------------- |
| `x-ratelimit-limit-requests`     | Numero massimo di richieste consentite nella finestra corrente |
| `x-ratelimit-remaining-requests` | Richieste rimanenti nella finestra corrente                    |
| `x-ratelimit-reset-requests`     | Timestamp Unix quando la finestra si resetta                   |
| `x-ratelimit-limit-tokens`       | Numero massimo di token consentiti al minuto                   |
| `x-ratelimit-remaining-tokens`   | Token rimanenti nel minuto corrente                            |
| `x-ratelimit-reset-tokens`       | Secondi al reset del limite di token                           |

## Tier Partner

I partner ottengono rate limit significativamente più alti:

| Tier | Richieste/min | Token/min |
| :--- | ------------: | --------: |
| XS   |           500 | 2.000.000 |
| S    |           150 | 1.500.000 |
| M    |           100 | 1.500.000 |
| L    |            60 | 1.000.000 |

| Tipo      | Richieste/min |
| :-------- | ------------: |
| Image     |            60 |
| Audio     |           120 |
| Embedding |           500 |

Se raggiungi costantemente i tuoi rate limit e i tuoi pattern di utilizzo mostrano una **domanda sostenuta nel tempo**, contattaci per discutere l'accesso partner: [api@venice.ai](mailto:api@venice.ai).

I limiti del tier partner possono essere regolati in base alle tue esigenze specifiche.