> ## Documentation Index
> Fetch the complete documentation index at: https://veniceai-docs-revamp.mintlify.site/llms.txt
> Use this file to discover all available pages before exploring further.

# Limites de taxa

> Limites de requisições e tokens da API Venice.

Os limites de taxa variam por modelo e tier. Os limites padrão abaixo são uma referência útil, mas o endpoint `/api_keys/rate_limits` da API é a forma canônica de buscar seus limites atuais. Você pode verificar seus limites exatos a qualquer momento:

<CardGroup cols={2}>
  <Card title="Veja seus limites" icon="gauge-high" href="/api-reference/endpoint/api_keys/rate_limits?playground=open">
    Playground interativo
  </Card>

  <Card title="Logs de limite de taxa" icon="clock-rotate-left" href="/api-reference/endpoint/api_keys/rate_limit_logs?playground=open">
    Veja quais requisições atingiram limites
  </Card>
</CardGroup>

```bash theme={"dark"}
curl https://api.venice.ai/api/v1/api_keys/rate_limits \
  -H "Authorization: Bearer $VENICE_API_KEY"
```

## Limites padrão

### Modelos de texto

Os modelos de texto são agrupados em tiers com base no tamanho. Cada cartão de modelo na [página de modelos](/models/text) exibe seu badge de tier.

| Tier | Requisições/min | Tokens/min |
| :--- | --------------: | ---------: |
| XS   |             500 |  1.000.000 |
| S    |              75 |    750.000 |
| M    |              50 |    750.000 |
| L    |              20 |    500.000 |

<Accordion title="Quais modelos estão em cada tier?">
  **XS** `qwen3-4b` `llama-3.2-3b`

  **S** `mistral-31-24b` `venice-uncensored`

  **M** `zai-org-glm-5` `qwen3-next-80b` `google-gemma-3-27b-it`

  **L** `qwen3-235b-a22b-instruct-2507` `qwen3-235b-a22b-thinking-2507` `deepseek-ai-DeepSeek-R1` `grok-41-fast` `kimi-k2-thinking` `gemini-3-pro-preview` `hermes-3-llama-3.1-405b` `qwen3-coder-480b-a35b-instruct` `zai-org-glm-4.7` `openai-gpt-oss-120b`
</Accordion>

### Outros modelos

| Tipo             | Requisições/min |
| :--------------- | --------------: |
| Imagem           |              20 |
| Áudio            |              60 |
| Embedding        |             500 |
| Vídeo (queue)    |              40 |
| Vídeo (retrieve) |             120 |

## Tratamento de erros

Requisições com falha (500, 503, 429) devem ser repetidas com backoff exponencial.

Para erros 429 especificamente, verifique o cabeçalho `x-ratelimit-reset-requests` para o timestamp Unix exato em que você pode tentar novamente. A maioria das bibliotecas HTTP tem mecanismos de retry integrados que tratam isso automaticamente.

### Proteção contra abuso

Se você gerar mais de 20 requisições com falha em 30 segundos, a API bloqueará novas requisições por 30 segundos:

```
Too many failed attempts (> 20) resulting in a non-success status code. Please wait 30s and try again.
```

## Cabeçalhos de resposta

Toda resposta inclui estes cabeçalhos:

| Cabeçalho                        | Descrição                                        |
| :------------------------------- | :----------------------------------------------- |
| `x-ratelimit-limit-requests`     | Máximo de requisições permitidas na janela atual |
| `x-ratelimit-remaining-requests` | Requisições restantes na janela atual            |
| `x-ratelimit-reset-requests`     | Timestamp Unix de quando a janela é redefinida   |
| `x-ratelimit-limit-tokens`       | Máximo de tokens permitidos por minuto           |
| `x-ratelimit-remaining-tokens`   | Tokens restantes no minuto atual                 |
| `x-ratelimit-reset-tokens`       | Segundos até o limite de tokens ser redefinido   |

## Tier Partner

Parceiros recebem limites de taxa significativamente maiores:

| Tier | Requisições/min | Tokens/min |
| :--- | --------------: | ---------: |
| XS   |             500 |  2.000.000 |
| S    |             150 |  1.500.000 |
| M    |             100 |  1.500.000 |
| L    |              60 |  1.000.000 |

| Tipo      | Requisições/min |
| :-------- | --------------: |
| Imagem    |              60 |
| Áudio     |             120 |
| Embedding |             500 |

Se você está atingindo seus limites de taxa consistentemente e seus padrões de uso mostram **demanda sustentada ao longo do tempo**, entre em contato para discutir acesso de parceiro: [api@venice.ai](mailto:api@venice.ai).

Os limites do tier Partner podem ser ajustados com base em suas necessidades específicas.
