> ## Documentation Index
> Fetch the complete documentation index at: https://veniceai-docs-revamp.mintlify.site/llms.txt
> Use this file to discover all available pages before exploring further.

# Límites de velocidad

> Límites de velocidad de solicitudes y tokens para la API de Venice.

Los límites de velocidad varían según el modelo y el nivel. Los límites predeterminados que aparecen a continuación son una referencia útil, pero el endpoint `/api_keys/rate_limits` de la API es la forma canónica de obtener tus límites actuales. Puedes consultar tus límites exactos en cualquier momento:

<CardGroup cols={2}>
  <Card title="Ver tus límites" icon="gauge-high" href="/api-reference/endpoint/api_keys/rate_limits?playground=open">
    Playground interactivo
  </Card>

  <Card title="Registros de límites" icon="clock-rotate-left" href="/api-reference/endpoint/api_keys/rate_limit_logs?playground=open">
    Mira qué solicitudes alcanzaron los límites
  </Card>
</CardGroup>

```bash theme={"dark"}
curl https://api.venice.ai/api/v1/api_keys/rate_limits \
  -H "Authorization: Bearer $VENICE_API_KEY"
```

## Límites predeterminados

### Modelos de texto

Los modelos de texto se agrupan en niveles según su tamaño. Cada tarjeta de modelo en la [página de Modelos](/models/text) muestra su insignia de nivel.

| Nivel | Solicitudes/min | Tokens/min |
| :---- | --------------: | ---------: |
| XS    |             500 |  1.000.000 |
| S     |              75 |    750.000 |
| M     |              50 |    750.000 |
| L     |              20 |    500.000 |

<Accordion title="¿Qué modelos hay en cada nivel?">
  **XS** `qwen3-4b` `llama-3.2-3b`

  **S** `mistral-31-24b` `venice-uncensored`

  **M** `zai-org-glm-5` `qwen3-next-80b` `google-gemma-3-27b-it`

  **L** `qwen3-235b-a22b-instruct-2507` `qwen3-235b-a22b-thinking-2507` `deepseek-ai-DeepSeek-R1` `grok-41-fast` `kimi-k2-thinking` `gemini-3-pro-preview` `hermes-3-llama-3.1-405b` `qwen3-coder-480b-a35b-instruct` `zai-org-glm-4.7` `openai-gpt-oss-120b`
</Accordion>

### Otros modelos

| Tipo              | Solicitudes/min |
| :---------------- | --------------: |
| Imagen            |              20 |
| Audio             |              60 |
| Embedding         |             500 |
| Vídeo (cola)      |              40 |
| Vídeo (recuperar) |             120 |

## Gestión de errores

Las solicitudes fallidas (500, 503, 429) deben reintentarse con backoff exponencial.

Para los errores 429 en particular, comprueba la cabecera `x-ratelimit-reset-requests` para conocer la marca de tiempo Unix exacta en la que puedes reintentar. La mayoría de las bibliotecas HTTP tienen mecanismos de reintento integrados que lo gestionan automáticamente.

### Protección frente a abusos

Si generas más de 20 solicitudes fallidas en 30 segundos, la API bloqueará nuevas solicitudes durante 30 segundos:

```
Too many failed attempts (> 20) resulting in a non-success status code. Please wait 30s and try again.
```

## Cabeceras de respuesta

Cada respuesta incluye estas cabeceras:

| Cabecera                         | Descripción                                           |
| :------------------------------- | :---------------------------------------------------- |
| `x-ratelimit-limit-requests`     | Máximo de solicitudes permitidas en la ventana actual |
| `x-ratelimit-remaining-requests` | Solicitudes restantes en la ventana actual            |
| `x-ratelimit-reset-requests`     | Marca de tiempo Unix cuando se restablece la ventana  |
| `x-ratelimit-limit-tokens`       | Máximo de tokens permitidos por minuto                |
| `x-ratelimit-remaining-tokens`   | Tokens restantes en el minuto actual                  |
| `x-ratelimit-reset-tokens`       | Segundos hasta que se restablece el límite de tokens  |

## Nivel Partner

Los partners obtienen límites de velocidad significativamente más altos:

| Nivel | Solicitudes/min | Tokens/min |
| :---- | --------------: | ---------: |
| XS    |             500 |  2.000.000 |
| S     |             150 |  1.500.000 |
| M     |             100 |  1.500.000 |
| L     |              60 |  1.000.000 |

| Tipo      | Solicitudes/min |
| :-------- | --------------: |
| Imagen    |              60 |
| Audio     |             120 |
| Embedding |             500 |

Si estás alcanzando consistentemente tus límites de velocidad y tus patrones de uso muestran **demanda sostenida en el tiempo**, ponte en contacto para hablar sobre acceso de partner: [api@venice.ai](mailto:api@venice.ai).

Los límites del nivel Partner pueden ajustarse según tus necesidades específicas.