> ## Documentation Index
> Fetch the complete documentation index at: https://veniceai-docs-revamp.mintlify.site/llms.txt
> Use this file to discover all available pages before exploring further.

# Speech-to-Text-Modelle

> Spracherkennungsmodelle zum Transkribieren von Audio in Text

<div id="model-search-placeholder" data-filter="asr">Loading models...</div>

***

## Verwendung

Speech-to-Text-Modelle transkribieren gesprochenes Audio in geschriebenen Text. Sie werden über die [Audio-Transcriptions-API](/api-reference/endpoint/audio/transcriptions) aufgerufen.

### Unterstützte Audioformate

`mp3`, `mp4`, `mpeg`, `mpga`, `m4a`, `wav`, `webm`, `flac`, `ogg`

### Antwortformate

| Format         | Beschreibung                                                          |
| -------------- | --------------------------------------------------------------------- |
| `json`         | Standard. Gibt `{ "text": "..." }` zurück.                            |
| `text`         | Reiner transkribierter Text.                                          |
| `srt`          | SubRip-Untertitelformat mit Zeitstempeln.                             |
| `vtt`          | WebVTT-Untertitelformat mit Zeitstempeln.                             |
| `verbose_json` | Vollständige Antwort mit Zeitstempeln auf Segmentebene und Metadaten. |

<Note>
  Die Abrechnung erfolgt pro Sekunde Eingabe-Audio. Anfrage-Beispiele und Parameterdetails finden Sie in der [Audio-Transcriptions-API](/api-reference/endpoint/audio/transcriptions).
</Note>