Managed Inference

LLM-Endpoints via vLLM — von uns betrieben, ohne Ops-Aufwand, mit Schweizer Datenhoheit.

OpenAI-kompatible API

Du sprichst denselben Endpoint an wie bei den grossen Anbietern. Bestehender Code läuft oft ohne Änderung.

vLLM unter der Haube

Hoher Durchsatz, effizientes Batching, offene Modelle deiner Wahl. Wir halten die Engine aktuell.

Kein Ops-Aufwand

Skalierung, Updates, Monitoring und Neustarts laufen bei uns. Du bekommst eine URL und einen Key.

Schweizer Datenhoheit

Prompts und Antworten bleiben in der Schweiz. DSG- und DSGVO-konform, ohne Zusatzaufwand.

Was Managed Inference kostet

Du zahlst für einen laufenden Endpoint im Monatsmodell, nicht für eine ganze Maschine, die du selbst auslasten musst. Das macht die Kosten planbar.

Was den Preis bestimmt: die Modellgrösse und wie viel Kapazität du reservierst. Ein kleines Modell für gelegentliche Anfragen kostet deutlich weniger als ein grosses unter Dauerlast. Die Ansätze stehen auf der Preisseite.

Gegenüber einer kommerziellen API zahlst du keinen Aufschlag pro Token an einen US-Anbieter, sondern eine klare Schweizer Rechnung.

Wann gemanagt besser ist als selbst betreiben

Managed Inference passt, wenn das Modell ein Baustein in deinem Produkt ist und nicht dein Kerngeschäft. Du willst eine stabile API, keine GPU, die du nachts neu startest.

Es passt nicht, wenn du tief in den Stack eingreifen musst: eigene CUDA-Kernel, exotische Modellarchitekturen, Training. Dafür nimmst du Bare Metal mit Root.

Viele starten gemanagt und behalten es. Den Betrieb selbst zu übernehmen lohnt sich erst, wenn Last und Anforderungen es wirklich verlangen.

Managed Inference, Self-Host oder kommerzielle API

Kommerzielle API (OpenAI und Co.) ist sofort da, aber deine Daten gehen zu einem US-Anbieter, und du bist an dessen Modelle und Preise gebunden.

Self-Host gibt dir volle Kontrolle, kostet dich aber den ganzen Betrieb: Treiber, Skalierung, Updates, Bereitschaft.

Managed Inference bei twentyone liegt dazwischen: OpenAI-kompatibel und ohne Ops wie die API, aber mit offenen Modellen und Schweizer Datenhoheit wie beim Self-Host. Du behältst die Wahl des Modells, ohne den Betrieb zu erben.

Wir betreiben unsere eigenen Endpoints

Die Endpoints, die unsere eigenen Produkte und Agents versorgen, laufen auf demselben Setup, das du mietest. vLLM, offene Modelle, Schweizer Hardware.

Wir wissen, wie sich die Engine unter Dauerlast verhält und wo sie getunt werden muss, weil wir sie selbst im Betrieb haben.

So holst du das Beste aus einem Endpoint

Wähle das kleinste Modell, das deine Aufgabe löst. Grösser ist nicht automatisch besser, nur teurer und langsamer.

Nutze die OpenAI-kompatible Schnittstelle, dann bleibst du flexibel und kannst Modelle wechseln, ohne deinen Code umzuschreiben.

Miss echte Last, bevor du Kapazität reservierst. Wir helfen dir beim Sizing, statt dir vorsorglich das grösste Paket zu verkaufen.

Monatsmodell statt Token-Lotterie

Du zahlst für reservierte Kapazität im Monat, planbar und ohne Überraschung. Die Ansätze stehen offen auf der Preisseite.

Preise ansehen

Häufige Fragen zu Managed Inference

Ist die API wirklich OpenAI-kompatibel?

Ja. Du änderst Base-URL und Key, der Rest deines Codes bleibt meist gleich.

Welche Modelle kann ich nutzen?

Offene Modelle deiner Wahl. Sag uns, welches du brauchst, wir stellen es bereit oder beraten dich zur Alternative.

Wo werden meine Prompts verarbeitet?

Auf unserer Hardware in der Schweiz. Es geht nichts an einen Drittanbieter ausserhalb der Schweiz.

Was, wenn ich später mehr Kontrolle brauche?

Dann wechselst du auf Bare Metal mit Root. Derselbe Anbieter, dieselbe Hardware-Basis.

Jan-Hendrik Heuing

Ein Endpoint, den du nicht betreiben musst

Sag uns, welches Modell du brauchst und mit welcher Last. Wir richten den Endpoint ein.