Was kostet es, ein LLM selbst zu betreiben?
Die ehrliche Rechnung hinter eigenen LLM-Endpoints: Hardware, Betrieb und der Punkt, ab dem sich Selbermachen wirklich lohnt.
Bevor du dich entscheidest, ein Sprachmodell selbst zu betreiben, lohnt sich eine ehrliche Rechnung. Nicht der Sticker-Preis einer GPU-Stunde, sondern die volle Rechnung. Die meisten unterschätzen, wie viel neben der reinen Hardware noch dazukommt.
Die vier Kostenblöcke
Hardware. Die GPU ist der offensichtliche Posten. Eine DGX Spark trägt dank 128 GB Unified Memory grosse Modelle, eine H100 liefert rohen Durchsatz. Kaufst du die Maschine, bindest du Kapital und trägst das Risiko, dass sie veraltet. Mietest du sie, zahlst du nur für die Laufzeit.
Rechenzentrum und Strom. Eine GPU im Dauerbetrieb zieht Strom, braucht Kühlung und einen Platz mit stabiler Anbindung. Im Eigenbetrieb ist das dein Problem, beim gemieteten Stack steckt es im Preis.
Betrieb. Der teuerste und am häufigsten vergessene Block. Treiber aktuell halten, die Inferenz-Engine tunen, Ausfälle abfangen, nachts erreichbar sein. Das ist Arbeitszeit, und die kostet mehr als die Hardware selbst.
Modell und Lizenzen. Offene Modelle sind frei nutzbar, aber du musst sie auswählen, testen und aktuell halten.
Self-Host gegen API
Eine kommerzielle API ist sofort da und du zahlst pro Token. Das ist günstig, solange dein Volumen klein ist. Ab einer gewissen, konstanten Last dreht sich die Rechnung: Ein reservierter Endpoint mit fester Monatspauschale wird billiger als der Token-Zähler, der mit jedem Request weiterläuft. Dazu kommt der Punkt, der sich nicht in Franken misst: Bei der API verlassen deine Daten die Schweiz.
Wann sich gemanagt lohnt
Selbst betreiben lohnt sich, wenn der Stack dein Produkt ist und du die Kontrolle wirklich brauchst. Geht es dir nur um einen stabilen Endpoint, zahlst du beim Selbstbetrieb vor allem den Betriebsblock, ohne den Gegenwert zu nutzen.
Genau hier sitzt Managed Inference: die Datenhoheit und die offenen Modelle des Self-Hosts, aber ohne den Betrieb zu erben. Bei twentyone rechnen wir das monatsweise ab, als planbare Pauschale pro Monat statt Stundenzähler oder Token-Abrechnung. Was die einzelnen Ebenen kosten, steht offen auf der Preisseite.