Welches offene Modell für welche Aufgabe? Llama, Qwen, Mistral & Co.

Nicht das grösste Modell gewinnt, sondern das passende. Wie du offene Modelle nach Aufgabe, Speicherbedarf und Lizenz auswählst, statt Benchmarks hinterherzulaufen.

Warum die Bestenliste die falsche Frage beantwortet

Stell dir vor, jemand schreibt dir ins Team-Chat: „Lass uns das neue Top-Modell vom Leaderboard nehmen, das schlägt alles.“ Drei Wochen später steht die Rechnung für eine GPU, die viermal so gross ist wie nötig, der Durchsatz ist mässig, weil das Modell kaum in den Speicher passt, und die Rechtsabteilung meldet, dass die Lizenz den kommerziellen Einsatz in eurem Fall gar nicht deckt. Das ist kein erfundenes Schreckensbild, sondern der Normalfall, wenn die Modellwahl bei der Frage „welches ist das beste“ beginnt. Die bessere Frage lautet „welches passt“, und sie entscheidet sich entlang von drei Achsen: Speicher, Aufgabe und Lizenz. Der Rest ist Geschmack.

Speicher zuerst: die Mathematik, die alles vorentscheidet

Bevor du über Qualität auch nur nachdenkst, klär, was überhaupt in deinen Speicher passt. Das ist keine Geschmacksfrage, sondern Arithmetik, und sie schneidet die Kandidatenliste in Sekunden zusammen. Der Speicherbedarf der Gewichte ist ungefähr Parameter mal Bytes pro Parameter. In FP16 (16 Bit) sind das 2 Bytes pro Parameter, in 8-Bit 1 Byte, in 4-Bit rund 0,5 Bytes. Ein 8B-Modell braucht also grob 16 GB in FP16, 8 GB in 8-Bit, 4 GB in 4-Bit. Dazu kommt Overhead für den KV-Cache, der mit Kontextlänge und der Zahl gleichzeitiger Anfragen wächst, sowie für Aktivierungen; als grobe Daumenregel rechne mit dem rund 1,2-fachen des reinen Gewichtsbedarfs, bei langen Kontexten und vielen parallelen Nutzern auch deutlich mehr.

Wie sehr das die Wahl bestimmt, zeigt der Sprung nach oben. Ein 70B-Modell in FP16 belegt rund 140 GB allein an Gewichten. Das passt auf keine einzelne gängige Karte und auch nicht ungequetscht auf eine DGX Spark mit 128 GB Unified Memory. In 4-Bit schrumpft dasselbe Modell auf etwa 35 bis 40 GB, und genau hier wird es interessant: 35 GB plus KV-Cache laufen komfortabel auf 128 GB Unified Memory, mit reichlich Luft für lange Kontexte und mehrere Anfragen. Auf einer 24-GB-Karte ist ein 4-Bit-70B dagegen ausser Reichweite; dort landest du realistisch bei 7B/8B-Modellen oder kleinen Quantisierungen mittlerer Grössen. Eine 48-GB-Karte trägt ein 4-Bit-70B knapp, ohne viel Spielraum, eine 80-GB-Karte komfortabel. Der Engpass ist eben fast immer der Speicher, nicht die Rechenleistung, und wenn CPU und GPU sich wie bei der DGX Spark 128 GB teilen, passt ein grosses Modell am Stück hinein, ohne ständig über PCIe nachzuladen. Das ist der Grund, warum eine speicherstarke Maschine grosse, quantisierte Modelle ruhig betreibt, an denen eine rechenstärkere, aber speicherärmere Karte scheitert. Die ganze Abwägung zwischen Speicher, Durchsatz und Kosten haben wir im Vergleich DGX Spark gegen Cloud-GPU aufgemacht.

Quantisierung: kleiner machen, ohne dumm zu machen

Quantisierung speichert die Gewichte mit weniger Bits und ist damit der stärkste Hebel überhaupt, um ein gutes Modell auf bezahlbare Hardware zu bringen, meist deutlich klüger, als reflexhaft eine grössere GPU zu kaufen. Zur Orientierung: 8-Bit ist praktisch verlustfrei, den Unterschied zu FP16 misst du eher im Benchmark als im Alltag. 4-Bit ist für die allermeisten produktiven Fälle gut nutzbar, mit minimalen Einbussen. Darunter, bei 3-Bit oder 2-Bit, wird es heikel, da bröckelt die Qualität sicht- und messbar. Die wichtigste Konsequenz daraus: Ein in 4-Bit quantisiertes grosses Modell schlägt fast immer ein kleineres Modell in voller Präzision bei gleichem Speicherbudget. Mehr Parameter, grob komprimiert, sind oft besser als wenige Parameter, fein aufgelöst.

Welches Format du dabei wählst, hängt an deiner Inference-Engine, denn nicht jede Engine spricht jedes Format. GPTQ und AWQ sind Post-Training-Quantisierungen, die auf GPU-Inferenz optimiert sind; AWQ schützt gezielt die wichtigsten Gewichte und hält die Qualität bei 4-Bit gut. GGUF mit den sogenannten k-quants, etwa Q4KM, stammt aus dem llama.cpp-Umfeld, läuft auch auf CPU und Apple Silicon und ist der Standard für lokale Setups. bitsandbytes schliesslich bietet On-the-fly-Quantisierung direkt beim Laden über die gängigen Bibliotheken, ist dafür aber oft etwas langsamer als die vorquantisierten Formate.

Die Modellfamilien und ihr echtes Profil

Statt Versionsnummern, die in Monaten veralten, lohnt der Blick auf die Familien und ihren Charakter. Metas Llama-Familie ist der breite Default: das grösste Ökosystem, die beste Tool-Unterstützung, Varianten von klein bis sehr gross. Wenn du nicht weisst, wo du anfängst, ist eine Llama-Variante selten falsch; der Haken sitzt in der Lizenz, dazu gleich mehr. Die Qwen-Familie glänzt bei mehrsprachigen Aufgaben und beim Coding und bietet oft ein hervorragendes Verhältnis von Grösse zu Leistung, viele Varianten stehen unter dem bequemen Apache-2.0. Für produktive Fälle holt ein mittelgrosses Qwen häufig mehr heraus als ein grösseres Modell einer anderen Familie. Mistrals dichte Modelle sind kompakt und effizient, spannender aber ist das MoE-Prinzip (Mixture of Experts) der Mixtral-Linie: Das Modell hat viele totale Parameter, aktiviert pro Token aber nur einen Bruchteil davon. Du brauchst also den Speicher für alle Parameter, zahlst bei der Rechenzeit jedoch nur für die aktiven, und bekommst praktisch Qualität nahe an einem grossen dichten Modell bei deutlich höherem Durchsatz, wenn der Speicher reicht. Und Googles Gemma-Familie zielt auf kleine, effiziente Modelle, die auch auf bescheidener oder edge-naher Hardware laufen, ein günstiger Default für einfache, klar umrissene Aufgaben.

Quer zu allen Familien laufen drei Unterscheidungen, die wichtiger sind als der Name. Eine Base-Variante ist roh und sagt nur das nächste Token voraus; für Anwendungen willst du fast immer die Instruct- oder Chat-Variante, die auf Anweisungsbefolgung trainiert ist. Reasoning-Varianten „denken“ vor der Antwort in Zwischenschritten und sind stark bei Logik und Mathematik, dafür langsamer und teurer pro Antwort. Und prüf das Kontextfenster, bevor du dich festlegst: Ein Modell mit 8K Kontext sprengt deine RAG-Pipeline, sobald deine Dokumente länger sind.

Vom Modell zur Aufgabe

Definiere die Aufgabe eng, dann ergibt sich die Grösse fast von selbst. Für Extraktion und Klassifikation, also strukturierte Daten aus Text ziehen, Tickets einsortieren, Sentiment bestimmen, reicht ein kleines Modell mit 7B oder 8B, gern quantisiert, zuverlässig aus; ein grosses Modell ist hier teure Verschwendung ohne messbaren Mehrwert. Bei RAG und Q&A über deine Wissensbasis zählen zwei Dinge: ein ausreichend langes Kontextfenster, damit die abgerufenen Passagen hineinpassen, und gutes Instruction-Following, damit das Modell bei der Quelle bleibt statt zu fabulieren. Ein gut gewähltes mittelgrosses Instruct-Modell genügt meist, und die Qualität deiner Retrieval-Pipeline entscheidet oft mehr als die letzten Parameter-Milliarden. Für Codegenerierung schlagen code-spezialisierte Modelle generische gleicher Grösse deutlich; hier lohnt ein mittleres bis grosses, auf Code trainiertes Modell mit langem Kontext, damit es ganze Dateien überblickt. Für flüssigen Dialog reicht ein solides Instruct-Modell mittlerer Grösse, und nur für echtes mehrstufiges Reasoning, also komplexe Logik, Mathematik, verschachtelte Planung, lohnt der Sprung zu grösseren oder dedizierten Reasoning-Modellen. Aber wirklich nur dann, denn für eine simple Klassifikation ist ein Reasoning-Modell langsam und teuer ohne Gegenwert.

Lizenz prüfen, bevor du baust

„Offen“ heisst nicht automatisch „frei für jeden Zweck“, und das ist kein Detail für die Rechtsabteilung am Schluss, sondern eine Vorab-Entscheidung. Grob gibt es drei Lager. Apache-2.0 und ähnlich permissive Lizenzen sind der bequeme Fall: kommerziell nutzbar, kaum Auflagen, viele Qwen- und Mistral-Modelle liegen hier. Die Llama Community License ist grosszügig, aber bedingt; sie knüpft Auflagen an sehr grosse Deployments, etwa eine Nutzerschwelle, ab der du eine gesonderte Erlaubnis brauchst, dazu ein paar Namens- und Nutzungsklauseln. Für die meisten ist das irrelevant, für ein Produkt mit Millionen Nutzern nicht. Und nicht-kommerzielle Lizenzen, etwa research-only, verbieten den produktiven Einsatz schlicht; solche Modelle sind super zum Prototyping und gehören trotzdem nicht in dein Produkt. Prüf das, bevor du Architektur und Prompts um ein Modell herum baust, denn ein Lizenzwechsel im Nachhinein ist teuer.

Eine pragmatische Auswahlstrategie

Aus alldem folgt kein Orakel, sondern eine Iteration. Statt vorab das vermeintlich beste Modell zu erraten, taste dich in vier Schritten heran:

Klein starten. Nimm das kleinste Modell, das die Aufgabe plausibel lösen könnte.
An eigenen Daten messen. Bau dir ein kleines Eval-Set aus echten Fällen mit erwarteten Ergebnissen und miss daran, nicht an fremden Benchmarks. Dein Use-Case ist nicht das Leaderboard.
Nur bei Bedarf hoch. Steig erst dann eine Stufe höher, wenn das Eval-Set einen konkreten Mangel zeigt.
Quantisierung vor GPU-Upgrade. Bevor du in mehr Speicher investierst, prüf, ob ein quantisiertes grösseres Modell auf der vorhandenen Hardware reicht.

Die Modellwahl ist damit der Anfang, nicht das Ziel. Danach kommen Engine, Quantisierungsformat, Hardware und der laufende Betrieb, und die Frage, ob das Ganze die Schweiz verlässt. Wenn du ein passendes Modell auf souveräner Infrastruktur betreiben willst, ohne den Stack selbst zu pflegen, ist Managed Inference der direkte Weg. Und wenn du unsicher bist, welches Modell für deinen Fall reicht: Wir testen zwei, drei Kandidaten an deinen echten Daten und sagen dir ungeschönt, welcher die Aufgabe löst, oft ist es ein kleinerer, als du denkst.