# Welches offene Modell für welche Aufgabe? Llama, Qwen, Mistral & Co.

Nicht das grösste Modell gewinnt, sondern das passende. Wie du offene Modelle nach Aufgabe, Speicherbedarf und Lizenz auswählst, statt Benchmarks hinterherzulaufen.

## Warum die Bestenliste die falsche Frage beantwortet

Stell dir vor, jemand schreibt dir ins Team-Chat: „Lass uns das neue Top-Modell vom Leaderboard nehmen, das schlägt alles.“ Drei Wochen später steht die Rechnung für eine **GPU, die viermal so gross ist wie nötig**, der Durchsatz ist mässig, weil das Modell kaum in den Speicher passt, und die Rechtsabteilung meldet, dass die **Lizenz** den kommerziellen Einsatz in eurem Fall gar nicht deckt. Das ist kein erfundenes Schreckensbild, sondern der Normalfall, wenn die Modellwahl bei der Frage „welches ist das beste“ beginnt. Die bessere Frage lautet **„welches passt“**, und sie entscheidet sich entlang von drei Achsen: **Speicher, Aufgabe und Lizenz**. Der Rest ist Geschmack.

## Speicher zuerst: die Mathematik, die alles vorentscheidet

Bevor du über Qualität auch nur nachdenkst, klär, was überhaupt in deinen Speicher passt. Das ist keine Geschmacksfrage, sondern **Arithmetik**, und sie schneidet die Kandidatenliste in Sekunden zusammen. Der Speicherbedarf der Gewichte ist ungefähr **Parameter mal Bytes pro Parameter**. In **FP16** (16 Bit) sind das 2 Bytes pro Parameter, in **8-Bit** 1 Byte, in **4-Bit** rund 0,5 Bytes. Ein **8B-Modell** braucht also grob 16 GB in FP16, 8 GB in 8-Bit, 4 GB in 4-Bit. Dazu kommt Overhead für den **KV-Cache**, der mit Kontextlänge und der Zahl gleichzeitiger Anfragen wächst, sowie für Aktivierungen; als grobe Daumenregel rechne mit dem **rund 1,2-fachen** des reinen Gewichtsbedarfs, bei langen Kontexten und vielen parallelen Nutzern auch deutlich mehr.

Wie sehr das die Wahl bestimmt, zeigt der Sprung nach oben. Ein **70B-Modell in FP16** belegt rund **140 GB** allein an Gewichten. Das passt auf keine einzelne gängige Karte und auch nicht ungequetscht auf eine [DGX Spark](/de/dgx-spark) mit **128 GB Unified Memory**. In **4-Bit** schrumpft dasselbe Modell auf etwa **35 bis 40 GB**, und genau hier wird es interessant: 35 GB plus KV-Cache laufen komfortabel auf 128 GB Unified Memory, mit reichlich Luft für lange Kontexte und mehrere Anfragen. Auf einer **24-GB-Karte** ist ein 4-Bit-70B dagegen ausser Reichweite; dort landest du realistisch bei 7B/8B-Modellen oder kleinen Quantisierungen mittlerer Grössen. Eine **48-GB-Karte** trägt ein 4-Bit-70B knapp, ohne viel Spielraum, eine **80-GB-Karte** komfortabel. Der Engpass ist eben fast immer der **Speicher, nicht die Rechenleistung**, und wenn CPU und GPU sich wie bei der DGX Spark 128 GB teilen, passt ein grosses Modell **am Stück** hinein, ohne ständig über PCIe nachzuladen. Das ist der Grund, warum eine speicherstarke Maschine grosse, quantisierte Modelle ruhig betreibt, an denen eine rechenstärkere, aber speicherärmere Karte scheitert. Die ganze Abwägung zwischen Speicher, Durchsatz und Kosten haben wir im Vergleich [DGX Spark gegen Cloud-GPU](/de/wissen/dgx-spark-vs-cloud-gpu) aufgemacht.

## Quantisierung: kleiner machen, ohne dumm zu machen

Quantisierung speichert die Gewichte mit **weniger Bits** und ist damit der **stärkste Hebel** überhaupt, um ein gutes Modell auf bezahlbare Hardware zu bringen, meist deutlich klüger, als reflexhaft eine grössere GPU zu kaufen. Zur Orientierung: **8-Bit ist praktisch verlustfrei**, den Unterschied zu FP16 misst du eher im Benchmark als im Alltag. **4-Bit** ist für die allermeisten produktiven Fälle gut nutzbar, mit minimalen Einbussen. Darunter, bei **3-Bit oder 2-Bit**, wird es heikel, da bröckelt die Qualität sicht- und messbar. Die wichtigste Konsequenz daraus: Ein in 4-Bit quantisiertes **grosses** Modell schlägt fast immer ein kleineres Modell in voller Präzision bei gleichem Speicherbudget. **Mehr Parameter, grob komprimiert, sind oft besser** als wenige Parameter, fein aufgelöst.

Welches Format du dabei wählst, hängt an deiner Inference-Engine, denn nicht jede Engine spricht jedes Format. **GPTQ** und **AWQ** sind Post-Training-Quantisierungen, die auf GPU-Inferenz optimiert sind; AWQ schützt gezielt die wichtigsten Gewichte und hält die Qualität bei 4-Bit gut. **GGUF** mit den sogenannten k-quants, etwa Q4_K_M, stammt aus dem llama.cpp-Umfeld, läuft auch auf **CPU und Apple Silicon** und ist der Standard für lokale Setups. **bitsandbytes** schliesslich bietet On-the-fly-Quantisierung direkt beim Laden über die gängigen Bibliotheken, ist dafür aber oft etwas langsamer als die vorquantisierten Formate.

## Die Modellfamilien und ihr echtes Profil

Statt Versionsnummern, die in Monaten veralten, lohnt der Blick auf die Familien und ihren Charakter. Metas **Llama**-Familie ist der breite Default: das **grösste Ökosystem**, die beste Tool-Unterstützung, Varianten von klein bis sehr gross. Wenn du nicht weisst, wo du anfängst, ist eine Llama-Variante selten falsch; der Haken sitzt in der Lizenz, dazu gleich mehr. Die **Qwen**-Familie glänzt bei **mehrsprachigen Aufgaben und beim Coding** und bietet oft ein hervorragendes Verhältnis von Grösse zu Leistung, viele Varianten stehen unter dem bequemen **Apache-2.0**. Für produktive Fälle holt ein mittelgrosses Qwen häufig mehr heraus als ein grösseres Modell einer anderen Familie. **Mistrals** dichte Modelle sind kompakt und effizient, spannender aber ist das **MoE-Prinzip** (Mixture of Experts) der Mixtral-Linie: Das Modell hat viele totale Parameter, aktiviert pro Token aber nur einen Bruchteil davon. Du brauchst also den **Speicher für alle Parameter**, zahlst bei der Rechenzeit jedoch **nur für die aktiven**, und bekommst praktisch Qualität nahe an einem grossen dichten Modell bei deutlich höherem Durchsatz, wenn der Speicher reicht. Und Googles **Gemma**-Familie zielt auf **kleine, effiziente Modelle**, die auch auf bescheidener oder edge-naher Hardware laufen, ein günstiger Default für einfache, klar umrissene Aufgaben.

Quer zu allen Familien laufen drei Unterscheidungen, die wichtiger sind als der Name. Eine **Base**-Variante ist roh und sagt nur das nächste Token voraus; für Anwendungen willst du fast immer die **Instruct- oder Chat-Variante**, die auf Anweisungsbefolgung trainiert ist. **Reasoning**-Varianten „denken“ vor der Antwort in Zwischenschritten und sind stark bei Logik und Mathematik, dafür langsamer und teurer pro Antwort. Und prüf das **Kontextfenster**, bevor du dich festlegst: Ein Modell mit 8K Kontext sprengt deine RAG-Pipeline, sobald deine Dokumente länger sind.

## Vom Modell zur Aufgabe

Definiere die Aufgabe eng, dann ergibt sich die Grösse fast von selbst. Für **Extraktion und Klassifikation**, also strukturierte Daten aus Text ziehen, Tickets einsortieren, Sentiment bestimmen, reicht ein **kleines Modell mit 7B oder 8B**, gern quantisiert, zuverlässig aus; ein grosses Modell ist hier teure Verschwendung ohne messbaren Mehrwert. Bei **RAG und Q&A** über deine Wissensbasis zählen zwei Dinge: ein ausreichend **langes Kontextfenster**, damit die abgerufenen Passagen hineinpassen, und gutes **Instruction-Following**, damit das Modell bei der Quelle bleibt statt zu fabulieren. Ein gut gewähltes mittelgrosses Instruct-Modell genügt meist, und die Qualität deiner Retrieval-Pipeline entscheidet oft mehr als die letzten Parameter-Milliarden. Für **Codegenerierung** schlagen **code-spezialisierte Modelle** generische gleicher Grösse deutlich; hier lohnt ein mittleres bis grosses, auf Code trainiertes Modell mit langem Kontext, damit es ganze Dateien überblickt. Für flüssigen **Dialog** reicht ein solides Instruct-Modell mittlerer Grösse, und nur für echtes mehrstufiges **Reasoning**, also komplexe Logik, Mathematik, verschachtelte Planung, lohnt der Sprung zu grösseren oder dedizierten Reasoning-Modellen. Aber wirklich nur dann, denn für eine simple Klassifikation ist ein Reasoning-Modell langsam und teuer ohne Gegenwert.

## Lizenz prüfen, bevor du baust

**„Offen“ heisst nicht automatisch „frei für jeden Zweck“**, und das ist kein Detail für die Rechtsabteilung am Schluss, sondern eine **Vorab-Entscheidung**. Grob gibt es drei Lager. **Apache-2.0** und ähnlich permissive Lizenzen sind der bequeme Fall: kommerziell nutzbar, kaum Auflagen, viele Qwen- und Mistral-Modelle liegen hier. Die **Llama Community License** ist grosszügig, aber bedingt; sie knüpft Auflagen an **sehr grosse Deployments**, etwa eine Nutzerschwelle, ab der du eine gesonderte Erlaubnis brauchst, dazu ein paar Namens- und Nutzungsklauseln. Für die meisten ist das irrelevant, für ein Produkt mit Millionen Nutzern nicht. Und **nicht-kommerzielle Lizenzen**, etwa research-only, verbieten den produktiven Einsatz schlicht; solche Modelle sind super zum Prototyping und gehören trotzdem nicht in dein Produkt. Prüf das, **bevor** du Architektur und Prompts um ein Modell herum baust, denn ein Lizenzwechsel im Nachhinein ist teuer.

## Eine pragmatische Auswahlstrategie

Aus alldem folgt kein Orakel, sondern eine **Iteration**. Statt vorab das vermeintlich beste Modell zu erraten, taste dich in vier Schritten heran:

- **Klein starten.** Nimm das kleinste Modell, das die Aufgabe plausibel lösen könnte.
- **An eigenen Daten messen.** Bau dir ein kleines Eval-Set aus echten Fällen mit erwarteten Ergebnissen und miss daran, nicht an fremden Benchmarks. Dein Use-Case ist nicht das Leaderboard.
- **Nur bei Bedarf hoch.** Steig erst dann eine Stufe höher, wenn das Eval-Set einen konkreten Mangel zeigt.
- **Quantisierung vor GPU-Upgrade.** Bevor du in mehr Speicher investierst, prüf, ob ein quantisiertes grösseres Modell auf der vorhandenen Hardware reicht.

Die Modellwahl ist damit der **Anfang, nicht das Ziel**. Danach kommen Engine, Quantisierungsformat, Hardware und der laufende Betrieb, und die Frage, ob das Ganze die Schweiz verlässt. Wenn du ein passendes Modell auf souveräner Infrastruktur betreiben willst, ohne den Stack selbst zu pflegen, ist [Managed Inference](/de/managed-inference) der direkte Weg. Und wenn du unsicher bist, welches Modell für deinen Fall reicht: **Wir testen zwei, drei Kandidaten an deinen echten Daten** und sagen dir ehrlich, welcher die Aufgabe löst, oft ist es ein kleinerer, als du denkst.