Base44 trainiert eigenes Modell im KI-Wettbewerb um Verteidigungsfähigkeit
Stellen Sie sich ein italienisches Restaurant vor, das jahrelang Pasta im Großhandel einkauft – bis der Besitzer eines Morgens mit einer Getreidemühle im Kofferraum auftaucht. Genau das hat Base44 gerade mit seiner Lieferkette gemacht. Das Tel Aviver Vibe-Coding-Unternehmen hat aufgehört, Frontier-Intelligenz tokenweise zu mieten, und mahlt jetzt sein eigenes Mehl.
Das Modell heißt Base1, und die Wette dahinter ist einfach: Wer die Mühle besitzt, kontrolliert die Marge. Ob diese Wette aufgeht, ist die interessantere Frage für alle, die gerade auf OpenAI, Anthropic oder Google aufbauen.
Was passiert ist
Base44, das Wix vor etwa einem Jahr für 80 Millionen Dollar übernommen hat – damals kaum sechs Monate alt und mit einem Team von acht Personen –, hat damit begonnen, sein eigenes Large Language Model auszurollen. Laut TechCrunch trägt das Modell den Namen Base1 und wurde auf einem Datensatz trainiert, der aus Dutzenden von Millionen echter Nutzerinteraktionen auf der Plattform generiert wurde.
Gründer Maor Shlomo positioniert dies als vertikale Integrationsstrategie. Gegenüber Journalisten erklärte er, dass „das Training und der Besitz des Modells als Teil unseres gesamten Stacks uns erheblich mehr Optimierungsmöglichkeiten bei Latenz, Kosten und Effizienz bietet." Das Unternehmen bezeichnet sich nun als die „einzige vertikal integrierte Vibe-Coding-Anwendung."
Der finanzielle Hintergrund ist dabei entscheidend. Base44 hat vor einigen Monaten die Marke von 100 Millionen Dollar ARR überschritten, und die Mitarbeiterzahl ist seit der Wix-Übernahme gestiegen. Dieses Wachstum steht in einem merkwürdigen Kontrast zur Muttergesellschaft, die kürzlich angekündigt hat, 20 % ihrer Belegschaft zu entlassen. Base44 ist das Asset, das funktioniert – und Wix braucht es, um noch härter zu arbeiten.
Der Wettbewerber, auf den alle zeigen, ist Lovable, das schwedische Startup, das im vergangenen Sommer in seiner Series-A-Runde Unicorn-Status erreichte und diesen Monat die Marke von 500 Millionen Dollar ARR überschritt – weiterhin auf externe LLMs setzend. Lovable ist größer. Base44 geht tiefer. Das sind zwei grundlegend unterschiedliche Strategien, und die nächsten zwölf Monate werden zeigen, welche besser altert.
Shlomo erwartet auch, dass andere nachziehen werden – zumindest die Akteure mit genug Skalierung und Dynamik, um aussagekräftige Trainingsdaten angesammelt zu haben. Base1 ist also weniger eine Flagge im Boden als vielmehr der Eröffnungszug in einer neuen Phase dieser Kategorie.
Technische Anatomie
Der Kern der Sache: Wenn man auf Claude Opus oder GPT-Klasse-Modellen aufbaut, ist jeder Nutzer-Prompt ein getakteter API-Aufruf. Margen werden durch Inferenzkosten aufgefressen, die man nicht kontrolliert, durch Latenz, die man nicht anpassen kann, und durch eine Roadmap, die vom jeweiligen Frontier-Lab diktiert wird, auf das man gesetzt hat. Jeder, der zusehen musste, wie seine Inferenzrechnung schneller stieg als sein MRR, kennt das Gefühl.
Der Besitz von Base1 verändert die Unit Economics an drei Stellen. Erstens: Inferenz wechselt von variablen Drittanbieterkosten zu kontrollierbarem internen Compute. Die Formulierung in Base44s eigenem Pressematerial war aufschlussreich: „Der Besitz des Modells gibt Base44 direkte Kontrolle über Compute- und Inferenzausgaben, was voraussichtlich langfristig zu einem strukturell stärkeren Margenprofil führen wird." Man beachte das „langfristig". Das ist kein Gewinn von Tag eins.
Zweitens sind die Trainingsdaten der Burggraben. Dutzende von Millionen echter Nutzerinteraktionen auf einer Vibe-Coding-Plattform sind genau die Art von engem, signalreichem Datensatz, den ein Spezialmodell ausnutzen kann und den ein allgemeines Modell nicht leicht replizieren kann. Frontier-Labs wie Anthropic, deren Claude-Tools selbst zu einem Vibe-Coding-Akteur geworden sind, haben Breite, aber nicht dieselbe Dichte an „Nutzer wollte X, erhielt Y, bearbeitete es zu Z"-Feedbackschleifen speziell für die App-Erstellung.
Drittens: Latenz und Routing. Sobald man das Modell kontrolliert, kann man die langweilige, aber wertvolle Arbeit leisten: für Geschwindigkeit quantisieren, für eigene Ausgabeformate feinabstimmen, einfache Prompts an Base1 und schwierige an Opus routen. Jonathan Userovici von Headline brachte es gut auf den Punkt: Enterprise-Kunden bauen jetzt „eine gesamte Infrastruktur" für Orchestrierung und Optimierung, damit „Kosten nicht in die Höhe schießen, während dieselbe oder ähnliche Leistung für den Großteil der Anwendungsfälle erhalten bleibt."
Die Stelle, an der alles zusammenbricht, sind Trainingskosten und Talente. Shlomo selbst nannte Base1 einen „riesigen Engineering-Aufwand" – was ehrlich ist. Ein Team, das vor einem Jahr noch acht Personen umfasste, betreibt nun angewandte ML-Forschung. Das ist das Detail, das in der Pressemitteilung nicht auftaucht.
Wer unter Druck gerät
Die am stärksten gefährdete Gruppe: angewandte KI-Startups, deren einzige Differenzierung ein cleveres Prompt-Template ist, das um das Modell jemand anderen gewickelt wurde. Wenn Base44 Recht hat, dass Skalierung plus Dynamik genug Daten für das Training eines Spezialmodells ergibt, haben alle unterhalb dieser Schwelle Probleme. Lovable mit dem fünffachen ARR hat die Daten. Die tausend kleineren Vibe-Coding-Klone nicht.
Frontier-Labs spüren ebenfalls den Druck, wenn auch von der anderen Seite. Cursor und xAI sitzen jetzt beide innerhalb von SpaceX. Claude Code ist von der API zum Produkt geworden. Die Labs bewegen sich im selben Moment den Stack hinunter in den Anwendungsbereich, in dem Anwendungsunternehmen den Stack hinaufsteigen in den Modellbereich. Sie werden in der Mitte aufeinandertreffen, und die Mitte wird voll sein.
Userovici verwies auf die Warntale: Das Legal-Tech-Startup Harvey soll Pläne zum Training eines eigenen Modells aufgegeben haben. Training ist brutal. Nicht jedes angewandte Unternehmen, das ankündigt, „sein eigenes Modell zu bauen", wird eines liefern, das GPT-Klasse-Ergebnisse für seinen Anwendungsfall übertrifft. Manche werden den Aufwand still in die Orchestrierung von Drittanbietermodellen zurückfalten und hoffen, dass es niemand bemerkt.
Wix ist der interessante Fall. Ein Unternehmen, das 20 % seiner Belegschaft entlässt, braucht von seiner übernommenen Wachstumsmaschine strukturell bessere Margen – nicht nur mehr Umsatz. Der Vorstand betrachtet Base1 mit ziemlicher Sicherheit als den Hebel, der den 80-Millionen-Dollar-Scheck rückwirkend rechtfertigt. Der Druck auf Shlimos Team, Base1 innerhalb einer Frist in Bruttomargenverbesserungen umzusetzen, wird enorm sein.
Enterprise-Käufer sind schließlich die stillen Gewinner. Sie sind die Minderheit der Vibe-Coding-Plattformnutzer, aber ein wachsender Umsatzanteil, und sie sind diejenigen, die die Kostensteuerungsinfrastruktur fordern, die jetzt in ihrem Namen aufgebaut wird. Sie erhalten günstigere Inferenz und besseres Routing, ohne es selbst aufbauen zu müssen.
Playbook für KI-Entwicklung
Für Platform Leads und CTOs, die dieses Spiel beobachten, einige praktische Schritte für das nächste Quartal.
Beginnen Sie sofort damit, Ihre Inferenzausgaben pro Nutzer-Kohorte zu instrumentieren. Sie können kein Build-versus-Buy-Argument für ein benutzerdefiniertes Modell machen, wenn Sie nicht genau wissen, wo sich Ihre Token-Ausgaben konzentrieren. Wenn 80 % Ihrer Inferenzkosten auf 20 % der Prompt-Muster entfallen, ist dieses 20 %-Segment dort, wo ein kleines Spezialmodell seinen Wert beweist.
Behandeln Sie Ihre Nutzerinteraktionsdaten als Bilanzaktiva, nicht als Logging-Artefakt. Der Grund, warum Base44 Base1 überhaupt in Betracht ziehen konnte, liegt darin, dass sie strukturierte Ergebnisse im großen Maßstab erfassten. Bringen Sie jetzt Ihre Datenverträge, Aufbewahrungsrichtlinien und Einwilligungsabläufe in Ordnung. Modelle, die auf genehmigten, signalreichen Daten trainiert wurden, werden Modelle übertreffen, die auf zusammengekratztem Datenmüll trainiert wurden – zumindest bei engen Aufgaben.
Verwechseln Sie „eigenes Modell trainieren" nicht mit „Frontier-Labs aufgeben." Userovicis Punkt zur Orchestrierung ist die richtige Einschätzung. Die gewinnende Architektur ist wahrscheinlich ein kleines Spezialmodell, das 70 % der Anfragen günstig bearbeitet, mit Aufrufen an Frontier-Modelle für die schwierigen 30 %. Bauen Sie zuerst den Router. Das benutzerdefinierte Modell kann später kommen – oder auch nie, je nachdem, was die Daten sagen.
Für Experimente mit offenen Gewichten bleibt das Hugging Face-Ökosystem der günstigste Ort, um Fine-Tuning-Ansätze zu prototypisieren, bevor man sich zu einem vollständigen Trainingslauf verpflichtet. Die meisten Teams sollten LoRA-Adapter auf offenen Modellen testen, lange bevor sie einen Aufwand im Base1-Maßstab in Betracht ziehen.
Wichtigste Erkenntnisse
- Base44 hat Base1 eingeführt, ein eigenes LLM, das auf Dutzenden von Millionen Plattforminteraktionen trainiert wurde, und positioniert sich als einzige vertikal integrierte Vibe-Coding-Anwendung.
- Der wirtschaftliche Fall beruht auf langfristiger Inferenzkostenkontrolle und Margenausweitung, nicht auf sofortigen Einsparungen; Wix braucht, dass dies angesichts seiner 20-prozentigen Stellenstreichungen funktioniert.
- Lovables 500 Millionen Dollar ARR mit externen LLMs beweist, dass die Mietmodell-Strategie weiterhin skaliert – Base44s vertikale Wette ist also eine konträre, keine festgelegte Antwort.
- Frontier-Labs, die den Stack hinuntergehen (Claude Code, xAI, Cursor), und angewandte Unternehmen, die aufsteigen, werden innerhalb von zwölf Monaten in der Mitte der Anwendungsschicht aufeinanderprallen.
- Die meisten Teams sollten Orchestrierung und Routing aufbauen, bevor sie Modelle bauen; Harveys aufgegebener Trainingsversuch ist die warnende Version dieser Geschichte.
Zurück zur Getreidemühle. Der italienische Restaurantbesitzer mit seiner eigenen Mühle macht entweder die beste Pasta der Stadt oder verkauft die Mühle zwei Jahre später still und leise und geht zurück zum Großhändler. Base44 hat die Mühle gekauft. Jetzt müssen sie beweisen, dass die Pasta tatsächlich besser ist – und dass die Kunden den Unterschied zu einem Preis schmecken können, den sie zu zahlen bereit sind. Die Vibe-Coding-Kategorie ist gerade deutlich interessanter geworden, sie zu beobachten.
Häufig gestellte Fragen
F: Was ist Base1 und warum hat Base44 es entwickelt?
Base1 ist Base44s eigenes Large Language Model, das auf Dutzenden von Millionen echter Nutzerinteraktionen auf seiner Vibe-Coding-Plattform trainiert wurde. Gründer Maor Shlomo sagt, der Besitz des Modells gebe dem Unternehmen mehr Kontrolle über Latenz, Kosten und Effizienz – mit dem Ziel, Frontier-Modelle bei App-Erstellungsaufgaben langfristig zu übertreffen.
F: Wie unterscheidet sich Base44 von Lovable?
Lovable hat diesen Monat die Marke von 500 Millionen Dollar ARR überschritten und setzt dabei weiterhin auf externe LLMs, während Base44 vor einigen Monaten 100 Millionen Dollar ARR erreicht hat und nun ein eigenes Modell trainiert. Sie repräsentieren zwei unterschiedliche Wetten: Lovable auf Skalierung durch gemietete Intelligenz, Base44 auf vertikale Integration und Margenkontrolle.
F: Sollten andere KI-Startups ihre eigenen Modelle trainieren?
Wahrscheinlich noch nicht. Jonathan Userovici von Headline nannte Harvey als Beispiel für ein Startup, das seine eigenen Trainingspläne aufgab, und den meisten Teams fehlt die Datenskalierung oder die technische Tiefe, um dies zu rechtfertigen. Der Aufbau von Orchestrierung zur Weiterleitung zwischen Frontier-Modellen ist in der Regel der erste Schritt mit dem höheren ROI.
DeepMind's Brain Drain: Shazeer und Jumper gehen binnen 48 Stunden
Zwei der bekanntesten Namen bei Google DeepMind gingen binnen 48 Stunden. Der Markt strich 5 % vom Google-Aktienkurs. Was dieser Exodus technisch wirklich bedeutet.
OpenAI und Broadcom tapen Jalapeño Inferenz-Chip in 9 Monaten
OpenAI und Broadcom stellten Jalapeño vor – einen LLM-Inferenz-ASIC, der in neun Monaten entwickelt wurde und ab Ende 2026 im Gigawatt-Maßstab mit Microsoft eingesetzt werden soll.
FIS verlagert Enterprise Risk Suite auf AWS mit CI/CD-Modell
FIS hat seine Enterprise Risk Suite auf AWS mit CI/CD-Upgrades und Burst Computing gebracht. Der eigentliche Effekt liegt im Wandel von Bankplattform-Budgets und Vendor-Strategie.




