Dieser Artikel stammt aus einem öffentlichen Gespräch zwischen Yann LeCun, Chief AI Scientist bei Meta und Turing Award-Gewinner, und Bill Dally, Chief Scientist bei NVIDIA. LeCun glaubt, dass sich der groß angelegte Sprachmodell-(LLM)-Hype seinem Ende nähert und dass die Zukunft der KI-Durchbrüche im Verständnis der physischen Welt, der Inferenzplanung und der Open-Source-Modelle liegen wird. (Synopsis: OpenAI veröffentlicht die stärksten Inferenzmodelle o3 und o4-mini: kann über Bilder nachdenken, automatisch Tools auswählen und Durchbrüche in der Mathematik und Codierungsleistung erzielen) (Hintergrundergänzung: OpenAI erstellt heimlich eine eigene Community-Plattform und verweist auf Musks X) Heute, wo die KI-Welle über die Welt schwappt, richtet sich die Aufmerksamkeit aller immer noch auf die (LLM) großer Sprachmodelle Zu diesem Zeitpunkt hat Yann LeCun, bekannt als Vater der Convolutional Neural Networks und jetzt leitender KI-Wissenschaftler bei Meta, kürzlich eine überraschende Aussage gemacht, dass sein Interesse an LLMs nachgelassen hat. In einem ausführlichen Gespräch mit NVIDIA Chief Scientist Bill Dally im vergangenen Monat erläuterte LeCun seine einzigartigen Einblicke in die zukünftige Richtung der KI und betonte, dass das Verständnis der physischen Welt, ein dauerhaftes Gedächtnis, Argumentations- und Planungsfähigkeiten sowie die Bedeutung des Open-Source-Ökosystems der Schlüssel sind, um die nächste Welle der KI-Revolution anzuführen. Verabschieden Sie sich vom LLM-Mythos: Warum muss KI die Welt besser verstehen? LeCun gibt zu, dass LLM trotz der aufregenden Entwicklungen in der KI im vergangenen Jahr seiner Meinung nach weitgehend zu einer Technik für Produktteams der Branche geworden ist, um sich am Rande zu verbessern, z. B. durch die Verfolgung größerer Datensätze, mehr Rechenleistung und sogar die Generierung synthetischer Daten zum Trainieren von Modellen. Er glaubt, dass dies nicht die zukunftsweisendsten Forschungsrichtungen sind. Stattdessen nimmt er vier grundlegendere Herausforderungen ins Visier: Die physische Welt zu verstehen: Maschinen dazu zu bringen, die wirklichen Gesetze der Umwelt, in der wir leben, zu begreifen. Haben Sie ein bleibendes Gedächtnis: Ermöglichen Sie es der KI, Erfahrungen wie ein Mensch zu sammeln und anzuwenden. Fähigkeit zum logischen Denken: LeCun ist der Meinung, dass die derzeitige Art des Argumentierens mit LLM zu einfach ist und einen grundlegenderen Ansatz erfordert. Implementieren Sie Planungsfunktionen: Ermöglichen Sie es der KI, die Folgen von Handlungen vorherzusagen und Pläne zu erstellen. LeCun betont, dass menschliche Babys innerhalb weniger Monate nach der Geburt grundlegende Modelle der physischen Welt lernen, wie z. B. den Unterschied zwischen dem Herunterkippen und dem Schieben von Wasserflaschen. Dieses intuitive Verständnis, wie die Welt funktioniert, ist grundlegend für unsere Interaktionen mit der realen Welt, weitaus schwieriger als der Umgang mit Sprache. Er ist der Meinung, dass die erforderliche Architektur völlig anders sein wird als die derzeitige Mainstream-LLM, damit KI die reale Welt wirklich verstehen und darauf reagieren kann. Er erklärte weiter, dass der Kern von LLM darin besteht, das nächste “Symbol” vorherzusagen. Während Symbole alles sein können, z. B. in einem autonomen Fahrmodell, bei dem die von Sensoren eingegebenen Symbole schließlich die Symbole erzeugen, die das Auto antreiben, was bis zu einem gewissen Grad eine Überlegung über die physische Welt ist (z. B. die Beurteilung, wo es sicher ist, zu fahren), hat dieser diskrete symbolbasierte Ansatz seine Grenzen. LeCun weist darauf hin, dass die typische Anzahl von LLM-Symbolen etwa 100.000 beträgt, und das Modell erzeugt eine Wahrscheinlichkeitsverteilung, die alle möglichen Symbole abdeckt. Dieser Ansatz lässt sich jedoch nur schwer auf hochdimensionale, kontinuierliche Daten aus der realen Welt anwenden, wie z. B. Filme. “Alle Versuche, das System dazu zu bringen, die Welt zu verstehen oder die Welt zu modellieren, indem es Details auf Pixelebene im Film vorhersagt, sind im Grunde gescheitert.” LeCun erwähnt, dass die Erfahrung der letzten 20 Jahre gezeigt hat, dass selbst Techniken zum Erlernen der Bilddarstellung, wie z. B. Autoencoder, durch die Rekonstruktion beschädigter oder transformierter Bilder, nicht so effektiv sind wie die von ihm befürwortete “Federated Embedding”-Architektur, (Joint Embedding). Letzterer versucht nicht, auf Pixelebene zu rekonstruieren, sondern lernt die abstrakte Repräsentation (representation) Bild oder Film und trifft Vorhersagen in diesem abstrakten Raum. Wenn Sie beispielsweise ein Video von einem Raum aufnehmen, dann anhalten und das System bitten, das nächste Bild vorherzusagen, kann das System möglicherweise vorhersagen, wer im Raum sitzt, aber es kann nicht genau vorhersagen, wie alle aussehen werden, da die Details unvorhersehbar sind. Wenn Sie das Modell zwingen, diese Details auf Pixelebene vorherzusagen, verschwenden Sie viele Ressourcen für Aufgaben, die nicht erreicht werden können. “Versuche des selbstüberwachten Lernens durch prädiktives Video werden nicht funktionieren, sondern nur auf der Ebene der Repräsentation.” Das bedeutet, dass die Architektur eines Modells, das die Welt wirklich versteht, möglicherweise nicht generativ ist. Das Weltmodell und JAPA: Der Weg zum wahren Denken Wie würde also ein Modell aussehen, das die physische Welt versteht, ein dauerhaftes Gedächtnis hat und die Programmierung des logischen Denkens ohne LLM ermöglicht? LeCun glaubt, dass die Antwort im “Weltmodell” (World Models) liegt. Das Weltmodell, erklärt er, ist unser innerer Simulator dafür, wie die Welt funktioniert, der es uns ermöglicht, Ideen in unseren Köpfen zu manipulieren und die Konsequenzen unseres Handelns vorherzusagen. Dies ist der Kernmechanismus des menschlichen Planens und Denkens, und wir denken nicht im symbolischen Raum. Er entwickelte das Konzept der Embedding Predictive Architecture, das (Joint “Joint Embedding Predictive Architecture” genannt wird, JAPA). Bei dieser Architektur wird ein Stück Film oder Bild in den Encoder eingespeist, um eine Darstellung zu erhalten, dann nachfolgende Filme oder Bilder in einen anderen Encoder eingespeist und dann versucht, Vorhersagen im “Darstellungsraum” und nicht im ursprünglichen Eingaberaum (z. B. Pixel oder Symbole) zu treffen. Während eine “Fill-in-the-Blank”-Trainingsmethode verwendet werden kann, findet die Operation in einem abstrakten latenten Raum (latent space) statt. Die Schwierigkeit bei diesem Ansatz besteht darin, dass das System, wenn es nicht richtig entworfen wird, “abstürzen” kann, d. h. die Eingabe ignoriert und nur eine konstante und nicht informative Darstellung erzeugt. LeCun sagt, dass es erst vor fünf oder sechs Jahren eine Technologie gab, um dies wirksam zu verhindern. Er und seine Kollegen haben in den letzten Jahren mehrere Arbeiten zu den vorläufigen Ergebnissen des JAPA-Weltmodells veröffentlicht. Das Ziel von JAPA ist es, einen Prädiktor zu erstellen: Wenn das System ein Video betrachtet, bildet es ein Verständnis für den aktuellen Zustand der Welt; Dann müsse es in der Lage sein, vorherzusagen, “was der nächste Zustand der Welt sein wird, wenn ich eine imaginäre Handlung ausführe”. Mit einem solchen Prädiktor kann die KI eine Reihe von Aktionen planen, um ein bestimmtes Ziel zu erreichen. LeCun glaubt fest daran, dass dies der richtige Weg ist, um echte Argumentation und Planung zu erreichen, weit besser als einige der heutigen sogenannten “Ersatz-Argumentationssysteme”. Diese Systeme generieren in der Regel eine große Anzahl symbolischer Sequenzen und verwenden dann ein anderes neuronales Netz, um die beste Sequenz auszuwählen, ein Ansatz, den LeCun als “zufälliges Schreiben eines Programms und anschließendes Testen, welches funktioniert” beschreibt, was extrem ineffizient und unzuverlässig ist. LeCun bestreitet auch die Behauptungen einiger KI-Forscher, dass künstliche allgemeine Intelligenz (AGI) oder das, was er lieber als fortschrittliche maschinelle Intelligenz bezeichnet, (AMI, Advanced Machine Intelligence), vor der Tür steht. Er glaubt, dass die Vorstellung, dass Intelligenz auf menschlichem Niveau einfach durch die Skalierung von LLMs und die Generierung massiver Sequenzen von Symbolen erreicht werden kann, “Unsinn” (nonsense). Obwohl er davon ausgeht, dass er in den nächsten 3 bis 5 Jahren in der Lage sein wird, Systeme mit abstrakten Weltmodellen zu beherrschen und für die Inferenzplanung in kleinem Maßstab zu verwenden, und vielleicht in etwa einem Jahrzehnt das menschliche Niveau erreichen wird, betont er, dass KI-Forscher wiederholt angekündigt haben, dass eine Revolution bevorsteht, und die Ergebnisse haben sich als zu optimistisch erwiesen. “Jetzt ist diese Welle auch falsch.” Er glaubt, dass KI in einem bestimmten Bereich das Doktoratsniveau erreicht hat oder…