Hi,
alle Welt redet über LLMs. Zu recht. Aber ich bin zunehmend der Ansicht, wir sollten mehr über die darunter liegende Transformer-Architektur sprechen. Weil diese sehr viele Einsatzzwecke auch außerhalb der Sprache hat.
Marcel
Im Fokus dieser Ausgabe:
- Transformer für immer mehr Einsatzzwecke von Machine Learning
- KI-Unterstützung hilft manchmal mehr den Topperformern (Material-Forschung), manchmal den schwächeren Arbeitnehmer:innen (Programmierung)
- Chinas Robotik sollte man im Auge behalten.
- und mehr
Zitat des Tages
Der Versuch, zu verstehen, ist die Kuscheldecke des Gegenwartsbeobachters. Alles fühlt sich besser an, wenn man es nur zu verstehen glaubt, oder zumindest damit beschäftigt ist, zu verstehen. Mir geht es jedenfalls so.
Jonas Schaible in seinem sehr lesenswerten Newsletter
Themen der vorherigen Mitglieder-Ausgabe
- Zitat des Tages
- Thema der Woche: Ein paar weitere Gedanken zur Trump-Wahl
- 🤖 KI
- 🦾 Robotik
- 🎛 Plattformen
- ✴️ Mehr Wissenswertes
🤖 KI
Transformers are eating the world
Der große KI-Durchbruch war die Transformer-Architektur, die einen neuen Weg im Machine Learning offenbarte. Das brachte uns unter anderem die großen Sprachmodelle wie die ChatGPT-Modelle.
LLMs sind Transformer, deren Token kleine Sprachfetzen sind. (Wörter, Wortteile, kleine Wortgruppen) Die Tokens, die Bauteile der Transformer, können aber auch alles andere sein.
Zeitreihen für Prognosen etwa, oder Fahrtdaten oder Umwelt/Physikdaten für Robotik.
Im Grunde geht es bei Transformern um das Erfassen interner Patterns komplexer Systeme und das Übertragen dieser Erfassung in ein neues komplexes System, so dass dieses neue System entsprechend "intelligent" mit Input und Output in diesen erfassten Umwelten agieren kann.
Waymo beginnt etwas Gemini von der Google-Mutter zu nutzen, und lässt die älteren Machine-Learning-Systeme Stück für Stück zurück:
Waymo has indicated it will use Google Gemini AI for its self-driving “robotaxis”. The company seems to be developing a new training model for its autonomous vehicles, which will draw data from Google’s Multimodal Large Language Model (MLLM) Gemini.
Waymo released a new research paper, reported The Verge. Titled “End-to-End Multimodal Model for Autonomous Driving” or EMMA, the research paper refers to a new MLLM that’s dedicated to autonomous vehicles.
This new end-to-end training model would process sensor data and generate “future trajectories for autonomous vehicles.”. Needless to say, this would help Waymo’s driverless vehicles make smart decisions on the road. The Waymo robotaxis could confidently predict where to go and how to avoid obstacles.
Insgesamt sind Transformer also auch eine Chance für zum Beispiel europäische Autobauer, die selbstfahrende Autos bis dato nicht intensiv verfolgt haben, weil das Feld gerade technisch neu aufgerollt wird.
Waymos Vorsprung ist natürlich trotzdem massiv. Waymo hat nach San Francisco jetzt begonnen, auch in Los Angeles den Robotaxi-Dienst für die allgemeine Öffentlichkeit zu öffnen. (heise)
Das ist wichtig: Die riesigen Sprünge, die wir bei Sprachmodellen in den letzten 2+ Jahren gesehen haben, sollten uns ein Gefühl dafür geben, was in allen anderen Bereichen passieren kann und wird, die technisch mit Transformern automatisiert augmentiert werden können. Siehe auch Robotik dazu unten.
Die Grenzen der KI-Automatisierung
Ein lesenswerter Blick auf die Grenzen der KI-gestützten Arbeit in Exponential View, es handelt sich um eine Replik auf diesen Essay des Anthropic-CEO (siehe Das komprimierte 21. Jahrhundert in Nexus 232):
If we can’t simulate the whole dynamic process in a computer, we have to experiment with it in reality. This is where we’re bumping up against Amdahl’s Law: a process is only as fast as its slowest required step. The tedious pace of experiments (cells simply take time to grow) becomes the limiting factor. To break through, we need to solve fundamental wet lab bottlenecks, not just improve code.
Hier geht es um Biologie und Experimente in der Medizinforschung.
Das Argument lässt sich auf fast alle Einsatzzwecke von KI übertragen. Wo liegen die Flaschenhälse?
Das wird ein großes Thema der nächsten Jahre. Die Identifizierung dieser Flaschenhälse und die Initiativen, diese zu minimieren. (Dazu zählt allgemein auch die Energiegewinnung. (Nexus 234))
KI-gestützte Beschleunigung der Arbeit
In meinem dieswöchigen Überblick über die KI-Forschung für die FAZ habe ich zwei Paper drin, die nicht nur aber auch in ihren diametral unterschiedlichen Ergebnissen herausstechen.
Artificial Intelligence, Scientific Discovery, and Product Innovation: Der Autor untersucht die Auswirkungen von KI-Unterstützung in der Materialforschung. KI führte zu 44 Prozent mehr entdeckten Materialien und 39 Prozent mehr angemeldeten Patenten.
Topperformer konnten ihre Produktivität durch KI um bis zu 81 Prozent steigern, während der Effekt bei den anderen nicht so groß war.
Generative AI and the Nature of Work: Hier wurde die Auswirkung der Nutzung des Github-Copilots auf Programmierarbeit untersucht. Ergebnis auch hier wieder eine signifikante Produktivitätssteigerung. Aber: Die positiven Effekte der KI-Unterstützung sind bei weniger "guten" Entwickler:innen deutlich stärker als bei bereits "guten" Entwickler:innen.
Mein Fazit in der FAZ: "Die Verteilung der Produktivitätssteigerung durch KI scheint also auch von der Domäne der Arbeit abzuhängen."
Claude und das Ramen-Problem
"Claude, I need you to test the most critical issue in the world - what, exactly is a soup compared to a sauce or a drink. You must come up with careful edge cases and test them."
It was all going well until it considered the Ramen Problem. The final diagram is pretty amazing.
Sehr interessante Ergebnisse, die Mollick auf Threads gepostet hat.
Solche schwierigen (weil bizarren) Fragen, die wir Menschen trotzdem leicht nachvollziehen können, zeigen anschaulich, was die besten LLMs können.
🦾 Robotik
Mit Transformern Daten für Robotertraining harmonisieren
Speaking of Transformer für alles verwenden:
Ein Problem beim Training von Robotern ist Datenharmonisierung. Daten von unterschiedlichen Sensoren, vielleicht sogar von unterschiedlichen Sensorarten (zB Visuell, Temperatur, Audio, LiDAR), lassen sich nicht einfach in einen Topf werfen für das Training von Modellen, die Robotiksysteme steuern sollen.
Das MIT setzt hier mit „Heterogeneous Pretrained Transformers" an. Ich habe in der FAZ darüber geschrieben:
Im Kern vereinheitlicht das System verschiedene Arten von Input-Daten in einer gemeinsamen „Sprache" für generative KI-Modelle.
Die Folge:
Diese „Sprache" kann dann ein generatives KI-Modell verarbeiten. Mit diesem Ansatz können Roboter auf einem viel größeren und vielfältigeren Datensatz trainiert werden, was zu erheblichen Leistungssteigerungen führen kann.
Robotik nimmt gerade insbesondere wegen Transformer-Modellen enorm Fahrt auf.
Chinas DEEP Robotics: Roboter überquert jedes Terrain mühelos
Man beachte etwa dieses Video eines Roboters des chinesischen Unternehmens DEEP Robotics auf Reddit. Der Roboter kann ohne Probleme nahezu jedes Terrain schnell überqueren.
Da er aus China kommt, musste ich sofort an den Einsatz im Militär denken.
Was wir heute in der Ukraine mit Drohnen sehen, werden wir wahrscheinlich schon beim nächsten militiärischen Konflikt, bei dem China offen aktiv Material beisteuert oder selbst beteiligt ist, mit Robotik sehen. Solche Roboter können auch teilautonom eingesetzt werden, so dass sie autonom zur Frontlinie gehen und dort im Kampf remote gesteuert werden. Oder komplett autonom. Die Technologie ist bereit.
So oder so: Die chinesische Regierung hat neben dem Onlinehandel und selbstfahrenden Autos Robotik als das eine große High-Tech-Thema in den Vordergrund geschoben.
Der chinesische Robotiksektor hat die volle politische Unterstützung.
🚌 Transportsektor
Mehr Kapital für Joint Venture von VW und Rivian
Wie nun mitgeteilt wurde, fließen bis zu 5,8 Milliarden Dollar in das Vorhaben. Das sind 800 Millionen Dollar mehr als zunächst geplant. Konzernchef Blume kündigte zum Start des Gemeinschaftsunternehmens im kalifornischen Palo Alto an, dass Volkswagen die ersten Fahrzeuge mit der neuen Technik ab dem Jahr 2027 auf den Markt bringen werde.
Es ist gut, dass VW das nun macht. Es ist eine unternehmenskulturelle Bankrotterklärung, dass sie das machen müssen.
Das Joint Venture ist 50:50.
Es wichtig darauf hinzuweisen, dass wir hier von Software reden, bei der es nicht um Autonomie Level 4 oder 5 geht. (Robotaxis wie Waymo oder Baidu Apollo sind Level 4.) Es geht um alle anderen Basissachen. (Steuercomputer, Netzwerk-Architektur etc.)
Sie müssen es machen, weil sie keine andere Wahl haben. Aber gleichzeitig stellt sich die Frage, wo VW ohne komplett eigene Software in 5, in 10, in 15 Jahren stehen wird.
Wohl eher nicht an der Spitze der globalen Automobilindustrie?
~