Nexus 206: APIs für LLMs für APIs, Microsoft Build eingeordnet, Google-KI vs. YouTube-Creators

Hi,

die Geschichte um Scarlett Johansons Stimme, den gescheiterten Verhandlungen und der sehr ähnlich klingenden Stimme von GPT-4o sollte uns alle an das OpenAI-Board und November 2023 erinnern.. Ich hatte davor schon ein paar Mal geschrieben, dass ich die persönlichen Verflechtungen von Sam Altman für problematisch halte und, dass an den Vorwürfen des Boards etwas dran sein muss.(Er investiert persönlich auf allen Wertschöpfungsebenen in KI-Unternehmen (siehe Nexus 147 vom März 2023: "OpenAIs bizarre Verflechtungen" für Mitglieder)

Das hier klingt nun wie jemand, der unbedingt seinen Willen wollte und das durchgesetzt hat. Die komischen Geschichten rund um OpenAI werden nicht weniger werden.

Auch auf die Gefahr, dass ich mich wiederhole, aber die Instabilität von OpenAI unter Altman bleibt Thema.

Last not least, zu den interessantesten kleinen Details zum GPT-4o-Event letzte Woche zählte, dass Altman als einziger aus der Führungsriege nicht persönlich auftrat.

Marcel

Im Fokus dieser Ausgabe:

LLMs für APIs: GoEx ermöglicht LLMs, über 1600 APIs präzise aufzurufen und reduziert Halluzinationen. Zapier Central bietet eine experimentelle AI-Arbeitsumgebung für Bots, die über 6.000 Apps arbeiten. Microsofts neue Copilot-Extensions ermöglichen Entwicklern, in natürlicher Sprache mit verschiedenen Systemen zu interagieren.
Microsoft integriert KI umfassend in seine Produkte, während Apple hinterherhinkt.
Microsoft führt die Marke Copilot+ PCs ein, die Mindeststandards für KI-PCs erfüllen müssen.
Microsoft Recall für Copilot+ PCs zeichnet alle Aktivitäten auf Windows auf und wird ein Sicherheitsrisiko.
KI-Ausgaben: Unternehmen erhöhen ihre Ausgaben für KI-Tools, mit einem Anstieg von 293% bei KI-bezogenen Kartentransaktionen.
Google: Android-Nutzer können bald KI nutzen, um Antworten auf YouTube-Videos zu erhalten, was YouTube-Creators schaden könnte.
Netflix' Werbeplan hat 40 Millionen monatlich aktive Nutzer:innen und treibt das Wachstum voran.
Taiwan: TSMC und ASML können ihre Chipmaschinen aus der Ferne unbrauchbar machen, falls China Taiwan angreift.
und mehr

Zitat des Tages

Von "Ich weiß nichtmal wirklich was das Problem ist" zu "Problem gelöst" in einer Minute. Ganz ohne Halluzinationen. Oder das Klicken durch zehn Internet-Foren -- jedes mit seinem eigenen Cookie-Banner.

Gregor Schmalzried

Themen der vorherigen Mitglieder-Ausgabe

Nexus 205: Google – das Ende der ersten unsichtbaren Plattform:

Das Nexus-Briefing erscheint zwei Mal wöchentlich, einmal öffentlich Dienstags oder Mittwochs, einmal für Mitglieder immer Freitags.

Exchanges #349: Smarte Agenten, Interfaces und mehr

Exchanges #349:

Jochen Krisch und Marcel Weiß ziehen in den neuesten Exchanges eine kleine XI-Bilanz und sprechen über vielversprechende Innovationsfelder im Onlinehandel: smarte Agenten und Interfaces, Next Door und Nearby Services.

🤖 KI

LLM-System für etwas sichereren Einsatz von autonomen Agenten: GoEx

Im FAZ-Briefing stelle ich regelmäßig Forschungspapers zu KI vor.

In der letzten Sammlung etwa GoEx (GitHub):

GoEX klingt in den Worten der Autoren beeindruckend: Mit GoEX können LLMs über 1600 APIs präzise aufzurufen. Gleichzeitig sollen mit GoEX Halluzinationen reduziert werden.

Die Autoren diskutieren in diesem Rahmen auch die zunehmend wichtiger werdenden Fragen des API-Designs für eine Welt der LLMs. Dazu gehört etwa, die Verkettung von APIs zu antizipieren: Dienste sollten standardmäßig erwarten, dass ihre APIs miteinander verkettet werden, wenn sie von Agenten verwendet werden. Um ein solches Szenario zu unterstützen, muss es eine Möglichkeit geben zu kommunizieren, welche APIs auf welche Arten mit einem bestimmten Satz anderer APIs arbeiten können.

Paper: GoEX: Perspectives and Designs Towards a Runtime for Autonomous LLM Applications (ArXiv, Preprint)

APIs für LLMs bauen

APIs für LLMs zu bauen, wie im GoEx-Paper angesprochen, ist schon länger an den ersten Stellen ein Thema und wird eines der API-Themen der nächsten Jahre.

Das Potenzial hier: Eine viel breitere Nutzung der API, weil die notwendige Expertise für die Nutzung sinkt.

Erste Connectoren wie Zapier bauen ebenfalls an der Verbindung: Build AI bots with Zapier Central

Zapier Central is an experimental AI workspace where you can teach bots to work across 6,000+ apps.

Hier sieht man auch, was LLMs und generative KI allgemein für APIs bedeuten: Eine neuartige, weitere Zugangsart.

Für LLMs verständliche API-Dokumentation ist das absolute Minimum.

Oder anders gesagt: Andere Anbieter bauen leicht benutzbare Zugangsarten für deine API. Was machst du damit?

[convertkit form=6138897]

LLMs für APIs: Copilot-Extensions für GitHub

Die von Microsoft am Dienstag neu vorgestellten Copilot-Extensions gehen in die gleiche Richtung.
Techcrunch:

Today's launch partners cover a wide variety of skills. They include DataStax, Docker, LambdaTest, LaunchDarkly, McKinsey & Company, Microsoft Azure and Teams, MongoDB, Octopus Deploy, Pangea, Pinecone, Product Science, ReadMe, Sentry and Stripe. [...]

The idea here, of course, is to help developers stay in their flow and interact with these systems in natural language and without having to switch context. For some partners, that means accessing their documentation in Copilot, while for others, it includes taking actions. Users of the Octopus deployment tool, for example, will be able to use an extension to check on the state of their deployments, while Sentry users will be able to resolve issues with their deployment pipelines in natural language and Datastax users will be able to interact with their databases.

Die Integration besonders von Githubs Copilot wird in ein paar Jahren Ausmaße angenommen haben, die marktmachtseitig hochproblematisch werden können.

Weil sie bereits mit Github einen großen Vorsprung haben und niemand aktuell sonst Vergleichbares aufbaut; während Microsoft selbst maximal Gas gibt.

Microsoft: "KI überall" / Apple: "?"

Es wäre müßig, alle KI-bezogenen Neuerungen anzuführen, die Microsoft diese Woche auf seiner Build-Konferenz verkündet hat.

Big Picture ist allerdings Folgendes interessant: Microsoft baut KI überall ein. Es bringt an vielen Stellen kleine und große Veränderungen. Google muss da bei seinem Betriebssystem nachziehen. Aber sehr viel altbackener sieht Apple aus.

Was auch immer Apple auf der WWDC vorstellen wird, Apple wird dieses Jahr und in den nächsten Jahren hinterherhecheln.

Dabei hat KI besonders auf der OS-Ebene extrem viel Potenzial.

Aber: Google hat seine Gemini-Familie, Microsoft hat die OpenAI-Modelle und die Modelle, die sie aktuell selbst trainieren.

Apple hat das nicht.

Apple baut aktuell auch nichts Eigenes auf der Cloudseite. (Würde Apple viel Computingpower benötigen für das Training ihrer Modelle, hätte es längst Gerüchte darum gegeben.)

Apple wird mit seiner leistungsfähigen Hardware stark bei den On-Device-Modellen sein, aber das allein wird nicht reichen.

(Apple wird entweder GPT-4 oder Gemini (oder beide mit User-Auswahl) lizenzieren.)

[convertkit form=6138897]

Copilot+ PCs: Microsofts neue Marke für Mindeststandard für KI-PCs

Dazu passend die neue Hardware-Marke von Microsoft. PCs, die einen Mindeststandard bei der Rechenleistung für lokale LLM-Arbeiten erfüllen.

Stratechery:

That is why yesterday brought a new brand: Copilot+ PCs. Yes, it’s a bit of a mouthful, but it’s a trademark Microsoft owns, and it won’t be handed out willy nilly; to qualify as a “Copilot+ PC” a computer needs distinct CPUs, GPUs, and NPUs (neural processing units) capable of >40 trillion operations per second (TOPS), and a minimum of 16 GB RAM and a 256 TB SSD. These aren’t supercomputers, but that is a pretty impressive baseline — the MacBook Air wouldn’t qualify, for example, as it only has 18 TOPS (and starts with only 8 GB of RAM).
The end result — assuming that reviewed performance measures up to Microsoft’s claims — is an array of hardware from both Microsoft and its OEM partners that is MacBook Air-esque, but, unlike Apple’s offering, actually meaningfully integrated with AI in a way that not only seems useful today, but also creates the foundation to be dramatically more useful as developers leverage Microsoft’s AI capabilities going forward. I’m not going to switch (yet), but it’s the first time I’ve been tempted; at a minimum the company set a clear bar for Apple to clear at next month’s WWDC.

Microsoft Total Recall

Eine letzte Microsoft-Nachricht noch. Mit Recall bekommt Windows auf Copilot+ PCs eine Funktion, die alles auf dem Rechner aufzeichnet und abspielbar macht.

Puh.

DoublePulsar:

The idea is it allows you to rewind back in time at the click of a button to see what you were doing at, say, 11pm two months ago. It also classifies almost everything you’re doing, seeing and typing. This is instantly searchable. [...]

For example, if you log into online banking, your information around account numbers, balances, purchases etc will enter Recall’s database.

Egal wie sicher das konstruiert wird, es ist eine Goldmine für Angreifer.

Es ist ein Feature, das gebaut wird, ohne Risiken und Nutzen gegeneinander aufzuwiegen.

Auch: Ein Feature, das in keinster Weise mitzudenken scheint, wie sich die gesamte Welt durch LLMs verändern wird.

Zwei Security-Beispiele:

Multimodale LLMs werden Social Engineering automatisieren. (Anrufende & Emails, die sich als Verwandte, Bank, Versicherung etc. ausgeben)
LLMs sind gut darin, sich durch Daten zu wühlen. Während ein Zugang zu Recall vorher vielleicht viel Arbeit bedeuten würde, um die wertvollen Daten im Wust zu finden, können LLM-basierte Werkzeuge hier hochgefährlich werden.

In dieser Welt sollte kein Betriebsystem ein Feature haben, das an einer Stelle alle auf dem OS stattfindenden Daten abrufbar macht.

Ausblick: Ich gehe davon aus, dass Recall zügig per Default ausgeschaltet sein wird und eventuell komplett verschwinden wird. Auf jeden Fall ist es in dem aktuellen Zustand eine Gefahr für alle Windows-Nutzer, die das einsetzen würden.

KI-Nutzung wächst, Unternehmen geben mehr aus

Ramp analysiert Kreditkartenausgaben und hat folgendes herausgezogen:

KI-bezogene Kartentransaktionen stiegen um 293% im Jahresvergleich. (Nicht überraschend, da im Frühjahr 23 erst GPT-4 erschien.)
Über ein Drittel(!) der Ramp-Kunden investiert bereits in KI-Tools, im Vergleich zu 21% vor einem Jahr.
Wichtigste Zahl: 82% der Unternehmen, die vor einem Jahr mit OpenAI-Modellen gearbeitet haben, tun das auch heute noch. Tatsächlich steigerten die OpenAI-Kunden ihre Ausgaben im ersten Jahr im Durchschnitt jeden Monat um 25 %. Wer anfängt, die Technik zu benutzen, findet jetzt schon ausreichend Nutzen. (Für den gesamten Sektor liegt die Zahl bei 56%.)
Der Gesundheits- und Biotech-Sektor verzeichnete im Vergleich zum Vorjahr den größten Anstieg bei der Anzahl der Unternehmen, die mit KI-Anbietern zusammenarbeiten (131%). Auch das nicht überraschend: LLMs sind an sehr vielen Stellen nützlich in diesen Bereichen. Ich vermute, dass ⅔ aller neuen Pharma-Paper sich aktuell um KI drehen oder dank KI möglich wurden.
Der Beratungs- und Dienstleistungssektor steigert seine KI-Ausgaben ebenfalls, mit dem höchsten Wachstum von 117% gegenüber dem Vorquartal. (Leistungsdruck in diesen Sektoren + Tatsache, dass die besten Modelle viel des klassischen Beratungsoutputs komplett automatisiert ausgeben können, wird zu einigen Skandalen in den nächsten Jahren führen.)

Kontext: Diese Zahlen sind in einem Markt mit rudimentären Tools und noch fehlenden Enterprise-Angeboten entstanden. Letztere nehmen aktuell Fahrt auf.

KI bei Google: Android vs. YouTube-Creators

Interessanter Interessenskonflikt bei Google:

Android-Nutzer können Googles AI bald nutzen, um in Sekunden Antworten auf YouTube-Videos zu erhalten.
Folge: YouTube-Creators werden Einnahmeverluste erleiden, wenn Zuschauer:innen Videos durch AI-Zusammenfassungen ersetzen.

Diese Folge ist nicht in Googles Interesse, da es einerseits die Creators bei Laune halten will und andererseits ebenfalls an der Werbung mitverdient.

Aber: Was ist besser? Ein 10-minütiges Tutorial anschauen oder in Sekunden die präzise Antwort zu erhalten?

Die KI-Lösung ist besser für die Nutzer:innen.

Deshalb bauen alle Tech-Unternehmen wie Google diese Lösungen. Aus Paranoia, jemand anders könnte ihnen zuvor kommen. Wer schneller und erfolgreicher ist, bekommt die Nutzer, wer die Nutzer hat, hat die Macht.

YouTube selbst ist natürlich eine Goldgrube für das Training von KI-Modellen.

Janko Roettgers auf Fast Company:

Instead of sitting through lengthy instructional YouTube videos, Android users will soon be able to ask Google’s AI questions about individual clips, and receive answers in seconds. The feature, which the company plans to make available in the coming months, could be a boon to consumers, but also have significant consequences for YouTube creators as well as the company’s own bottom line.

📱💸 Big Tech

Googles Aussichten

In Nexus 205: Google – das Ende der ersten unsichtbaren Plattform habe ich darüber geschrieben, wie sich die Wahrnehmung von Google in der Gesellschat gerade (und finally) verändert.

Hier nochmal zur Einordnung, damit das nicht missverstanden wird:
Google selbst wird nicht verschwinden oder in die Bedeutungslosigkeit abtauchen. Google wird auch in 10 Jahren noch ein großer Konzern sein. So wie IBM heute. Sie werden nur nicht mehr das Alleinstellungsmerkmal an vielen Stellen haben, das sie heute haben. Sie werden einer unter vielen sein, auch in ihrem Kerngeschäft. So wie IBM heute.

Interne Emails bei Facebook vor der Instagram-Übernahme

Mark Zuckerberg, der die Unverschämtheit hat, jünger zu sein als ich, gehört zu den besten Managern weltweit. Einen Einblick, wie er seinerzeit über eine potenzielle Übernahme von Instagram dachte, geben diese internen Emails auf Threads.

[...] one way of looking at this is that what we're really buying is time.

🚌 Transportsektor

Aurora + Volvo testen autonome Trucks

TechCrunch berichtet. Neben dem selbst gebauten Lidar-System ist am interessantesten, dass sie bereits Partner für Pilotprogramme haben: FedEx und Uber Freight.

📺 Medienwandel und vernetzte Öffentlichkeit

Netflix' Ad-Plan hat 40 Millionen Abonnent:innen

Netflix wird sich in den nächsten Jahren zum nächsten Werberiesen entwickeln. Netflix

40 Millionen monatlich aktive Nutzer:innen weltweit
Mehr als 40% aller Anmeldungen in den Märkten mit Ad-Plan entfallen inzwischen auf den Werbetarif.

Die günstigeren Pläne helfen also, wie zu erwarten war, beim Wachstum.

🌐Der globale Blick

China-Taiwan: TSMC/ASML können Chipanlagen auch aus Ferne unbrauchbar machen

Heute aus der beliebten (naja) Kategorie "gibt es bald Krieg in Asien?": Bloomberg berichtet, dass TSMC und ASML die hochkomplexen Chipmaschinen auch aus der Ferne unbenutzbar machen können, sollte China Taiwan angreifen.

Für Taiwan selbst ist dies das Gegenteil von mehr Sicherheit.

Andererseits dürfte auch China wenig Interesse an dem globalen Wirtschaftschaos haben, den ein Ausfall der dortigen Anlagen nach sich ziehen würde. Die Folgen wären unabsehbar.

✴️ Mehr Wissenswertes

Vox.com bekommt ein Abomodell. We all do. CNN:

The subscription program -- which will cost $5 a month, or $50 a year -- will give members access to an array of exclusive content, including newsletters, a digital magazine, a monthly bonus episode of "The Highlight Podcast," live virtual tapings of audio programs, interactive video interviews, and more.

Mit Kapitalrunden beschäftigen wir uns hier in der Regel nicht, aber hier machen wir mal eine Ausnahme. H kommt aus Paris und hat 220 Millionen $ in einer Seedrunde erhalten. Bei KIs sind Seedrunden wieder etwas größer.. Sifted:

H was founded earlier this year in the French capital by a team that includes tech heavyweights Karl Tuyls, Laurent Sifre, Julien Perolat and Daan Wierstra, who are all former scientists from Google DeepMind; as well as former Stanford University researcher Charles Kantor.

Fashion- und Beautybranche hat Substack entdeckt. Vogue:

Loff says the platform has seen total subscriptions in the fashion and beauty category rise 80 per cent year-on-year. With more than three million paid subscriptions on Substack and more than 35 million active subscribers, she says the “critical mass” of engaged readers and shoppers appeals to designers looking to reach new audiences. [...]
Meg Strachan, founder and CEO of jewellery brand Dorsey, launched her What I Put On Today Substack in January 2023. A little over a year later, she has accumulated over 13,000 subscribers. “People would DM me on Instagram asking what I was wearing and it became hard to share links, and Instagram stories expire in 24 hours,” she says. “I realised a link [on Substack] would stay live for an indefinite period.”

Farcaster, ein dezentrales Social Network auf Blockchain-Basis, erhält 150 Millionen $. Farcaster hat Anfang des Jahres "Frames" eingeführt, quasi kleine Apps, die in den Posts stattfinden. (Man stelle sich programmierbare Tweets vor.) CoinDesk