Der Podcast/Audio-Dienst Descript erlaubt das Editieren von gesprochenem Wort anhand der Transkriptionen. Also ein Wort oder ein Satz im Transkript gelöscht und diese verschwinden in der Aufnahme.
TechCrunch berichtet von der jüngsten Finanzierungsrunde und einem neuen Feature namens Overdub:
a new feature for Descript called Overdub: people will now be able to create “templates” of their voices that they can in turn use to create audio based on words that they type, part of a bigger production suite that will also let users edit multiple voices on multiple tracks. The audio can be standalone, or the audio track for a video.
Mit Overdub wird es also möglich aus Text eine gesprochene Aufnahme zu generieren.
Wer da nicht sofort an Deep Fakes denkt, lebt wohl unter einem gemütlichen Felsen irgendwo im Wald. So geht Descript damit um:
In the age of market-defining, election-winning fake news aided and abetted by technology, you’d be forgiven for wondering if Overdub might not be a highway to Deep Fake City, where you could use the technology to create any manner of “statements” by famous voices.
Mason tells me that the company has built a way to keep that from being able to happen.
The demo on the company’s home page is created with a special proprietary voice just for illustrative purposes, but to actually activate the editing and augmenting feature for a piece of their own audio, users have to first record a number of statements that repeated-back, based on text created on the fly and in real time. These audio clips are then used to shape your digital voice profile.
This means that you can’t, for example, feed audio of Donald Trump into the system to create a version of the President saying that he is awfully sorry for suggesting that building walls between the US and Mexico was a good idea, and that this would not, in fact, make America Great Again. (Too bad.)
But if you subscribe to the idea that tech advances in NLP and AI overall are something of a Pandora’s Box, the cat’s already out of the bag, and even if Descript doesn’t allow for it, someone else will likely hack this kind of technology for more nefarious ends. The answer, Mason says, is to keep talking about this and making sure people understand the potentials and pitfalls.
“People have already have created the ability to make deep fakes,” Mason said. “We should expect that not everybody is going to follow the same constrants that we have followed. But part of our role is to create awareness of the possibilities. Your voice is your identity, and you need to own that voice. It’s an issue of privacy, basically.”
Fakt ist, dass diese Funktionen bald von Anbietern auch ohne diese Sicherheitsvorkehrungen angeboten werden. Staaten werden das ohnehin bereits aufbauen.
Hier kommen wir auch zur regulatorischen SaaS-Herausforderung bei diesen Entwicklungen. Dank Skaleneffekten wird die Backend-Technologie als Service angeboten. Das heißt, die schwere Arbeit (Spracherkennung) wurde bereits gemacht. Descript etwa setzt auf Google:
Decript itself doesn’t even create its basic NLP software; it uses Google’s, since basic NLP is now an area that has essentially become “commoditized,” said Mason in an interview.
That makes creating new features, tapping into AI and other advances, all the more essential, as we look to see if one tool emerges as a clear leader in this particular area of SaaS.
Deep Fakes, wie sie Descript verhinden will, werden mit den APIs von Google, Amazon und co. umgesetzt werden. Spätestens zur US-Präsidentschaftswahl. Es liegt in der Natur der Sache, dass die API-Anbieter davon erst einmal nichts merken werden.
Eine denkbare Lösung wäre eine Datenbank mit Audio-Fingerprints von, zum Beispiel, Politikern, die dann als eine Art Blacklist fungiert.
Mehr zum Thema:
* Sollte Amazon verantwortlich sein für die Einsatzzwecke seiner Bilderkennungsdienste?, dazugehörige Diskussion im Podcast: neunetzcast 75: Der Amazon-Vogel
* Machine Learning: Services mit internen Skaleneffekten haben einen modellinhärenten Sog zu maximaler Verbreitung