Audacity goes AI

MaxJoy · 06.04.24

Audacity lädt jetzt AI-Plugins und hat gewaltig aufgerüstet:

Speech to Text (Texte diktieren)
Stem Separation (Song in Spuren aufspalten).
AI Noise Reduction (Rauschunterdrückung)
Song Generation
Song Remixing

In Zukunft sollen noch mehr interessante AI-Projekte in Audacity integriert werden. Damit bietet das Programm eine kostenlose und angenehme Oberfläche, um einigermaßen am Ball bei der AI-Musikbearbeitung zu bleiben.

hobz biz-zejt · 07.04.24

Klingt interessant, hab nach mehr Infos gesucht.

Bei Audacity selber werden die AI-Möglichkeiten hier beschrieben:

Audacity ® | Introducing OpenVINO AI effects for Audacity

Intel has built a suite of AI tools for Audacity, useful for spoken word audio and music alike. These AI features run 100% locally on your PC.

www.audacityteam.org

Weiterführender Link zu Music Style Remix wär das hier:

openvino-plugins-ai-audacity/doc/feature_doc/music_style_remix/README.md at v3.4.2-R1 · intel/openvino-plugins-ai-audacity

Contribute to intel/openvino-plugins-ai-audacity development by creating an account on GitHub.

github.com

Videos, die das Ergebnis zeigen, hab ich noch nicht gefunden.

TeJo · 07.04.24

Mit dieser Anleitung (@hobz biz-zejt: danke für den Link!

) lassen sich die AI-Tools in der Tat auch unter Ubuntu 22.04 installieren und zum Laufen bekommen (genauer gesagt auch unter Kubunutu 22.04).
Man muss sie allerdings gegen Audacity 3.4.2 bauen, d.h. dort, wo in der Anleitung eine Spezifizierung der Audacity-Version als "Option" genannt wird, muss man auch den entsprechenden Tag einsetzen, sprich, die Audacity-Version auf 3.4.2 spezifizieren, sonst baut das Skript die Module gegen eine neuere Version (ich glaube 3.6.X alpha) und das klappt nicht.
Vermutlich klappt es auch unter Ubuntu-Studio 22.04, aber das habe ich nicht getestet.

Auch mehrere parallele Audacity-Installationen sind unter Ubuntu möglich, z.B. Flatpak, AppImage und Custom-Build mit den AI-Tools, letzteren muss man allerdings aus dem Terminal starten.

losch · 08.04.24

Was ich auch tue, bei mir vermisst Audacity eine avformat-60.dll beim Aufruf einer der KI-Funktionen unter Windows10.

MaxJoy · 08.04.24

Error: Failed to load shared library 'avformat-60.dll'

Installing FFmpeg | Audacity Support

FFmpeg allows you import/export additional audio file formats into/from Audacity

support.audacityteam.org

Beitrag automatisch zusammengefügt: 08.04.24

Die AI-Rauschunterdrückung funktioniert definitiv besser als mit meinen bisherigen Tools. Mit der Stem Separation bin ich nicht zufrieden, das Ergebnis klingt immer nach Mittelwellenradio und ist unbrauchbar. Vielleicht liegt es daran, dass ich keine NVIDIA-GPU in meinem Rechner habe und die CPU nutzen muss.

TeJo · 08.04.24

Hast Du alle Dateien aus "Audacity-OpenVINO-Module-3.4.2-R1.zip" kopiert? Ich hatte diesen Fehler unter Windows 10 auch, bis ich alle daraus kopiert hatte. Wird in dem Video gut gezeigt

losch · 08.04.24

MaxJoy schrieb:
Installing FFmpeg | Audacity Support

FFmpeg allows you import/export additional audio file formats into/from Audacity

support.audacityteam.org

Vielen Dank für den Hinweis, aber das war bereits schon länger installiert und auch die Erneuerung brachte leider keinen Erfolg.

Beitrag automatisch zusammengefügt: 08.04.24

TeJo schrieb:
Hast Du alle Dateien aus "Audacity-OpenVINO-Module-3.4.2-R1.zip" kopiert? Ich hatte diesen Fehler unter Windows 10 auch, bis ich alle daraus kopiert hatte. Wird in dem Video gut gezeigt

Ja.

MaxJoy · 08.04.24

Die OpenVino Songgeneration ist noch nicht ganz von dieser Welt, kein Vergleich mit suno.ai.

hobz biz-zejt · 08.04.24

MaxJoy schrieb:
...kein Vergleich mit suno.ai.

Das war genau meine Frage:
Die Ergebnisse bei suno find ich überragend, aber der eigene Anteil an der Erstellung ist praktisch Null. Was Audacity bietet, ist die Möglichkeit, selber eingespieltes zu "remixen". Wenn das hieße, dass man Ergebnisse kriegt die klingen wie bei suno, aber mit eigenen Demo-Ideen, wär es genial (gewesen).

MaxJoy · 08.04.24

Aus suno kann man viel mehr heraus holen, als es auf den ersten Blick scheint. Die Schlüssel sind möglichst treffende Prompts, die Tags in den Texten und das schrittweise Zusammenstellen des ganzen Songs aus den vorgeschlagenen Abschnitten. Man entwickelt also Ideen in kleinen Schritten im Dialog mit der Maschine. AI-Flüsterer ist jedenfalls ein Beruf mit Zukunft.

losch · 18.09.24

Nach dem Update auf die aktuelle Version 3.6.3 von Audacity klappte es plötzlich auch bei mir mit den integrierten KI-Funktionen. Und zwar erstaunlich gut!

Ich bin zwar noch am Probieren und habe nicht die letzten Feinheiten verglichen, jedoch scheint mir zummindest die Seperation in bis zu vier Stems ähnlich gut wie die von Moise zu sein.

Allerdings for free und auf meinem betagte i7er Notebook viel schneller zumal sich alles direkt im aktuellen Projekt abspielt.

Das macht Appetit auf die nächsten Versionen! :great:

engineer · 26.09.24

Boah, heißt jetzt wirklich ALLES, was eine Software im PC macht, "AI"?

Banjo · 27.09.24

Die im Startpost genannten Funktionen sind schon wirklich Funktionen, die sich für KI gut eignen, keine beliebigen Effekte mit einem KI-Aufkleber drauf. KI ist durchaus ein definiert umrissenes Gebiet/Verfahren, nicht "alles, was früher Software hieß".

Heißt natürlich nicht, dass mit dem Begriff nicht auch viel Schindluder getrieben wird, vermute ich hier aber nicht.

Banjo

Norbert · 27.09.24

Hallo,

mal eine dumme Frage eines früheren Audacity-Anwenders: ist die Software nach wie vor destruktiv bei der Bearbeitung, d.h. Schritte können nicht mehr rückgängig gemacht werden?
Und: akzeptiert es jetzt ASIO-Treiber?

Danke für Info

Norbert

Darkdonald · 27.09.24

Teilweise, Tonhöhen-Änderungen zB funktionieren jetzt non-destruktiv. Das meiste aber ist beim alten geblieben

ASIO. Jein. Eigentlich wird es nicht unterstützt, ist auch nicht geplant. ABER: Es gibt seit längerem die Möglichkeit, Audacity selbst zu kompilieren und dabei das optionale Steinberg ASIO SDK einzubinden. Das allerdings erfordert einiges an Kenntnis und ist für Anfänger oder DAUs nicht zu empfehlen...

losch · 28.09.24

Norbert schrieb:
d.h. Schritte können nicht mehr rückgängig gemacht

In den aktuellen Versionen 3.6.x können alle Bearbeitungsschritte bis zur letzten Projektspeicherung unter "Bearbeiten" sequentiell rückgängig gemacht werden.

Zudem können diverse Echtzeiteffekte hinzu geladen werden, die jederzeit reversibel sind.

Norbert · 29.09.24

Danke Euch für die Info!
Norbert

losch · 13.10.24

losch schrieb:
Ich bin zwar noch am Probieren und habe nicht die letzten Feinheiten verglichen, jedoch scheint mir zummindest die Seperation in bis zu vier Stems ähnlich gut wie die von Moise zu sein.

Die Separation habe ich mir nun noch einmal mit meinen Bordmitteln genauer angesehen. Mich interessierte dabei, wie gut sich die eingebaute OPENVINO Music Separation im Vergleich mit der KI Moises schlägt sowie, welche Auswirkung Änderungen der Option "Shift" qualitativ hat.

Als Testobjekt diente mir ein kurzes, mit dem BOSS BR-80 aufgenommenes Geburtstagsständchen, das zwar Gitarre, Schlagzeug und Gesang enthält, jedoch keinen Bass. Dabei ging ich von der Annahme aus, dass ein wichtiges Qualitätsmerkmal der Separation ein möglichst geringer Geräuschpegel der Bass-Spur ist, weil dieser Pegel weitgehend auf unerwünschtes Nebensprechen der Nachbarspuren hinweist.

Wie im Readme https://github.com/intel/openvino-p...in/doc/feature_doc/music_separation/README.md kurz dargestellt, kann sich die Qualität durch Erhöhen des Wertes für Shift bei gleichzeitiger annähernd linear erhöhter Analysezeit verbessern. Das habe ich für die Werte 1, 4 und 8 einmal nachvollzogen und mit dem Ergebnis von Moises verglichen. Den Nebensprechabstand habe ich näherungsweise bestimmt, indem ich jeweils die Bass-Spur mit dem Verstärken-Effekt automatisch auf O dB-Pegel anheben ließ und den dabei angezeigten Verstärkungswert als Abstand annahm.

Daraus resultierten die folgenden Ergebnisse:

Shift - Nebensprechabstand - Verbesserung - Analysedauer
1 - 43,275 dB gleichmäßig - - - 1:12
2 - 46,034 dB gleichmäßig - 2,768 dB - 2:41
4 - 47,422 dB gleichmäßig - 4,147 dB - 5:58
8 - 49,041 dB gleichmäßig - 5,766 dB - 13:12
Moises- 24,996 dB Schwankungen- -18,279 dB - nicht vergleichbar

Es ergeben sich also mit jeder Shift-Verdoppelung eine merkliche Verbesserung des Nebensprechabstands bei gleichzeitig etwa linear zunehmender Analysedauer.

So weit so gut, wirklich erstaunlich war für mich der Vergleich der Audacityfunktion mit der Separation von Moises, die zeitweise einen wesentlich schlechteren Nebensprechabstand bei starken Schwankungen im zeitlichen Verlauf zeigte:

Audacity goes AI

Audacity ® | Introducing OpenVINO AI effects for Audacity

openvino-plugins-ai-audacity/doc/feature_doc/music_style_remix/README.md at v3.4.2-R1 · intel/openvino-plugins-ai-audacity

Installing FFmpeg | Audacity Support

Installing FFmpeg | Audacity Support

Anhänge

Quick Links

Linux - Audio Interface - Nutzung parallel zu "Reaper"

Harrison Mixbus im neuen Gewand

Formant Veränderungen