Musiker-Identifikationsanwendungen wirken auf den ersten Blick wie reine Zauberei, doch im Kern verbirgt sich ein ausgefeilter Algorithmus, der Melodien blitzschnell erkennen kann. Wir erklären, wie dies funktioniert.
Die faszinierende Welt der Musikerkennung
Wahrscheinlich hat es jeder schon einmal erlebt: Man sitzt gemütlich im Restaurant, entspannt im Café oder schlendert durch ein Geschäft, und plötzlich ertönt ein toller Song aus den Lautsprechern. Vielleicht ist es ein Lied, das man bereits kennt oder ein ganz neues Stück. Dann zückt man das Smartphone, öffnet Shazam und hält es in die Richtung der Schallquelle. In Sekundenschnelle verrät die App den Titel des Liedes, den Interpreten und wo man es streamen kann.
Diese Anwendungen sind nicht nur schnell, sondern auch bemerkenswert präzise und können selbst die unbekanntesten Musikstücke identifizieren. Vereinfacht ausgedrückt, analysieren sie die aufgenommene Musik, isolieren sie und vergleichen sie mit einer umfangreichen Datenbank an Titeln. Die dahinterstehende Technologie ist jedoch ziemlich komplex und beeindruckend.
Es mag überraschen, dass die Shazam-App, wie wir sie heute kennen, bereits im Jahr 2002 auf den Markt kam. Das System war damals schon genauso präzise und schnell wie heute. Dies ist einem einzigartigen Algorithmus zu verdanken, der die Musikwelt revolutionieren sollte.
Mehr als nur Liedtexte
Auf den ersten Blick wirken Musikerkennungs-Apps wie Shazam recht simpel. Man könnte annehmen, dass sie lediglich den Liedtext analysieren, ähnlich wie ein Sprachassistent, und diesen dann in einer Datenbank abgleichen, um den Titel zu ermitteln.
Die meisten Musikerkennungs-Apps sind jedoch in der Lage, Instrumentalstücke oder auch Coverversionen zu identifizieren. Das liegt daran, dass sie nicht den Liedtext analysieren, sondern in ihren umfangreichen Datenbanken nach „Fingerabdrücken“ suchen, die für jedes Musikstück einzigartig sind.
Die Fingerabdruck-Technologie
Sie kennen wahrscheinlich Geräte, die sich per Fingerabdruck entsperren lassen. Dabei wird die Anordnung der feinen Linien auf Ihrem Finger, die bei jedem Menschen einzigartig ist, analysiert. Wenn Sie Ihr Mikrofon in Richtung eines Musikstücks halten, um eine kurze Aufnahme zu machen, wird diese in ein Datenmuster umgewandelt, das Shazam oder eine andere App in ihrer Datenbank vergleichen kann.
Diese Methode scheint zunächst anfällig für einige Probleme. In den meisten Fällen, wenn man in der Öffentlichkeit Musik hört, gibt es Hintergrundgeräusche und Verzerrungen durch die Lautsprecher, die dazu führen könnten, dass Lieder unidentifizierbar werden oder zu falschen Ergebnissen führen. Außerdem werden selbst in einem kurzen Audioausschnitt viele Daten erfasst, was die Suche in einer Datenbank mit Millionen von Songs verlangsamen könnte.
In einem Interview mit Scientific American aus dem Jahr 2003 erklärt Avery Li-Chun Wang, Chef-Datenwissenschaftler und Mitbegründer von Shazam, wie ihr Algorithmus diese Schwierigkeiten überwindet. Die Informationen eines Audioausschnitts können mithilfe eines sogenannten Spektrogramms visualisiert werden. Dieses 3D-Diagramm stellt die Veränderung der Frequenzen über einen bestimmten Zeitraum dar. Es berücksichtigt auch die Amplitude, also die Lautstärke eines Tons. Im Spektrogramm wird dies durch die Farbintensität dargestellt.
Ähnlich wie Menschen Töne nur in bestimmten Frequenzbereichen wahrnehmen, erfasst Shazam bei der Suche lediglich „Peaks“, die die höchsten Energieanteile innerhalb eines Audioausschnitts repräsentieren. Die erfassten Fingerabdrücke nehmen nur die höchsten Frequenzpunkte innerhalb eines bestimmten Zeitrahmens auf sowie die Amplitudenspitzen innerhalb dieser Frequenzen.
In einer Forschungsarbeit für die Columbia University erklärte Wang, dass diese Methode es ermöglicht, unnötige Teile eines Audioausschnitts, wie beispielsweise Hintergrundgeräusche und Verzerrungen, zu entfernen. Dadurch werden die „Fingerabdrücke“ so klein, dass es nur Millisekunden dauert, ein Lied in der riesigen Datenbank zu identifizieren.
Der Einfluss von Shazam
Musikerkennungs-Apps sind nicht nur für Hörer hilfreich, die ein Lied entdecken möchten, das ihnen gefällt, sondern beeinflussen auch die Musikindustrie.
Radiosender und Streamingdienste verwenden häufig Daten darüber, welche Songs am häufigsten „geshazamt“ werden, um herauszufinden, welche Titel beim Publikum Anklang finden. Dies ist hilfreich, da es die Eingängigkeit und potenzielle Popularität eines Songs unabhängig vom Interpreten zeigt. Wenn Sie ein Lied mit der App identifizieren, sehen Sie direkt, wie viele andere Personen dies auch getan haben.
Seit dem Aufstieg von Shazam sind auch eine Reihe von Konkurrenzanbietern auf den Plan getreten. Soundhound behauptet, ein Lied einfach durch Singen oder Summen identifizieren zu können, allerdings mit gemischten Ergebnissen. Es gibt auch eine Songerkennungsfunktion, die in Sprachassistenten wie Google Assistant integriert ist und ähnlich wie Shazam funktioniert.