Hogyan működnek az olyan zeneazonosító alkalmazások, mint a Shazam?

A zeneazonosító alkalmazások elsőre varázslatosnak tűnnek, de a motorháztető alatt van egy kifinomult algoritmus, amely egy pillanat alatt megtalálja a dalokat. Íme, hogyan működnek.

A zenei azonosítás varázsa

Valószínűleg mindannyiunkkal megtörtént. Egy jó étteremben vacsorázol, egy kávézóban lógsz, vagy egy boltban sétálsz, amikor hirtelen egy nagyszerű dalt hallasz a hangszórókból. Lehet, hogy ez egy dal, amit már hallgatott, vagy egy olyan szám, amelyet még soha nem hallott. Tehát előveszed a telefont, kinyitod a Shazamot, és a plafonhoz tartod a készüléket. Az alkalmazás egy pillanat alatt megmondja, hogy mi a dal, ki az előadó, és hol streamelheti.

Gyorsak, rendkívül pontosak, és még a leghomályosabb dalokat is képesek azonosítani. Dióhéjban úgy dolgoznak, hogy elkülönítik a dalt a felvételtől, és keresnek benne egy kiterjedt számadatbázisban. De a technológia mögött, ahogy ezt teszik, meglehetősen összetett és lenyűgöző.

Megdöbbenhet, hogy a Shazam alkalmazást, amelyet ma ismerünk, még 2002-ben adták ki, és a rendszer akkor is ugyanolyan pontos és gyors volt, mint most. Mindez egy egyedülálló algoritmusnak köszönhető, amely forradalmasítaná a zenei világot.

  Az adategyezési készlet kritériumainak számolása a Google Táblázatokban

Ez nem csak a szöveg

Első pillantásra egyszerűnek tűnhetnek az olyan zeneazonosító alkalmazások, mint a Shazam. Azt gondolhatja, hogy csak meghallgatják a szöveget, ugyanúgy, mint bármelyik hangsegéd, és rákeresnek a dalszövegek adatbázisában, hogy megtudják, mi az a dal.

A legtöbb zeneazonosító alkalmazás azonban képes megmondani, hogy mi a hangszer címe, vagy akár egy feldolgozás dal énekese. Ennek az az oka, hogy a szám szövegének elemzése helyett olyan „ujjlenyomatokat” keresnek, amelyek minden dalhoz egyediek a kiterjedt adatbázisukban.

Ujjlenyomat technológia

Valószínűleg vannak olyan eszközei, amelyek az ujjlenyomatával oldhatók fel, ami az ujján található kis vonalak elrendezése, amelyek egyediek az Ön számára. Hasonlóképpen, ha feltartja a mikrofont egy dal rövid klipjének rögzítéséhez, ez a klip adatmintákká válik, amelyeket a Shazam vagy egy másik alkalmazás meg tud nézni az adatbázisában.

Első pillantásra ez a módszer számos problémára hajlamos. Legtöbbször, amikor nyilvános helyen hall zenét, a hangszórók háttérzajt és torzítást okoznak, ami azonosíthatatlanná teheti a dalokat, vagy pontatlan egyezéseket eredményezhet. Ezenkívül még egy rövid hangklip is sok adatot rögzít, ami lelassíthatja ezeknek a mintáknak a keresését a több millió dalt tartalmazó adatbázisban.

  Hogyan tekintheti meg saját tetszéseit a Twitteren

Egy interjúban Tudományos amerikai 2003-ban Avery Li-Chun Wang, a Shazam vezető adattudósa és társalapítója elmagyarázza, hogyan oldja meg algoritmusuk ezeket a problémákat. A hangklip információit egy spektrogramnak nevezett 3D diagrammal lehet megjeleníteni, amely a frekvenciák egy időn belüli változását mutatja. Figyelembe veszi az amplitúdót is, vagyis a hang hangosságát. Ezt a színintenzitást használó spektrogramban ábrázoljuk.

Ugyanúgy, ahogyan az emberek nem érzékelik a hangot, hacsak nem egy adott frekvencián vannak, ahelyett, hogy a teljes dalt figyelembe venné a keresés során, a Shazam csak „csúcsokat” vesz fel, ami a legmagasabb energiatartalom egy hangklipben. . Az általa rögzített ujjlenyomatok csak a legmagasabb frekvenciapontokat veszik fel egy adott időkereten belül, majd az amplitúdó csúcspontjait ezeken a frekvenciákon belül.

Egy kutatási cikkben Columbia Egyetem, Wang kijelentette, hogy a módszer lehetővé teszi számukra, hogy eltávolítsák a legtöbb felesleges részét a hangklipből, mint például a háttérzajt, és kiküszöböljék a torzítást. A nyomatok méretét is elég kicsivé teszi ahhoz, hogy csupán ezredmásodpercekbe telik, hogy egy dalt azonosítsanak a hatalmas adatbázisukban.

  PowerPoint-prezentációk küldése beágyazott videóval

Shazam hatása

Amellett, hogy hasznosak az átlagos hallgatók számára, akik egy nekik tetsző dalt hallanak, a zeneazonosító alkalmazások a zenei világ formálásában is segítenek.

A rádióállomások és a streaming szolgáltatások gyakran használják fel az arra vonatkozó adatokat, hogy kiket hallgatnak leginkább az emberek, hogy kitalálják, milyen számokat hallgat a nyilvánosság. Ez azért hasznos, mert jelzi a dal felkapottságát és potenciális népszerűségét, az előadótól függetlenül. Amikor azonosít egy dalt az alkalmazással, azonnal látni fogja, hányan próbálták azonosítani azt is.

A Shazam felemelkedése óta egy maroknyi versenytárs is felbukkant. A Soundhound azt állítja, hogy képes beazonosítani egy dalt egyszerűen abból, hogy énekelsz vagy dúdolsz hozzá, vegyes eredménnyel. Van egy dalazonosító is, amely olyan hangalkalmazásokkal van integrálva, mint a Google Assistant, amelyek nagyon hasonlóan működnek, mint a Shazam rendszere.