A természetes nyelvi feldolgozás lehetővé teszi a számítógépek számára, hogy az általunk mondottakat parancsokká dolgozzák fel, amelyeket végrehajthat. Ismerje meg működésének alapjait, és hogyan használják életünk javítására.
Tartalomjegyzék
Mi a természetes nyelv feldolgozása?
Legyen szó Alexáról, Siriről, Google Asszisztensről, Bixbyről vagy Cortanáról, manapság mindenkinek van egy okostelefonja vagy okoshangszórója hangvezérlésű asszisztenssel. Úgy tűnik, ezek a hangasszisztensek évről évre egyre jobban felismerik és végrehajtják azokat a dolgokat, amelyeket mondunk nekik. De elgondolkozott már azon, hogy ezek az asszisztensek hogyan dolgozzák fel az általunk elmondottakat? Ezt a Natural Language Processing-nak vagy az NLP-nek köszönhetően sikerül megtenniük.
A történelem során a legtöbb szoftver csak meghatározott parancsok rögzített halmazára tudott válaszolni. Egy fájl megnyílik, mert a Megnyitás gombra kattintott, vagy egy táblázat egy képletet fog kiszámítani bizonyos szimbólumok és képletnevek alapján. Egy program azon a programozási nyelven kommunikál, amelyen kódolták, és így kimenetet állít elő, ha olyan bemenetet kap, amelyet felismer. Ebben az összefüggésben a szavak olyanok, mint különböző mechanikus karok halmaza, amelyek mindig a kívánt kimenetet biztosítják.
Ez ellentétben áll az emberi nyelvekkel, amelyek összetettek, strukturálatlanok, és sokféle jelentéssel bírnak a mondatszerkezet, hangszín, akcentus, időzítés, írásjelek és kontextus alapján. A Natural Language Processing a mesterséges intelligencia egyik ága, amely megpróbálja áthidalni azt a szakadékot, amit a gép inputként ismer fel, és az emberi nyelv között. Ez azért van így, hogy amikor természetesen beszélünk vagy gépelünk, a gép az általunk elmondottaknak megfelelő kimenetet állít elő.
Ez úgy valósul meg, hogy hatalmas mennyiségű adatpontot vesznek fel, hogy az emberi nyelv különböző elemeiből jelentést lehessen levezetni, a tényleges szavak jelentésein felül. Ez a folyamat szorosan kapcsolódik a gépi tanulásnak nevezett koncepcióhoz, amely lehetővé teszi a számítógépek számára, hogy többet tanuljanak, amikor több adatot szereznek be. Ez az oka annak, hogy a legtöbb természetes nyelvet feldolgozó gép, amellyel gyakran kommunikálunk, idővel javulni látszik.
A koncepció jobb megvilágítása érdekében vessünk egy pillantást az NLP-ben a nyelv és információ feldolgozására használt legfelső szintű technikák közül kettőre.
Tokenizálás
Tokenizálás a beszéd szavakra vagy mondatokra bontását jelenti. Minden szövegrész egy token, és ezek a jelzők jelennek meg a beszéd feldolgozása során. Egyszerűnek hangzik, de a gyakorlatban ez egy bonyolult folyamat.
Tegyük fel, hogy szövegfelolvasó szoftvert, például a Google billentyűzetet használ, hogy üzenetet küldjön egy barátjának. Üzenetet szeretne küldeni: „Találkozzunk a parkban.” Amikor telefonja rögzíti a felvételt, és a Google szövegfelolvasó algoritmusán keresztül feldolgozza, a Google-nak ezután tokenekre kell felosztania az Ön által mondottakat. Ezek a tokenek a következők lennének: „meet”, „me”, „at”, „the” és „park”.
Az emberek különböző hosszúságú szüneteket tartanak a szavak között, és más nyelvekben előfordulhat, hogy nem nagyon van hallható szünet a szavak között. A tokenizálási folyamat nyelvenként és dialektusonként drasztikusan változik.
Száradás és lemmatizáció
A száradás és a lemmatizálás egyaránt magában foglalja a folyamatot kiegészítések vagy változatok eltávolítása olyan gyökérszóra, amelyet a gép felismer. Ennek célja, hogy a beszéd értelmezése következetes legyen a különböző szavak között, amelyek lényegében ugyanazt jelentik, ami gyorsabbá teszi az NLP-feldolgozást.
A törzsszó egy durva gyors folyamat, amely magában foglalja a toldalékok eltávolítását a gyökérszóból, amelyek a gyökér előtt vagy után csatolt szó kiegészítései. Ez a szót a legegyszerűbb alapformává alakítja a betűk egyszerű eltávolításával. Például:
A „séta” „sétává” válik
A „gyorsabb” „gyors”-ba fordul
A „súlyosság” „sever”-be fordul
Amint látja, a szótőnek az a káros hatása lehet, hogy teljesen megváltozik egy szó jelentése. A „súlyosság” és a „sever” nem ugyanazt jelenti, de az „ity” utótagot eltávolítottuk a törzsképzés során.
Másrészről a lemmatizálás egy kifinomultabb folyamat, amely magában foglalja a szónak az alapjukra való redukálását, az úgynevezett lemmát. Ez figyelembe veszi a szó kontextusát és a mondatban való felhasználását. Ez magában foglalja a kifejezések keresését is a szavak és a hozzájuk tartozó lemmák adatbázisában. Például:
A „vagy”-ból „legyen”
A „művelet” „működtetés”-re változik
A „súlyosságból” „súlyos” lesz.
Ebben a példában a lemmatizálásnak sikerült a „súlyosság” kifejezést „súlyossá” változtatni, ami a lemma alakja és gyökérszava.
NLP használati esetek és a jövő
Az előző példák csak a felszínt kezdik megkarcolni, hogy mi is az a természetes nyelvi feldolgozás. A gyakorlatok és használati forgatókönyvek széles skáláját öleli fel, amelyek közül sokat használunk mindennapi életünkben. Íme néhány példa arra, ahol jelenleg használatos az NLP:
Prediktív szöveg: Amikor beír egy üzenetet az okostelefonon, az automatikusan olyan szavakat javasol, amelyek illeszkednek a mondatba, vagy amelyeket korábban használt.
Gépi fordítás: Széles körben használt fogyasztói fordítói szolgáltatások, például a Google Fordító, amely az NLP magas szintű formájának beépítésére szolgál a nyelv feldolgozásához és lefordításához.
Chatbotok: Az NLP az intelligens chatbotok alapja, különösen az ügyfélszolgálatban, ahol segítséget nyújthatnak az ügyfeleknek és feldolgozhatják kéréseiket, mielőtt valódi személlyel találkoznának.
Még több jön. Az NLP-használatokat jelenleg fejlesztik és alkalmazzák olyan területeken, mint a hírmédia, az orvosi technológia, a munkahelyi menedzsment és a pénzügy. Megvan rá az esély, hogy a jövőben teljes értékű, kifinomult beszélgetést folytathatunk egy robottal.
Ha többet szeretne megtudni az NLP-ről, rengeteg fantasztikus forrás található a webhelyen Az Adattudomány felé blog vagy a Standford National Language Processing Group hogy ki tudod nézni.