Mi a természetes nyelv feldolgozása, és hogyan működik?

A természetes nyelvi feldolgozás lehetővé teszi a számítógépek számára, hogy az általunk mondottakat parancsokká dolgozzák fel, amelyeket végrehajthat. Ismerje meg működésének alapjait, és hogyan használják életünk javítására.

Mi a természetes nyelv feldolgozása?

Legyen szó Alexáról, Siriről, Google Asszisztensről, Bixbyről vagy Cortanáról, manapság mindenkinek van egy okostelefonja vagy okoshangszórója hangvezérlésű asszisztenssel. Úgy tűnik, ezek a hangasszisztensek évről évre egyre jobban felismerik és végrehajtják azokat a dolgokat, amelyeket mondunk nekik. De elgondolkozott már azon, hogy ezek az asszisztensek hogyan dolgozzák fel az általunk elmondottakat? Ezt a Natural Language Processing-nak vagy az NLP-nek köszönhetően sikerül megtenniük.

A történelem során a legtöbb szoftver csak meghatározott parancsok rögzített halmazára tudott válaszolni. Egy fájl megnyílik, mert a Megnyitás gombra kattintott, vagy egy táblázat egy képletet fog kiszámítani bizonyos szimbólumok és képletnevek alapján. Egy program azon a programozási nyelven kommunikál, amelyen kódolták, és így kimenetet állít elő, ha olyan bemenetet kap, amelyet felismer. Ebben az összefüggésben a szavak olyanok, mint különböző mechanikus karok halmaza, amelyek mindig a kívánt kimenetet biztosítják.

Ez ellentétben áll az emberi nyelvekkel, amelyek összetettek, strukturálatlanok, és sokféle jelentéssel bírnak a mondatszerkezet, hangszín, akcentus, időzítés, írásjelek és kontextus alapján. A Natural Language Processing a mesterséges intelligencia egyik ága, amely megpróbálja áthidalni azt a szakadékot, amit a gép inputként ismer fel, és az emberi nyelv között. Ez azért van így, hogy amikor természetesen beszélünk vagy gépelünk, a gép az általunk elmondottaknak megfelelő kimenetet állít elő.

  Keresse meg legális bevándorlási státuszát az Egyesült Államokban, és szerezzen hasznos forrásokat

Ez úgy valósul meg, hogy hatalmas mennyiségű adatpontot vesznek fel, hogy az emberi nyelv különböző elemeiből jelentést lehessen levezetni, a tényleges szavak jelentésein felül. Ez a folyamat szorosan kapcsolódik a gépi tanulásnak nevezett koncepcióhoz, amely lehetővé teszi a számítógépek számára, hogy többet tanuljanak, amikor több adatot szereznek be. Ez az oka annak, hogy a legtöbb természetes nyelvet feldolgozó gép, amellyel gyakran kommunikálunk, idővel javulni látszik.

A koncepció jobb megvilágítása érdekében vessünk egy pillantást az NLP-ben a nyelv és információ feldolgozására használt legfelső szintű technikák közül kettőre.

Tokenizálás

Tokenizálás a beszéd szavakra vagy mondatokra bontását jelenti. Minden szövegrész egy token, és ezek a jelzők jelennek meg a beszéd feldolgozása során. Egyszerűnek hangzik, de a gyakorlatban ez egy bonyolult folyamat.

Tegyük fel, hogy szövegfelolvasó szoftvert, például a Google billentyűzetet használ, hogy üzenetet küldjön egy barátjának. Üzenetet szeretne küldeni: „Találkozzunk a parkban.” Amikor telefonja rögzíti a felvételt, és a Google szövegfelolvasó algoritmusán keresztül feldolgozza, a Google-nak ezután tokenekre kell felosztania az Ön által mondottakat. Ezek a tokenek a következők lennének: „meet”, „me”, „at”, „the” és „park”.

  Miért csatlakozom a Wi-Fi-hez, de nem az internethez?

Az emberek különböző hosszúságú szüneteket tartanak a szavak között, és más nyelvekben előfordulhat, hogy nem nagyon van hallható szünet a szavak között. A tokenizálási folyamat nyelvenként és dialektusonként drasztikusan változik.

Száradás és lemmatizáció

A száradás és a lemmatizálás egyaránt magában foglalja a folyamatot kiegészítések vagy változatok eltávolítása olyan gyökérszóra, amelyet a gép felismer. Ennek célja, hogy a beszéd értelmezése következetes legyen a különböző szavak között, amelyek lényegében ugyanazt jelentik, ami gyorsabbá teszi az NLP-feldolgozást.

A törzsszó egy durva gyors folyamat, amely magában foglalja a toldalékok eltávolítását a gyökérszóból, amelyek a gyökér előtt vagy után csatolt szó kiegészítései. Ez a szót a legegyszerűbb alapformává alakítja a betűk egyszerű eltávolításával. Például:

A „séta” „sétává” válik
A „gyorsabb” „gyors”-ba fordul
A „súlyosság” „sever”-be fordul

Amint látja, a szótőnek az a káros hatása lehet, hogy teljesen megváltozik egy szó jelentése. A „súlyosság” és a „sever” nem ugyanazt jelenti, de az „ity” utótagot eltávolítottuk a törzsképzés során.

Másrészről a lemmatizálás egy kifinomultabb folyamat, amely magában foglalja a szónak az alapjukra való redukálását, az úgynevezett lemmát. Ez figyelembe veszi a szó kontextusát és a mondatban való felhasználását. Ez magában foglalja a kifejezések keresését is a szavak és a hozzájuk tartozó lemmák adatbázisában. Például:

  Figyeli a RAM- és CPU-használatot, tömegesen távolítja el az alkalmazásokat

A „vagy”-ból „legyen”
A „művelet” „működtetés”-re változik
A „súlyosságból” „súlyos” lesz.

Ebben a példában a lemmatizálásnak sikerült a „súlyosság” kifejezést „súlyossá” változtatni, ami a lemma alakja és gyökérszava.

NLP használati esetek és a jövő

Az előző példák csak a felszínt kezdik megkarcolni, hogy mi is az a természetes nyelvi feldolgozás. A gyakorlatok és használati forgatókönyvek széles skáláját öleli fel, amelyek közül sokat használunk mindennapi életünkben. Íme néhány példa arra, ahol jelenleg használatos az NLP:

Prediktív szöveg: Amikor beír egy üzenetet az okostelefonon, az automatikusan olyan szavakat javasol, amelyek illeszkednek a mondatba, vagy amelyeket korábban használt.
Gépi fordítás: Széles körben használt fogyasztói fordítói szolgáltatások, például a Google Fordító, amely az NLP magas szintű formájának beépítésére szolgál a nyelv feldolgozásához és lefordításához.
Chatbotok: Az NLP az intelligens chatbotok alapja, különösen az ügyfélszolgálatban, ahol segítséget nyújthatnak az ügyfeleknek és feldolgozhatják kéréseiket, mielőtt valódi személlyel találkoznának.

Még több jön. Az NLP-használatokat jelenleg fejlesztik és alkalmazzák olyan területeken, mint a hírmédia, az orvosi technológia, a munkahelyi menedzsment és a pénzügy. Megvan rá az esély, hogy a jövőben teljes értékű, kifinomult beszélgetést folytathatunk egy robottal.

Ha többet szeretne megtudni az NLP-ről, rengeteg fantasztikus forrás található a webhelyen Az Adattudomány felé blog vagy a Standford National Language Processing Group hogy ki tudod nézni.