MidJourney vs Stable Diffusion vs Bing Image Creator

A mesterséges intelligencia figyelemre méltó módon megváltoztatja a művészeti világot. Az AI egyik lenyűgöző alkalmazása a művészeti szegmensben a leíró művészeti generátorok felhasználása. Ezek a generátorok képesek megvizsgálni és értelmezni a képeket, és elemzésük alapján teljesen új műalkotásokat generálni.

Ebben a cikkben három ilyen mesterséges intelligencia-generátort tárgyalunk: a MidJourney-t, a Stable Diffusion-t és a Microsoft Bing Image Creator-t, amelyek közül a három közül melyik éri el a legjobb eredményt az utasítások alapján.

MidJourney

A David Holz által alapított MidJourney egy mesterséges intelligencia-generátor, amely gépi tanulást használ a meglévő műalkotások mintáinak és jellemzőinek azonosítására, amelyeket aztán új darabok létrehozására lehet felhasználni.

  Ezzel a 8 alkalmazással egyszerűen rögzíthet telefonhívásokat iPhone-on

A MidJourney 2022. július 12-én lépett be a nyílt bétaverzióba. A MidJourney elindítása előtt Holz társalapítója a Leap Motion nevű startupnak, amely videorögzítés és kézmozdulatok segítségével átalakította a felhasználói felületeket. 2019-ben eladta a Leap Motiont az Ultrahapticsnak.

A MidJourney népszerűségének növekedésével Holz megosztotta meglátásait a technológiáról és annak a művészetre és társadalomra gyakorolt ​​hatásáról. Holz a művészeket a MidJourney vásárlóinak tekinti, nem versenytársainak, és úgy véli, hogy a platform nagyobb kreativitást és kísérletezést tesz lehetővé az ötletelési fázisban.

Azonban aggodalomra ad okot a szerzői jogok esetleges megsértése a MidJourney tréningkészletéből, amely más művészek szerzői joggal védett műveit is tartalmazhatja.

Holz hangsúlyozza, hogy a MidJourney célja az emberi képességek javítása, nem pedig helyettesítése. Az autókhoz hasonlítja, és elmagyarázza, hogy attól, hogy az autók gyorsabbak, mint az emberek, még nem jelenti azt, hogy le kell vágnunk a lábunkat.

A MidJourney mesterséges intelligencia képgenerálásának használatával a művészek új lehetőségeket fedezhetnek fel, és számos ötletet generálhatnak, mielőtt elkészítenék saját munkáikat.

  8 javítási mód Sok el nem küldött multimédiás üzenetre nem lehet üzenetet küldeni

Stabil diffúzió

A Stable Diffusion egy nyílt forráskódú gépi tanulási modell, amely képes képeket generálni szövegből, módosítani a képeket szöveg alapján, vagy részleteket kitölteni az alacsony felbontású vagy alacsony részletgazdagságú képeken. Több milliárd képre betanították, és olyan eredményeket tud produkálni, amelyek hasonlóak a DALL-E 2 és a MidJourney által elért eredményekhez.

Emad Mostaque, a Stability AI alapítója és vezérigazgatója a Stable Diffusionért felelős vállalat. A Stable Diffusion egy látens diffúziós modell, amelyet a CompVis csoport fejlesztett ki az LMU Münchenben, és Patrick Esser és Robin Rombach tervezte, akik korábban megalkották a Stable Diffusion által használt látens diffúziós modell architektúrát.

A Stability AI, a CompVis LMU, a Runway, az EleutherAI és a LAION együttműködése révén a Stable Diffusion elérhető a nyilvánosság számára.

A stabil diffúzió különféle platformokon telepíthető, beleértve a Windows és az Apple eszközöket. Az eszközön történő telepítés alkalmazása egy alkalmazásban megóvhatja a felhasználók adatait, ami előnyösebb, mint a szerveralapú megközelítés.

Microsoft Bing Image Creator

A Microsoft bemutatta a Bing Image Creator nevű új eszközt, amely lehetővé teszi a felhasználók számára, hogy saját képeiket közvetlenül a Microsoft Edge-ben készítsék el. A cég kiadott egy olyan alkotói eszközcsomagot, amely a kreativitás és az önkifejezés ösztönzésére szolgál. Az eszköz lehetővé teszi a felhasználók számára, hogy személyre szabott képeket készítsenek életfrissítéseik megosztásához, vagy bármilyen más célra, amire szükségük lehet.

A felhasználók könnyen elérhetik az Image Creator alkalmazást a Microsoft Edge oldalsávjáról. A Microsoft proaktív intézkedéseket tett annak biztosítására, hogy az eszközt felelősségteljesen használják, és ne segítse elő a sértő tartalom terjedését.

  A 4 legjobb nem hivatalos Microsoft OneDrive alkalmazás Linuxhoz

A vállalat olyan tartalomszabályzatot állított be, amely bizonyos esetekben megtiltja az Image Creator használatát, és a felhasználók jelenthetik az irányelv megsértését. Ezenkívül a Microsoft technológiát vezetett be a generatív képtechnológiában felmerülő lehetséges torzítások kezelésére.

Ebben a cikkben egy utazásra indulunk, hogy kiértékeljük az egyes leíró mesterséges intelligencia-képgenerátorok eredményeit, amikor azonos szöveges felszólítást kapunk.

1. kérdés: Modern Mikulás szánon, akit rénszarvasok húznak egy meleg, ragyogó napsütéses napon az autópályán

2. prompt: Közeli felvétel egy nagy szemű állatról, amely megörökíti ártatlanságát és cukiságát

3. prompt: Egy új bolygó leszállását játszó emberi űrhajóst ellenséges idegen lények várják fegyvereiket előrángatva

4. prompt: Modern absztrakt művészet egy New York-i regényhez tartozó könyv borítója merész élénk színekkel

5. kérdés: Egy férfi két tányér között dönt – az egyiken pizza, a másikon sajtburger van

6. lépés: Egy sebesült harcos, aki lován ül egy havas hegyen, karddal a kezében

7. prompt: Különböző árnyalatokat használó absztrakt kép, amely a víz mozgását és áramlását mutatja

8. prompt: Lazac a folyóban buja zöld fákkal a háttérben

9. kérdés: Egy pohár víz az asztalon, amelybe kézzel egy citromot préselnek

10. prompt: Kilátás a horizontra egy sivatagban a benne elefánton lovagló emberek szemszögéből

11. kérdés: Egy erdő, ahol papírpénz nő a fákon, és madarak érmékből állnak

12. prompt: Ramen tál, cel-árnyékolás, esti világítás, fotorealisztikus

13. kérdés: Elon Musk szegény és munkanélküli

Ítélet

A MidJourney, a Stable Diffusion és a Bing Image Creator eredményeinek értékelése során nyilvánvaló, hogy nincs végleges győztes.

Mindegyik generátor sajátos módon értelmezi a promptokat, a Bing Image Creator és a MidJourney kimenetei hasonlóságokkal. A stabil diffúzió akkor hatékony, ha a felszólítások világos leírást tartalmaznak, de gyakran túlságosan szó szerint veszik a szavakat. Míg a MidJourney és a Bing Image Creator általában sikeresek, időnként olyan eredményeket produkálnak, amelyek nem felelnek meg az utasításoknak.

Nevezetesen, a Bing Image Creator körültekintően jár el bármilyen visszaélésszerű vagy uszító kimenet létrehozása során, és figyelmeztető üzenetet ad ki, amikor a rendszer felkéri, hogy hozzon létre egy képet egy szegény és munkanélküli Elon Muskról. Dicséretes, hogy a Microsoft ilyen védelmi intézkedéseket fogadott el.

Eközben MidJourney neurális hálózati szakértelme egy nyomorgó és elhagyatott Elon Musk képét generálta. Ebből arra következtethetünk, hogy minden generátor megfelel a saját felhasználói bázisának.