MidJourney vs. Stable Diffusion vs. Bing Image Creator

By rik

AI-konstgeneratorer: En ny era inom kreativitet

Artificiell intelligens omformar konstens värld på betydande sätt. En av de mest fängslande tillämpningarna är användningen av AI-drivna konstgeneratorer. Dessa sofistikerade verktyg kan analysera och tolka bilder, och utifrån dessa analyser skapa helt nya och unika konstverk.

I den här artikeln utforskar vi tre framstående AI-konstgeneratorer: MidJourney, Stable Diffusion och Microsoft Bing Image Creator. Vi undersöker vilken av dessa som presterar bäst när det gäller att generera högkvalitativa resultat baserat på specifika textinstruktioner.

MidJourney: Konsten av maskininlärning

MidJourney, skapat av David Holz, är en AI-konstgenerator som utnyttjar maskininlärning för att identifiera mönster och karakteristiska drag i existerande konstverk. Denna information används sedan för att producera helt nya konstnärliga skapelser.

MidJourney lanserades i öppen beta den 12 juli 2022. Innan MidJourney grundade Holz företaget Leap Motion, som revolutionerade användargränssnitt genom videoinspelning och handgester. År 2019 såldes Leap Motion till Ultrahaptics.

I och med MidJourneys växande popularitet har Holz delat med sig av sina tankar om teknologins inverkan på konst och samhälle. Han ser konstnärer som MidJourneys kunder, inte som konkurrenter, och tror att plattformen kan främja ökad kreativitet och experimentlust i idégenereringsfasen.

Det finns dock en oro kring potentiella upphovsrättsbrott i samband med MidJourneys träningsdata, som kan innehålla upphovsrättsskyddade verk av andra konstnärer.

Holz betonar att MidJourney är designad för att komplettera och förbättra människans förmågor snarare än att ersätta dem. Han använder bilarnas framfart som en jämförelse och påpekar att snabbheten hos bilar inte innebär att vi borde skära av våra ben.

Genom att utnyttja MidJourneys AI-bildgenerering kan konstnärer utforska nya möjligheter och generera en mängd idéer innan de skapar sina egna konstverk.

Stable Diffusion: En öppen källkodsrevolution

Stable Diffusion är en maskininlärningsmodell med öppen källkod som kan generera bilder från text, modifiera bilder baserat på text eller lägga till detaljer till bilder med låg upplösning eller få detaljer. Modellen har tränats på en enorm mängd bilder och kan generera resultat som konkurrerar med DALL-E 2 och MidJourney.

Emad Mostaque, grundare och VD för Stability AI, är företaget bakom Stable Diffusion. Stable Diffusion är en latent diffusionsmodell utvecklad av CompVis-gruppen vid LMU München och designades av Patrick Esser och Robin Rombach, som tidigare skapat den latenta diffusionsmodellarkitekturen som Stable Diffusion bygger på.

Genom ett samarbete mellan Stability AI, CompVis LMU, Runway, EleutherAI och LAION har Stable Diffusion blivit tillgänglig för allmänheten.

Stable Diffusion kan distribueras på olika plattformar, inklusive Windows- och Apple-enheter. Den lokala distributionen i en app kan bidra till att skydda användarnas integritet, vilket är att föredra framför en serverbaserad metod.

Microsoft Bing Image Creator: Kreativitet inom räckhåll

Microsoft introducerade Bing Image Creator, ett nytt verktyg som låter användare skapa egna bilder direkt i Microsoft Edge. Företaget har lanserat en serie verktyg som syftar till att stimulera kreativitet och personligt uttryck. Med Image Creator kan användare skapa anpassade bilder för att dela med sig av sina livshändelser eller för andra syften.

Användare kan enkelt nå Image Creator via sidofältet i Microsoft Edge. Microsoft har vidtagit proaktiva åtgärder för att säkerställa att verktyget används på ett ansvarsfullt sätt och inte sprider stötande material.

Företaget har infört en innehållspolicy som förbjuder viss användning av Image Creator. Användare kan också rapportera överträdelser av policyn. Dessutom har Microsoft implementerat teknologi för att hantera potentiella fördomar som kan uppstå inom generativ bildteknik.

I den här artikeln kommer vi att undersöka resultaten av varje AI-bildgenerator när de får samma textinstruktioner.

Textinstruktioner för generering

  • Instruktion 1: En modern jultomte på en släde dragen av renar en solig dag på en motorväg.
  • Instruktion 2: En närbild av ett djur med stora ögon som utstrålar oskuldsfullhet och gullighet.
  • Instruktion 3: En mänsklig astronaut som landar på en ny planet välkomnas av fientliga utomjordingar som riktar sina vapen.
  • Instruktion 4: Modern abstrakt konst på ett bokomslag för en roman som utspelar sig i New York City, i djärva ljusa färger.
  • Instruktion 5: En man som väljer mellan två tallrikar – en med pizza och en med en cheeseburgare.
  • Instruktion 6: En sårad krigare som rider sin häst på ett snötäckt berg med ett svärd i handen.
  • Instruktion 7: En abstrakt bild med olika nyanser som visar vattnets rörelse och flöde.
  • Instruktion 8: Lax i en flod med grönskande träd i bakgrunden.
  • Instruktion 9: Ett glas vatten på ett bord med en citron som pressas ner i det av en hand.
  • Instruktion 10: Utsikt över horisonten i en öken från personer som rider på en elefant.
  • Instruktion 11: En skog där sedlar växer på träd och fåglar är gjorda av mynt.
  • Instruktion 12: Skål med ramen, cel shading, kvällsbelysning, fotorealistisk.
  • Instruktion 13: Elon Musk är fattig och arbetslös.

Slutsats

Efter att ha granskat resultaten från MidJourney, Stable Diffusion och Bing Image Creator kan vi dra slutsatsen att det inte finns någon given vinnare.

Varje generator tolkar instruktioner på sitt unika sätt, och det finns vissa likheter i resultaten från Bing Image Creator och MidJourney. Stable Diffusion är effektiv när instruktionerna är mycket tydliga men kan ibland tolka ord bokstavligt. Även om MidJourney och Bing Image Creator i regel är framgångsrika kan de ibland generera resultat som inte helt överensstämmer med de givna instruktionerna.

Det är värt att notera att Bing Image Creator visar försiktighet när det genererar potentiellt stötande eller kränkande resultat och utfärdar en varning när en bild av en fattig och arbetslös Elon Musk begärs. Microsofts fokus på ansvarsfull teknik är ett viktigt steg.

MidJourneys neurala nätverksexpertis genererade dock en bild av en utblottad och övergiven Elon Musk. Slutsatsen är att varje generator tillgodoser behoven hos sin respektive användarbas.