13 populära AI-modeller för att bygga generativa AI-applikationer

Vill du bygga dina egna generativa AI-applikationer? Här är en lista över AI-modeller som hjälper dig att komma igång.

AI-modeller är neurala nätverksarkitekturer som presterar extremt bra på specifika uppgifter. Dessa inkluderar konvolutionella neurala nätverksarkitekturer för bildklassificering och segmentering, generativa förtränade stora språkmodeller, diffusionsmodeller för bildgenereringsuppgifter och

Nyligen har AI-modeller för generativa AI-applikationer – för bild, tal, text och mer – blivit superpopulära. Vilket både beror på framsteg inom forskning och tillgång till högpresterande datorer.

Här är en snabb sammanfattning av de populära AI-modellerna jag kommer att diskutera nedan.

ModelKey-funktionerGPT-4En stor språkmodell med öppen källkod kan användas för att bygga LLM-drivna applikationerLamaMängd NLP-applikationer, från chatbots till kodningsassistenterFalkStor språkmodell med öppen källkod kan användas för att bygga LLM-drivna applikationerStabil diffusionText-till-bild, bildmålning, utmålning och uppskalningDALL-E 2Text-till-bild genereringViskaTaligenkänning, språköversättning och språkdetekteringStableLMLättviktsmodell för stor språk med öppen källkodKLÄMMAEn mängd olika NLP-uppgifter, såsom svar på frågor, sammanfattning och textgenereringInternLMEn stor språkmodell med öppen källkod; kan användas för att bygga LLM-drivna applikationerSegmentera Anything ModelZero-shot generalisering för en mängd olika bildsegmenteringsuppgifterWaveGANLjudgenereringCycleGAN och pix2pixBild-till-bild översättningBioGPTBiomedicinsk textgenerering och gruvdrift

Från AI-konst till att bygga en personlig kodningsassistent, du kan bygga en rad generativa AI-applikationer baserat på dina intressen. Här listar vi några intressanta AI-modeller du kan utforska – tillsammans med deras nyckelfunktioner.

Låt oss börja!

GPT-4

Från att generera resplanen för dina kommande resplaner till att utarbeta personliga brev som passar arbetsbeskrivningen, ChatGPT har blivit en del av våra dagliga uppgifter. GPT-4dess efterföljare, är en ännu kraftfullare stor språkmodell.

Det är OpenAI:s mest kraftfulla AI-system med bättre resonemangsmöjligheter och prestanda än ChatGPT.

Här är ett tekniskt föredrag om hur GPT-4 fungerar och hur du kan bygga applikationer med den.

Du kan komma åt ChatGPT-gränssnittet med en gratis OpenAI-konto. För att komma åt GPT-4 bör du dock ha ett ChatGPT Plus-abonnemang.

Här är några applikationer du kan bygga med dessa stora språkmodeller:

  • Anpassade chatbots
  • Förbättra CRM-plattformar
  • Frågesvar på en anpassad korpus
  • Andra uppgifter som sammanfattning och textgenerering

Därefter kommer vi att gå över några stora språkmodeller med öppen källkod.

Lama

Meta AI släppt Lama, en grundläggande stor språkmodell med 65B parametrar, i februari 2023. Därefter släpptes LLama 2 med avsevärda förbättringar jämfört med den tidigare utgåvan. Du kan komma åt följande:

  • Llama Chat: Finjusterad Llama 2
  • Code Llama: Byggd på Llama 2; tränad på över 500B kodtokens; stöder kodgenerering i alla de mest populära programmeringsspråken

Du kan ladda ner och använda Llama-modellerna genom att begär åtkomst. Kolla in den här handledningen för att lära dig hur du använder LLama 2 i dina Python-applikationer:

Falk

Falk är ännu en språkmodell med öppen källkod av Technology Innovation Institute (UAE). Alla modeller i Falcon LLM-sviten är öppen källkod och är tillgängliga för öppen åtkomst. Så du kan använda dem för att bygga LLM-drivna applikationer.

För närvarande finns det fyra modellstorlekar: 1.3B, 7.5B, 40B och 180B. För att prestera bättre än på flera benchmarks tränades 180B-modellen på en datauppsättning av 3,5T-tokens. Falcon LLM presterar i paritet med andra ledande open source LLM:er.

Falcon 180B öppen källkod LLM uppnår prestanda nära den för GPT-4. Kolla in den här handledningen som täcker Falcon 180B, hur du kan använda den, hårdvarukraven och hur du jämför med GPT-4:

Stabil diffusion

Stabil diffusion en text-till-bild-modell för bildgenerering och andra kreativa AI-applikationer. Den kan också användas för bilduppskalning och målning.

Stabil Diffusion XLsom släpptes i juli 2023, erbjuder flera förbättringar, inklusive:

  • generera beskrivande bilder från mycket kortare uppmaningar
  • möjligheten att generera stödtext i bilder
  • bildmålnings- och övermålningsuppgifter
  • interagerar med en källbild för att generera varianter

Om du vill lära dig hur diffusionsmodeller fungerar – metoden bakom magin – kolla in Hur diffusionsmodeller fungeraren gratis kurs av DeepLearning.AI.

DALL-E 2

DALL-E 2 från Open AI är en annan populär modell för text-till-bildgenerering. Du kan använda den för att skapa realistiska bilder och konst från text – beskrivning av naturligt språk.

Den kan användas för följande uppgifter:

  • bildgenerering från textuppmaningar
  • bildmålning och utmålning
  • genererar variationer av en bild

Du kan komma åt DALL-E 2 via OpenAI API eller OpenAI labs webbgränssnitt.

Viska

Öppna AI Viska är en taligenkänningsmodell som kan användas för en mängd olika applikationer, inklusive:

  • språkidentifiering
  • taligenkänningsuppgifter som transkription av ljudfiler
  • talöversättning

Här är en handledning om hur man konverterar tal till text med OpenAI Whisper API:

För att testa modellen kan du installera whisper (openai-whisper) med hjälp av pip och komma åt API:t från ett Python-skript för att transkribera ljudfiler. Vidare kan du använda andra stora språkmodeller för att sammanfatta transkriptionen och bygga en ljudfil → sammanfattningspipeline.

StableLM

StableLM är en öppen källkod LLM-svit från Stability AI. Parametrarna 3B och 7B är tillgängliga för närvarande. Efterföljande utgåvor kommer att innehålla större modeller med 15B – 65B parametrar.

Så om du vill experimentera med lätta, öppen källkod LLM i dina applikationer, kan du prova StableLM.

KLÄMMA

KLÄMMA står för Contrastive Language-Image Pre-training. Det är ett neuralt nätverk, en multimodal modell, tränad på ett stort dataset av (text, bild) par. Modellen utnyttjar naturliga språkdata, försöker lära sig – från de naturliga språkbeskrivningarna – bildernas semantik. CLIP-modellen kan förutsäga den mest relevanta texten givet en bild.

Med CLIP kan du utföra nollbildsklassificering – utan dyr förträning och finjustering. Vidare kan du utnyttja funktionerna i CLIP och vektordatabaser för att bygga intressanta applikationer i:

  • text-till-bild och bild-till-bild-sökning
  • omvänd bildsökning

Segmentera Anything Model

Bildsegmentering är uppgiften att identifiera pixlar som tillhör ett specifikt objekt i en bild. Meta AI släppt Segmentera Anything Model (SAM) som kan användas för att segmentera vilken bild som helst och klippa ut objekt från dem.

Bildkälla: Segmentera vad som helst

Du kan använda uppmaningar för att ange vad som ska segmenteras i en bild. SAM stöder för närvarande följande uppmaningar: begränsningsrutor, masker och förgrunds- och bakgrundspunkter. Modellen har också utmärkta zero-shot generaliseringsprestanda på tidigare osynliga bilder. Så ingen explicit utbildning krävs.

Prova på SAM-modell i din webbläsare!

InternLM

InternLM är en språkmodell med öppen källkod. Du kan prova 7B-basmodellen och chattmodellen med öppen källkod. Modellen stöder ett sammanhangsfönster på 8K. Dessutom stöder InternLM kodtolkare och funktionsanrop.

InternLM finns också tillgängligt i HuggingFace-transformatorbiblioteket. Du kan utnyttja det lätta ramverket för förträning. Det stöder också att bygga och distribuera applikationer med hjälp av LMDeploy. Så du kan bygga generativa NLP-applikationer från början till slut med InternLM.

WaveGAN

WaveGAN är en modell för ljudgenerering. Det hjälper till att syntetisera råljud från prover av riktig ljuddata.

Du kan träna WaveGAN på en datauppsättning av godtyckliga ljudfiler och syntetisera ljud utan omfattande förbearbetning.

CycleGAN och Pix2Pix

Hittills har vi täckt tal-till-text, text-till-bild och andra modeller för olika naturliga språkbehandlingsuppgifter. Men vad händer om du vill utföra bild-till-bild översättning? Här kan du använda CycleGAN för att lära sig en mappning från källdomänen till måldomänen för att utföra bild-till-bild-översättning.

Till exempel, med tanke på bilden av en sjöstrand under vintern, kanske du vill översätta samma bild när säsongen är sommar. På bilden av en häst kanske du vill byta ut hästen mot en zebra samtidigt som du behåller samma bakgrund. CycleGAN lämpar sig väl för sådana uppgifter.

Modellen pix2pix kan användas för bild-till-bild översättning; modellens nyckelfunktioner inkluderar:

  • rekonstruera objekt från kantkartor och
  • färglägga bilder

Du kan hitta PyTorch-implementeringarna av CycleGAN och pix2pix på GitHub.

BioGPT

BioGPT från Microsoft är en transformatormodell som du kan använda för biomedicinsk datautvinning och textgenerering. Den använder sekvens-till-sekvens-modellimplementeringarna som tillhandahålls av fairseq.

Fairseq från Facebook research (nu Meta AI) är en verktygslåda som tillhandahåller implementeringar av sekvens-till-sekvens-modeller för uppgifter som:

  • språkmodellering
  • översättning
  • sammanfattning

Både förutbildade modeller och finjusterade modellkontrollpunkter finns tillgängliga. Du kan ladda ner modellen antingen från URL:en eller från HuggingFace-hubben.

BioGPT-modellerna är också en del av HuggingFace-transformatorbiblioteket. Så om du arbetar inom det biomedicinska området kan du använda BioGPT för att bygga domänspecifika applikationer.

Avslutar

Jag hoppas att du hittat några användbara modeller som du kan bygga generativa AI-applikationer med. Även om den här listan inte är uttömmande, har vi täckt några av de mest populära modellerna du kan använda för att bygga appar för text- och ljudgenerering, tal-till-text-transkription, bildsökning och mer.

När du bygger applikationer med hjälp av stora språkmodeller bör du vara medveten om de vanliga fallgroparna, till exempel felaktig information och hallucinationer. Och du kan möta begränsningar när du finjusterar modeller eftersom finjusteringsprocessen ofta är resurskrävande.

Så om du är en utvecklare är det dags att gå med i AI-revolutionen och börja bygga intressanta AI-applikationer! Du kan prova dessa modeller i Google Colab eller andra anteckningsböcker för samverkande datavetenskap.