ChatGPT-4 vs ChatGPT-3.5 Standard vs. ChatGPT-3.5 Legacy: Skillnader testade

ChatGPT 4.0: En djupdykning i den nya generationens AI-chattbot

Den senaste versionen av ChatGPT, 4.0, har skapat stor uppståndelse inom AI-världen. Frågan är dock, lever den verkligen upp till hypen och överträffar sin föregångare? Låt oss granska den närmare.

ChatGPT markerade början på en våg av automatisering, där stora teknikföretag som Google och Microsoft och många andra AI-fokuserade företag också har kommit med egna liknande lösningar.

Det finns nu flera chattbotar som konkurrerar med ChatGPT, många av dessa kommer inte från de största teknikjättarna.

Trots konkurrensen, är det ingen tvekan om att ChatGPT fortfarande är ledande inom AI-chattbotar. Dess förmåga att hantera olika uppgifter, inklusive matematik, poesi, och till och med blogginlägg, har gjort den till ett verktyg som människor använder för allt från kreativa uttryck till att initiera rättsliga processer.

Exempelvis använder DoNotPay GPT-4 för att skapa ”ett-klicks-processer” för att stämma telefonförsäljare för 1500 dollar. Föreställ dig att ta emot ett samtal, klicka på en knapp, och få en transkribering och ett utkast till en stämningsansökan på 1000 ord. GPT-3.5 klarade inte uppgiften, men GPT-4 hanterar det med bravur: pic.twitter.com/gplf79kaqG

— Joshua Browder (@jbrowder1) 14 mars 2023

Denna utveckling har oroat många yrkesverksamma, som fruktar att deras kompetenser snart kan bli obsoleta.

Som en kommentar på LinkedIn lyder:

“AI kommer inte att ersätta dig, men en person som använder AI kan.”

Låt oss utforska de senaste uppdateringarna i ChatGPT och se vad som skiljer den från tidigare versioner.

ChatGPT: Gammal, Standard och den nya Uppdateringen

Betalande användare har tillgång till tre versioner: Legacy (3.5), Default (3.5) och den senaste ChatGPT-uppdateringen (4).

Låt oss granska skillnaderna i prestanda och kapacitet, enligt OpenAI:

Källa: OpenAI

Gratisanvändare kan endast använda Legacy 3.5, medan premiumabonnenter får tillgång till alla tre versionerna för att själva utvärdera vilken som passar dem bäst.

Kort sagt, de betalda alternativen ger mer precisa resultat i en acceptabel hastighet. Dessa skillnader blir mest tydliga vid komplexa eller kreativa frågor.

Parameter ChatGPT 4 ChatGPT 3.5
Bar Exam Score Topp 10% Botten 10%
AI2 Reasoning Challenge (ARC) 96.3% 85.2%
Python Coding Score 67% 48.1%
Visuell tolkning Ja Nej
Kontext Över 25k ord Mindre

Källa: OpenAI

ChatGPT 4 kan även hantera visuella ingångar.

Men nu lämnar vi teorin och testar dessa versioner i praktiken.

Obs: Vissa bilder i de kommande avsnitten kan se otydliga ut. Högerklicka på bilden och välj ”Öppna i ny flik” för att se den korrekt.

Matematiska Utmaningar

Som civilingenjör kunde jag inte motstå att ge dem några grundläggande matematiska problem. Vi börjar med enkla algebraiska ekvationer.

Steg I

Många känner igen ekvationen ax²+bx+c=0, där vi ska lösa X. Jag gav följande enkla uppgift: ”Lös för x: x² + x – 6 = 0”

Alla versionerna gav samma rötter (X= -3,2). Legacy och Update använde i stort sett samma metod, den klassiska formeln (som de flesta elever), för att finna resultatet.

Default 3.5 presenterade däremot två metoder, inklusive faktorisering, en metod som vanligen används av erfarna elever när de löser den här typen av ekvationer.

Steg II

Jag utmanade dem sedan med en något mer komplex kubisk ekvation: x³ -12x² + 48x – 64 = 0.

Detta exemplifierar verkligen varför ChatGPT 4 kallas för ”uppdateringen”.

Här är resultaten:

Trots all hype, lyckades varken ChatGPT Legacy eller Default lösa denna enkla kubiska ekvation. Legacy lyckades dock hitta två av rötterna korrekt, medan Default helt misslyckades.

Uppdateringen var den tydliga vinnaren i steg två. Den löste ekvationen helt korrekt och presenterade alla tre rötterna med en tydlig förklaring.

Logiskt Tänkande

De flesta grundläggande matematiska problem har en given lösning. Om du känner till teorin och formeln kan du enkelt mata in värdena och få fram resultaten.

ChatGPT, som är en AI, kan snabbt lösa sådana problem. Logiskt resonemang är dock något annat, och här kan AI lätt misslyckas.

Steg I

Jag ställde dem inför ett klassiskt logikproblem:

A är äldre än B.
C är äldre än A.
B är äldre än C.
Är det tredje påståendet sant eller falskt om de två första påståendena är sanna?

Alla ChatGPT-versionerna svarade korrekt att det tredje påståendet är falskt.

Därefter ersatte jag bokstäverna med namn, och resultaten kan förvåna dig:

Default 3.5 presterade återigen undermåligt och blev förvirrad av den här lilla förändringen. Legacy och Update klarade uppgiften galant.

Steg II

Syftet med steg I och II är att tydliggöra skillnaden när komplexiteten ökar. Denna skillnad avspeglas tydligt mellan uppdateringen och de övriga två versionerna.

Här fick de ett enkelt logiskt pussel:

En morgon efter soluppgången stod Rohit vänd mot en stolpe. Skuggan av stolpen föll rakt till höger om honom. Åt vilket håll var han vänd?
a. Norr
b. Väst
c. Söder
d. Öst

Den här uppgiften resulterade i ett felaktigt svar från Legacy, medan Default gav vaga förklaringar som ledde till fel slutsats.

Endast uppdateringen gav det korrekta svaret med tydliga argument.

Brevskrivning

Att skriva brev för juridiska ändamål kan vara svårt, men ibland kan en stark inledande formulering vara tillräcklig.

Jag gav dem följande uppgift: ”Skriv ett brev till Tim Cook där du begär att han ska överlämna Apple till mig på grund av att han inte svarade på en av mina tweets.”

Låter roligt, eller hur? Låt oss se vad AI kan göra av detta.

Legacy 3.5 svarade som en robot och producerade ett brev som skulle göra mig till ett åtlöje om det någonsin nådde fram till mottagaren.

Default var inte bättre. Den avfärdade mig ungefär som en grinig gubbe skulle avfärda en femåring.

Trots att argumenten var korrekta, så tog den inte med någon humor eller fantasi.

Trots att uppgiften var relativt enkel, krävdes det eftertanke och kreativitet, och det var här ”storebror”, uppdateringen, imponerade mest:

För det första var brevet nästan perfekt formulerat. För det andra slapp jag googla Apples huvudkontorsadress (även om man bör kontrollera sådana uppgifter).
För det tredje var tonen i brevet officiell, med en humoristisk touch. Avsikten med brevet var dessutom tydlig redan i ämnesraden.

Samtidigt framgick det att brevet kom från ett missnöjt Apple-fan.

Detta visar att ChatGPT 4 (uppdateringen) är långt före sina föregångare. Den är intelligent och visar till och med lite sunt förnuft, vilket gör den till mer än bara en tråkig chattbot.

Poesi

När ChatGPT lanserades trodde jag att poesi kunde vara dess svaga sida.

Poesi kräver känsla, kreativitet och mycket ansträngning av en människa för att skapa något som verkligen berör läsarna.

Jag ville egentligen att AI skulle misslyckas. Men sedan, publicerade en kollega ett ChatGPT-genererat poem som imponerade på alla, långt innan den här 4.0-uppdateringen kom.

Steg I

Jag gav våra kandidater följande uppgift: ”Uttryck poetiskt om varför eller varför inte att servera hamburgare, tillsammans med deras nuvarande meny, kan gynna Domino’s pizzakedja. Håll det under 100 ord.”

Ser du skillnaden?

Standardversionen var ultrakort, endast 32 ord, och utnyttjade inte möjligheten att visa sin kreativitet.

Legacy använde maximalt antal ord, men drog slutsatsen att servera pizzor och hamburgare inte är riskabelt, och kommer att leda till framgång, vilket inte är helt sant.

Uppdateringens poesi bestod av endast 53 ord, vilket slösade bort nästan hälften av det tillåtna ordantalet. Däremot var den tydlig om potentiella vinster och risker och kunde inte dra någon definitiv slutsats, vilket, antar jag, är mer mänskligt än de andra två.

Steg II

Därefter bad jag alla att ”förklara poesin för en femåring.”

Intressant nog kunde Legacy inte tolka kontexten, och förklarade ”poesi” bokstavligt. Default lyckades tolka sammanhanget och sammanfattade det i ett rimligt stycke.

ChatGPT 4 fortsatte sin trend och förenklade sin kreativitet samtidigt som den lyckades behålla den poetiska tonen.

ChatGPT Premium vs ChatGPT Gratis

Gratisversionen är långsammare, mindre precis, och kan inte jämföras med ChatGPT 4. Men den är inte helt värdelös.

För att göra en rättvis jämförelse, gav jag den samma uppgifter som jag använde för att testa Legacy, Default, och Update.

🔵 Matematik: Den löste andragradsekvationerna, men gav fel svar för den kubiska ekvationen (likt Legacy och Default).

🔵 Logiskt resonemang: Den klarade första steget med bokstäver och namn, men misslyckades med den andra (likt Legacy).

🔵 Brev: Den skrev inte brevet utan ansåg att uppgiften var oetisk och olämplig (likt Default).

🔵 Poesi: Den genererade ett poem på 30+ ord och gav en bra förklaring (liknande Default).

Vi kan därför dra slutsatsen att gratisversionen inte är dålig. Den är jämförbar med Default 3.5 och till och med bättre i vissa avseenden.

Läs också: Kraftfulla uppmaningar för att höja din ChatGPT-upplevelse

Vägen framåt

Ryktet att AI kommer att ta över många jobb i framtiden är inte helt ogrundat.

Automatiseringen började inom tillverkningsindustrin, men den brer nu ut sig på många andra områden.

Personligen är AI mycket snabbare än mig på att lösa kubiska ekvationer, skapa poesi, eller skriva brev. Men faktumet att AI sällan säger NEJ till en uppmaning och knappt lär sig av sina misstag gör att vi människor fortfarande har ett försprång.

Jag upprepar, AI kommer inte att ersätta oss, men någon som använder AI kan göra det.

På adminvista.com använder vårt marknadsföringsteam ChatGPT på många intressanta sätt. Till exempel, nådde vi nyligen 100 miljoner visningar, och vår VD vill ge tillbaka detta till publiken via en utlottning.

Vårt marknadsföringsteam behövde en titel för att fånga läsarnas uppmärksamhet. De gav en uppmaning och bad ChatGPT att föreslå några alternativ, så här:

Vi använder den också för att sammanfatta innehåll, granska grammatik och få förslag på titlar för nya artiklar, och mycket annat.

Det finns många sätt att dra nytta av AI och bli mer effektiva, istället för att se AI som något värdelöst.

Det är viktigt att komma ihåg att det alltid måste finnas någon (människa) som granskar AI:s arbete, eftersom det kan vara (mycket) felaktigt eller vilseledande.

Uppdateringen är verkligen imponerande!

Under mitt korta test kändes ChatGPT 4 mer kreativ, förstående och realistisk. Men det är fortfarande en maskin, och kan ge felaktiga svar med tillförsikt.

Det som är mest imponerande är hur stor uppgradering OpenAI har gjort på detta projekt bara på några månader.

Jag ser verkligen fram emot att se vad den nästa uppdateringen kommer att göra!

PS: Den är inte bara ett chattfönster. Utnyttja dess kraft med de här bästa ChatGPT Chrome-tilläggen. Har du någonsin funderat på att integrera ChatGPT med Siri?