Alexa, Siri och Google förstår inte ett ord du säger

By rik

Röststyrda assistenter, som Alexa, Google Assistant och Siri, har genomgått en betydande utveckling de senaste åren. Trots dessa framsteg finns det en grundläggande begränsning: deras förmåga att verkligen förstå användarens intentioner. De är i hög grad beroende av exakta röstkommandon.

Taligenkänning – Ett Illusionistiskt Trick

Röstassistenter har inte en genuin förståelse för det du säger. När du interagerar med en Google Home eller Amazon Echo, omvandlas dina ord i grunden till en textsträng. Denna sträng jämförs sedan med en databas med förväntade kommandon. Om en exakt matchning hittas, utförs de tillhörande instruktionerna. Om ingen matchning finns, gör assistenten en kvalificerad gissning baserat på tillgänglig information. Om inget av detta fungerar, får du ett meddelande som ”Jag är ledsen, jag förstår inte det”. Denna process kan liknas vid ett slags magi, som skapar illusionen av förståelse.

Röstassistenter saknar förmågan att använda kontextuella ledtrådar för att göra välgrundade gissningar eller att dra slutsatser baserat på kunskap om liknande ämnen. Det är lätt att ”lura” dem. Om du frågar Alexa ”Arbetar du för NSA?” kan du få ett svar. Men frågar du ”Är du i hemlighet en del av NSA?” är svaret troligen ”Jag vet inte”. (I alla fall i nuläget).

Människor, med en verklig språkförståelse, fungerar på ett annat sätt. Om du frågar en människa: ”Vad är den där klarvain på himlen? Den som är välvd och har ränder i rött, orange, gult och blått”, kan personen troligen gissa att du pratar om en regnbåge, trots att ordet ”klarvain” inte existerar. Detta beror på att människor omvandlar tal till idéer och tillämpar sin kunskap och förståelse för att nå fram till ett svar. Om du frågar en människa om de i hemlighet jobbar för NSA, får du ett ja eller nej, även om svaret är en lögn. En människa skulle inte säga ”jag vet inte” på den frågan. Förmågan att ljuga är ett tecken på verklig förståelse.

Röstassistenter är begränsade av sin programmering

Röstassistenter är begränsade till sina förprogrammerade parametrar. Att gå utanför dessa gränser leder ofta till att processen bryts. Detta blir tydligt när man använder enheter från tredje part. Kommandona för att interagera med dessa enheter är ofta krångliga, exempelvis ”säg till [enhetstillverkaren] att utföra [valfritt argument]”. Ett konkret exempel är: ”Säg till Whirlpool att pausa torktumlaren”. Ett ännu mer komplicerat exempel är Geneva Alexa-färdigheten, som styr vissa GE-ugnar. Användaren måste komma ihåg att säga ”säg till Geneva” och inte ”säg till GE” och sedan fortsätta med kommandot. Om du ber assistenten att förvärma ugnen till 175 grader, kan du inte följa upp med en begäran om att höja temperaturen med ytterligare 25 grader. En människa skulle kunna hantera detta utan problem.

Både Amazon och Google har lagt ner mycket arbete på att lösa dessa problem. Där du tidigare behövde använda en invecklad sekvens för att låsa ett smart lås, räcker det nu med att säga ”lås ytterdörren”. Alexa hade svårt att förstå ”berätta ett hundskämt”, men idag fungerar det. Utvecklarna har lagt till varianter av de kommandon du använder, men i grunden måste du fortfarande veta rätt kommando. Du måste använda rätt syntax i rätt ordning.

Och om det låter som en kommandorad, så är det inte långt ifrån sanningen.

Röstassistenter – en förklädd kommandorad

En kommandorad är strikt definierad för att utföra enkla uppgifter, men endast om du känner till den exakta syntaxen. Om du skriver fel syntax, till exempel ”dyr” istället för ”dir”, får du ett felmeddelande. Du kan använda alias för att göra kommandon lättare att komma ihåg, men du måste ändå förstå de ursprungliga kommandona, hur de fungerar och hur du effektivt använder alias. Om du inte bemödar dig med att lära dig kommandoradens detaljer kommer du inte att få ut mycket av den.

Röstassistenter fungerar på samma sätt. Du måste veta hur du formulerar kommandot eller frågan korrekt. Du behöver veta hur du ställer in grupper i Google och Alexa, varför det är viktigt att gruppera dina enheter och hur du namnger dem. Om du inte gör detta kommer du att uppleva frustrationen när du ber din röstassistent att stänga av lampan i arbetsrummet, bara för att få frågan: ”Vilket arbetsrum?”.

Även när du använder rätt syntax i rätt ordning kan det gå fel. Du kan få fel svar eller ett oväntat resultat. Två Google Homes i samma hus kan ge väderrapporter för olika platser, trots att de använder samma användarkonto och internetanslutning.

I exemplet ovan gavs kommandot ”Ställ en timer på en halvtimme”. Google Home-hubben skapade en timer med namnet ”Hour” och frågade sedan hur lång timern skulle vara. Men efter att samma kommando upprepades tre gånger fungerade det som det skulle och skapade en 30-minuters timer. Att använda kommandot ”Ställ en timer på 30 minuter” fungerar mer konsekvent.

Även om det kan kännas mer intuitivt att prata med en Google Home eller Echo, fungerar röstassistenter och kommandorader på liknande sätt i grunden. Du behöver kanske inte lära dig ett helt nytt språk, men du behöver lära dig en ny dialekt.

Den Begränsade Förståelsen Hämmas Tillväxt

Inget av detta hindrar röstassistenter som Google Assistant och Alexa från att fungera relativt bra (Cortana är en annan historia). Google Assistant och Alexa gör ett anständigt jobb med webbsökningar och kan svara på enkla frågor som mätomvandlingar och enkel matematik. Med ett välkonfigurerat smart hem och en välutbildad användare kommer de flesta kommandon att fungera som förväntat. Men detta har kommit till stånd genom arbete och ansträngning, inte genom intellektuell förståelse.

Timers och larm var tidigare enkla funktioner. Med tiden lades namn till, och sedan möjligheten att lägga till tid i en timer. De har gått från enkla till mer komplexa. Röstassistenter kan svara på fler frågor och nya färdigheter och funktioner tillkommer varje dag. Men detta är inte resultatet av en organisk tillväxt som kommer från lärande och förståelse.

Och ingen av dessa funktioner ger förmågan att tillämpa det man vet på det okända. För varje kommando som fungerar kommer det alltid att finnas tre som inte gör det. Utan ett genombrott inom AI som ger assistenterna en mänsklig förmåga till förståelse är de inte riktiga assistenter. De är bara röststyrda kommandorader – användbara i vissa situationer men begränsade till de situationer de är programmerade att förstå.

Med andra ord: maskiner lär sig saker, men de kan inte förstå dem.