Alexa, Siri och Google förstår inte ett ord du säger

Röstassistenter som Alexa, Google Assistant och Siri har kommit långt under de senaste åren. Men trots alla deras förbättringar, en sak håller dem tillbaka: De förstår dig inte. De förlitar sig för mycket på specifika röstkommandon.

Taligenkänning är bara ett magiskt trick

Röstassistenter förstår dig inte. Inte riktigt i alla fall. När du pratar med ett Google Home eller Amazon Echo konverterar det i huvudsak dina ord till en textsträng och jämför sedan det med förväntade kommandon. Om den hittar en exakt matchning följer den en uppsättning instruktioner. Om den inte gör det, letar den efter ett alternativ till vad den ska göra baserat på vilken information den har, och om det inte fungerar får du ett felmeddelande som ”Jag är ledsen, men jag vet inte att .” Det är inte mycket mer än en slumpmässig handmagi att lura dig att tro att den förstår.

Den kan inte använda kontextuella ledtrådar för att göra den bästa gissningen, eller ens använda en förståelse för liknande ämnen för att informera sina beslut. Det är inte svårt att snubbla på röstassistenter heller. Medan du kan fråga Alexa ”Arbetar du för NSA?” och få ett svar, om du frågar ”Är du i hemlighet en del av NSA?” du får ett ”jag vet inte den där”-svaret (åtminstone när detta skrivs).

Människor, som verkligen förstår tal, fungerar inte så här. Anta att du frågar en människa: ”Vad är den där klarvain på himlen? Den som är välvd och full av randiga färger som rött, orange, gult och blått.” Trots att klarvain är ett påhittat ord, kan personen du frågade sannolikt räkna ut utifrån sammanhanget att du beskriver en regnbåge.

Även om du kan hävda att en människa omvandlar tal till idéer, kan en människa sedan tillämpa kunskap och förståelse för att komma fram till ett svar. Om du frågar en människa om de i hemlighet arbetar för NSA, kommer de att ge dig ett ja eller nej svar, även om det svaret är en lögn. En människa skulle inte säga ”jag vet inte den där” till en sådan fråga. Att människor kan ljuga är något som kommer med verklig förståelse.

Röstassistenter kan inte gå utöver sin programmering

Röstassistenter är i slutändan begränsade till programmerade förväntade parametrar, och att vandra utanför dem kommer att bryta processen. Det faktumet visar när tredjepartsenheter kommer in för att spela. Vanligtvis är kommandot för att interagera med dessa mycket svårhanterligt, vilket motsvarar ”berätta för enhetstillverkaren att beordra valfritt argument.” Ett exakt exempel skulle vara: ”Säg åt Whirlpool att pausa torktumlaren.” För ett ännu svårare att komma ihåg exempel Geneva Alexa skicklighet styr vissa GE-ugnar. En användare av färdigheten måste komma ihåg att ”berätta för Geneva” inte ”berätta för GE” sedan resten av kommandot. Och även om du kan be den att förvärma ugnen till 350 grader, kan du inte följa upp med en begäran om att öka temperaturen med ytterligare 50 grader. En människa kunde dock följa dessa önskemål.

Amazon och Google har arbetat mycket hårt för att övervinna dessa hinder, och det märks. Där du en gång var tvungen att följa sekvensen ovan för att styra ett smart lås, nu kan du säga ”lås ytterdörren” istället. Alexa brukade bli förvirrad av ”berätta ett hundskämt för mig”, men be om ett idag, så kommer det att fungera. De har lagt till varianter av de kommandon du använder, men i slutändan måste du fortfarande känna till rätt kommando att säga. Du måste använda rätt syntax, i rätt ordning.

Och om du tycker att det låter mycket som en kommandorad, har du inte fel.

Röstassistenter är en snygg kommandorad

En kommandorad är snävt definierad för att utföra enkla uppgifter, men bara om du känner till rätt syntax. Om du glider ur den korrekta syntaxen och skriver dyr istället för dir, kommer kommandotolken att ge dig ett felmeddelande. Du kan använda alias för att lättare komma ihåg kommandon, men du måste ha en uppfattning om vad de ursprungliga kommandona var, hur de fungerar och hur du använder alias effektivt. Om du inte tar dig tid att lära dig detaljerna i kommandoraden, kommer du aldrig att få ut mycket av det.

Röstassistenter är inte annorlunda. Du måste veta det korrekta sättet att säga ett kommando eller ställa en fråga. Och du behöver veta hur du ställer in grupper för Google och Alexa, varför det är viktigt att gruppera dina enheter och hur du namnger dina smarta enheter. Om du inte följer dessa nödvändiga steg kommer du att känna frustrationen av att be din röstassistent att stänga av studien bara för att få frågan, ”vilken studie” ska stängas av.

Även när du använder rätt syntax i rätt ordning kan processen misslyckas. Antingen med fel svar eller ett överraskande resultat. Två Google Homes i samma hus kan ge väder för lite olika platser även om de har tillgång till samma användarkontoinformation och internetanslutning.

I exemplet ovan ges kommandot ”Ställ in en timer på en halvtimme”. Google Home-hubben skapade en timer med namnet ”Hour” och frågade sedan hur lång timern skulle vara. Och ändå att upprepa samma kommando tre andra gånger fungerade korrekt och skapade en 30-minuters timer. Att använda kommandot ”Ställ in en timer på 30 minuter” fungerar korrekt på en mer konsekvent basis.

Även om det kan vara mer flytande att prata med ett Google Home eller Echo, fungerar röstassistenter och kommandorader på samma sätt under huven. Du kanske inte behöver lära dig ett nytt språk, men du behöver lära dig en ny dialekt.

Den snäva förståelsen för röstassistenter kommer att begränsa tillväxten

Inget av detta hindrar röstassistenter som Google Assistant och Alexa från att fungera tillräckligt bra (även om Cortana är en annan historia). Google Assistant och Alexa och sök på nätet efter frågor anständigt, men inte överraskande är Google bättre på sökning och kan svara på grundläggande frågor som mätkonverteringar och enkel matematik. Med ett korrekt inställt smart hem och välutbildad användare kommer de flesta smarta hemkommandon att fungera som avsett. Men detta kom genom arbete och ansträngning, inte intellektuell förståelse.

Timers och larm brukade vara förenklade. Med tiden lades namn till, sedan möjligheten att lägga till tid till en timer. De gick från enkla till mer komplicerade. Röstassistenter kan svara på fler frågor och varje dag medför nya färdigheter och funktioner. Men det är inte en produkt av självtillväxt som kommer från lärande och förståelse.

Och inget av det ger den inneboende förmågan att använda det som är känt för att nå det okända. För varje kommando och fråga som fungerar, kommer det alltid att finnas tre som inte gör det. Utan ett genombrott inom AI som ger en mänsklig förmåga till förståelse är röstassistenter inte alls assistenter. De är bara röstkommandorader – användbara i rätt scenario men begränsade till de scenarier som de har programmerats att förstå.

Med andra ord: maskiner lär sig saker, men kan inte förstå dem.