Hur Alexa lyssnar efter Wake Words

Alexa lyssnar alltid men spelar inte in kontinuerligt. Den skickar ingenting till molnservrar förrän den hör dig säga väckningsordet (Alexa, Echo eller Computer). Men att lyssna efter vakna ord är svårare än du kanske tror.

Echo-hårdvara är inte så intelligent. Utan internet kommer varje begäran eller fråga du ställer att misslyckas. Detta beror på att dina kommandon skickas till molnet för tolkning och beslut. Amazon vill inte att varje konversation du har framför en smart högtalare ska spelas in, utan snarare bara de kommandon du ger den smarta högtalaren. Av denna anledning använder företaget ett wake word för att få den smarta högtalarens uppmärksamhet. För att åstadkomma detta använder Amazon en kombination av finjusterade mikrofoner, en kort minnesbuffert och neural nätträning.

Fininställda mikrofoner hittar din röst

Den ljusblå lysdioden kommer alltid att vara vänd mot din rösts riktning.

Röstassistenthögtalare, som Echo och Echo Dot, har vanligtvis flera inbyggda mikrofoner. Echo Dot, till exempel, har sju. Den arrayen ger enheterna flera förmågor, från att höra kommandon talade långt borta, till att separera bakgrundsljud från röster.

Det sistnämnda är särskilt användbart för att detektera vakna ord. Med hjälp av flera mikrofoner kan Echo lokalisera din plats i förhållande till var den sitter och lyssna i den riktningen samtidigt som den ignorerar resten av rummet.

Du ser detta i aktion när du använder det vakna ordet. Stå vid sidan av en Echo eller Echo Dot och säg väckningsordet. Lägg märke till att ringen lyser i mörkblått och sedan ljusare blått när den cirklar och ”pekar” mot dig. Flytta nu flera steg åt sidan och säg väckningsordet igen. Lägg märke till att de ljusblå lamporna följer dig.

Att veta var du är, hjälper enheten att fokusera på dig bättre och dämpa ljud som kommer från någon annanstans.

Kort minne hindrar högtalaren från att hålla för mycket

Echo-enheter har gott om lagring, men de använder inte mycket av det. Enligt Rohit Prasad, vicepresident på Amazon och chefsforskare för Alexa Artificial Intelligence, an Echo kan bara fysiskt lagra några sekunders ljud.

Genom att minska dess kapacitet ger Amazon dig inte bara mer integritet (det är en plats mindre som din röst lagras) utan förhindrar också Echo från att lyssna på hela konversationer, vilket begränsar dess fokus till att hitta det vakna ordet.

Föreställ dig att du hade en tresekunderskassett och en bandspelare. Anta att bandet gick tillbaka till början om och om igen när det nådde slutet. Om du började spela in en konversation skulle allt du sa för fyra sekunder sedan raderas och omedelbart spelas in. Det är vad ett Amazon Echo gör.

Den spelar in kontinuerligt men torkar allt den nyss spelade in samtidigt. Den korta uppmärksamheten betyder att allt den kan höra är ordet ”Alexa” och inte mycket mer. Tre sekunder är dock tillräckligt lång för att det ordet ska spelas in, granskas och ageras på lämpligt sätt.

Neural nätträning hjälper till med mönstermatchning

En representation av de lager som används av Amazons algoritmer.

Slutligen beror Amazon på utbildning i neurala nätverk för att lära ekot hur man matchar mönster. Ungefär som andra former av maskininlärning, tränar Amazon sina algoritmer genom att mata den instans efter instans av ordet Alexa (eller Computer, eller Echo, beroende på vilket wake word företaget tränar).

Tanken är att täcka varje böjning och accent, men också sammanhanget. Amazon vill att ditt Echo ska känna igen skillnaden när du pratar med det, när du pratar om det, eller kanske när du pratar med en person som heter Alexa. De riktade mikrofonerna hjälper också till med det målet.

Med varje ord som Echo hör, kör det ljud genom lager av algoritmer. Varje lager är utformat för att utesluta falska positiva resultat, leta efter ljudliknande eller sammanhangsledtrådar. Om en lagerkontroll passerar går ordet till nästa. Slutligen, när den lokala enheten bestämmer sig för att den hörde väckningsordet, börjar den spela in och skicka vidare ljudet till Amazons molnservrar. Amazon använder fyra algoritmer: en för varje väckningsord (Alexa, Computer, Echo) och en för Alexa Guard, som behandlar specifika ljud, såsom glaskrossning, som ett väckningsord.

Men även när en matchning inträffar, kör Amazon fortfarande mer komplicerade kontroller. Har du märkt att när någon säger ordet Alexa i ett TV-program eller en reklamfilm, får det vanligtvis inte något svar från ditt Echo? Det beror på att Amazon också gör en molnkontroll.

Molnkontroller utesluter vissa falska positiva resultat

Detta rolig Alexa-reklam kommer inte att väcka ditt Echo.

När företag gör reklamfilmer med Alexa kan de göra det skicka in ljudet till Amazon. Företaget kör ljudet genom liknande mönstermatchningsalgoritmer som används för att identifiera väckningsordet. När den exakta instansen är helt katalogiserad läggs den till i en databas.

Som en del av processen när du når ut till molnet innehåller ditt Echo information om det vakna ordet det hörde och kontrollerar databasen. Närhelst den hittar en matchning instruerar Amazon ditt Echo att ignorera väckningsordet, stänga av och kassera inspelat ljud.

Dessutom kontrollerar Amazon efter förekomster av det vakna ordet som talas samtidigt. Inte alla företag skickar in ljud till Amazon, så företaget kom med en ny säkerhetskopieringslösning. Efter att ha kontrollerat en databasmatchning, jämför företaget wake word-avtrycket med andra instanser som kommer in samtidigt. Det är osannolikt att två personer som säger Alexa samtidigt skulle låta exakt likadana, så om det finns en matchning vet Amazon att det sannolikt är en reklamfilm eller ett TV-program och ignorerar begäran.

Trots alla kontroller förekommer fortfarande falska positiva resultat. Du kan lyssna på vad ditt Echo har spelat in på Amazons integritetshubb, och du kommer sannolikt att hitta minst en falsk positiv i gänget. Men tekniken förbättras ständigt och så småningom vill Amazon att den ska fungera utan ett vakenord alls.