Alexa lyssnar aktivt, men den spelar inte in allt i din omgivning. Inspelningen börjar först när den uppfattar aktiveringsordet, som kan vara ”Alexa”, ”Echo” eller ”Computer”. Att känna igen just detta ord är mer komplext än man kanske tror.
Hårdvaran i Echo-enheter är inte särskilt avancerad. Utan internetanslutning kan den inte svara på några kommandon eller frågor. Det beror på att dina röstkommandon skickas till molnet för analys och bearbetning. Amazon vill inte spela in alla dina samtal i närheten av högtalaren, utan enbart de kommandon som riktas till den. Därför använder de ett aktiveringsord. Detta möjliggörs genom en kombination av avancerade mikrofoner, ett korttidsminne och träning av neurala nätverk.
Avancerade mikrofoner lokaliserar din röst
Den blå ljusdioden indikerar alltid i vilken riktning din röst kommer ifrån.
Röststyrda assistenthögtalare, som Echo och Echo Dot, är utrustade med flera inbyggda mikrofoner. Echo Dot har till exempel sju. Dessa mikrofoner ger enheterna möjligheten att uppfatta kommandon som uttalas på avstånd och att isolera röster från bakgrundsljud.
Det senare är särskilt viktigt för att identifiera aktiveringsord. Med hjälp av flera mikrofoner kan Echo bestämma var du befinner dig i förhållande till enheten och fokusera på din röst samtidigt som den ignorerar andra ljud i rummet.
Du kan observera detta när du använder aktiveringsordet. Stå bredvid en Echo eller Echo Dot och säg aktiveringsordet. Lägg märke till att ringen lyser i en mörkblå färg och sedan blir ljusare blå när den cirkulerar och ”pekar” mot dig. Flytta dig sedan några steg åt sidan och säg aktiveringsordet igen. Du kommer se att de ljusblå lamporna följer dig.
Genom att veta din position kan enheten bättre fokusera på din röst och filtrera bort ljud från andra håll.
Ett kort minne förhindrar överdriven lagring
Echo-enheter har gott om lagringsutrymme, men de använder inte mycket av det. Enligt Rohit Prasad, vice VD på Amazon och chefsforskare för Alexa Artificial Intelligence, kan en Echo bara spara några sekunders ljud i sitt minne.
Genom att begränsa minneskapaciteten skyddar Amazon din integritet (det finns en mindre plats där din röst kan sparas) och förhindrar även att Echo lyssnar på hela konversationer. Istället fokuserar den på att hitta aktiveringsordet.
Tänk dig en kassettbandspelare med ett tresekundersband som raderar det gamla och spelar in det nya. Detta sker kontinuerligt. Om du började spela in ett samtal skulle allt du sa för fyra sekunder sedan raderas. Det är ungefär så en Amazon Echo fungerar.
Den spelar in kontinuerligt, men raderar det nyligen inspelade samtidigt. Den korta uppmärksamhetstiden innebär att den främst uppfattar aktiveringsordet ”Alexa” och inte mycket mer. Tre sekunder är dock tillräckligt lång tid för att ordet ska spelas in, granskas och åtgärdas.
Träning av neurala nätverk för mönsterigenkänning
En illustration av lagren som används i Amazons algoritmer.
Slutligen använder Amazon träning av neurala nätverk för att lära Echo att känna igen mönster. Liksom med andra former av maskininlärning tränar Amazon sina algoritmer genom att mata dem med otaliga instanser av aktiveringsorden ”Alexa”, ”Computer” eller ”Echo”.
Målet är att täcka alla böjningar, accenter och sammanhang. Amazon vill att din Echo ska kunna skilja på när du pratar med den, när du pratar om den och när du pratar med en person som heter Alexa. De riktade mikrofonerna bidrar också till detta.
Varje ljud som Echo uppfattar går genom flera lager av algoritmer. Varje lager är konstruerat för att eliminera falska positiva resultat och leta efter ljudlikheter eller ledtrådar i sammanhanget. Om ett lager passerar kontrollen går ordet vidare till nästa. När den lokala enheten till slut beslutar att den har hört aktiveringsordet börjar den spela in och skicka ljudet till Amazons molnservrar. Amazon använder fyra algoritmer: en för varje aktiveringsord (Alexa, Computer, Echo) och en för Alexa Guard som behandlar specifika ljud, som till exempel krossat glas, som ett aktiveringsord.
Även efter en matchning gör Amazon mer komplexa kontroller. Har du märkt att när någon säger ordet Alexa i ett TV-program eller en reklamfilm reagerar inte ditt Echo? Det beror på att Amazon även gör en molnkontroll.
Molnkontroller eliminerar falska positiva resultat
Den här roliga Alexa-reklamen kommer inte att aktivera ditt Echo.
När företag gör reklamfilmer med Alexa kan de skicka in ljudet till Amazon. Företaget analyserar ljudet med algoritmer som liknar dem som används för att identifiera aktiveringsordet. När ett exakt ljud har katalogiserats läggs det till i en databas.
När du ger ett röstkommando till molnet skickar ditt Echo information om det aktiveringsord det hörde, som jämförs med den databasen. Om en matchning hittas instruerar Amazon ditt Echo att ignorera aktiveringsordet, stänga av och ta bort det inspelade ljudet.
Amazon kontrollerar även om aktiveringsordet uttalas samtidigt. Eftersom inte alla företag skickar in sitt ljud till Amazon, har företaget skapat en säkerhetslösning. Efter att ha jämfört med databasen, analyserar företaget röstavtrycket av aktiveringsordet mot andra samtidiga instanser. Det är osannolikt att två personer som säger ”Alexa” samtidigt skulle låta exakt likadana. Om det finns en matchning vet Amazon att det troligen kommer från en reklamfilm eller ett TV-program och ignorerar begäran.
Trots alla kontroller förekommer det fortfarande falska positiva resultat. Du kan lyssna på vad ditt Echo har spelat in via Amazons integritetsportal. Där kan du troligen hitta minst ett falskt positivt resultat. Tekniken förbättras dock kontinuerligt och i framtiden vill Amazon att den ska fungera utan aktiveringsord alls.