Talande maskiner och sociala robotar

Än så länge kan robotar bara föra begränsade samtal med människor. Men forskning pågår för att skapa robotar som vi kan ha bredare social interaktion med – och i förlängningen kanske till och med betrakta som vänner.

I filmen Cast away spelar Tom Hanks en modern Robinson Crusoe som blir strandsatt på en öde ö i Stilla havet efter en flygkrasch. Under flera år tvingas han klara sig som enda överlevande på ön, innan han slutligen räddas därifrån. Den största utmaningen blir dock inte att hitta mat eller uthärda stormar och sjukdomar, utan att stå ut med ensam­heten. För att lösa detta tar han en trasig volleyboll som han hittat, ritar ett ansikte på den, och ger den namnet Wilson. Nu har han någon som han kan prata med, skälla på när saker går snett, och dela sina erfarenheter med.

Det är oklart hur stor poäng filmen egentligen vill göra av denna relation, eller om den helt enkelt är ett smart dramaturgiskt grepp: en hel film med en enda skådespelare utan någon som helst dialog hade kanske blivit tråkig att titta på. Men den säger samtidigt någonting om hur vi människor är skapade att fungera. Vi har genom evolutionen formats till sociala varelser, och vi är vana vid att ha andra människor i vår omgivning som vi kan dela våra erfarenheter med. Det handlar inte bara om att vi annars skulle bli uttråkade, behovet är mycket mer fundamentalt. Det är genom interaktion med andra som vårt tänkande och vår världsuppfattning formas och utvecklas, och utan den får vi svårt att skapa mening i tillvaron. Vi lärde oss tidigt i evolutionen att vår överlevnad hänger på att ingå i en social gemenskap och finna vår roll i den gemenskapen. Att rycka en människa ur denna sociala väv som vi formats att ingå i och placera henne på en öde ö är för de allra flesta ett plågsamt straff.

Givet att social interaktion är en så central del i vad det är att vara människa, är det då möjligt att skapa en artefakt, till exempel en dator eller robot, som kan föra ett samtal med människor, eller på annat sätt interagera socialt, och fylla samma funktion som en annan människa? Och då inte bara någonting vi kan tala till, som Tom Hanks gör med den trasiga bollen, utan som vi faktiskt talar och interagerar med? I vilka sammanhang skulle detta vara önskvärt? Och hur skulle en sådan robot konstrueras? 

Det är dessa frågor som min forskning handlar om, och för att besvara dem krävs ett i hög grad tvärvetenskapligt angreppssätt, som spänner över datavetenskap, artificiell intelligens (AI), maskininlärning, lingvistik, fonetik och psykologi. För att kunna konstruera en social maskin måste vi först förstå mänsklig kommunikation, inte bara utifrån abstrakta teorier, utan på en så detaljerad nivå att våra modeller låter sig implementeras i en dator. Denna ambition drivs alltså inte bara av de praktiska tillämpningar som kan komma med teknologin, utan även av ett djupare intresse för att förstå mekanismerna i mänsklig kommunikation. 

FRÅN SMARTA HÖGTALARE TILL SOCIALA ROBOTAR

Redan i dag omges vi av talande maskiner i form av röstassistenter i våra mobiltelefoner, som Apples Siri, och smarta högtalare, som Google Home, och för de begränsade uppgifter de är skapade att hantera fungerar de ganska bra. När jag lagar mat i köket kan jag till exempel säga till min smarta högtalare att spela den senaste skivan av Lana Del Rey, eller sätta på en timer utan att behöva ta upp mobiltelefonen med mina kladdiga fingrar. Denna utveckling har varit närmast explosionsartad de senaste åren, speciellt i USA, och snart förväntas det finnas en smart högtalare i nästan varje amerikanskt hem. 

Eftersom talet kommer så naturligt för oss, tänker vi inte på hur otroligt avancerad den teknik är som ska kunna känna igen en av flera hundra tusen möjliga artistnamn eller låttitlar (eller annat man kan tänkas säga till högtalaren), givet att talets akustik ser helt olika ut beroende på vår anatomi, dialekt, talhastighet och så vidare. För bara ett decennium sedan var detta en oöverstiglig utmaning, men är i dag möjligt tack vare de senaste årens genombrott inom så kallad djupinlärning (deep learning), en speciell form av maskininlärning där enorma artificiella neuronnät (inspirerade av hjärnans sätt att fungera) kan lära sig att känna igen komplicerade mönster. Tack vare de enorma mängder data som till exempel finns på internet kan man träna dessa modeller att lära sig att känna igen olika språkljud, hur sannolikt det är att ord förekommer i olika sammanhang, och associera ord som kan ha en liknande betydelse med varandra.

Men trots dessa framsteg är förstås den interaktion som jag har med min smarta högtalare fortfarande mycket begränsad. Den består främst av snabba kommandon och frågor, och kan knappast beskrivas som särskilt social. Kan vi tänka oss en framtid där vi faktiskt pratar med våra maskiner på samma sätt som vi pratar med varandra? Att skapa en maskin som till fullo kan interagera som en människa är förstås fortfarande science fiction, men det finns ändå olika sätt som vi kan börja närma oss problemet på. 

Ett exempel på en enklare form av social interaktion med maskiner är robothusdjur. Flera studier har visat att äldre personer med demens reagerar positivt på att få interagera med djur, till exempel en hund. Problemet är att det kan vara en fara för hunden att bli lämnad ensam med en demenssjuk person, eftersom denne kan ha svårt att ta hand om djuret på rätt sätt, och det är inte heller säkert att hunden är intresserad av att sitta flera timmar i knäet och bli klappad. I Japan har man därför utvecklat en robotsäl med namnet Paro. När jag själv provade att interagera med Paro för första gången blev jag förvånad över hur stark effekten var: den behövde bara vända huvudet och titta upp på mig med sina stora blanka ögon för att jag skulle känna ett band till den. Sälen ger även ifrån sig belåtna ljud när man klappar den, och man måste »mata» den (med elektrisk ström) med jämna mellanrum. På sätt och vis är förstås Paro inte mycket mer än en avancerad leksak – dess »hjärna» är inte särskilt sofistikerad. Men flera studier har ändå visat att demenssjuka personer som umgås med sälen upplever ett större välbefinnande och att deras stressnivå sjunker. 

Robotsälen Paro tillhör en kategori som kallas sociala robotar, eftersom deras primära syfte varken är att förflytta sig eller fysiskt manipulera sin omgivning, utan att interagera med oss människor. Men även om patienterna i viss utsträckning talar till sälen (som man ibland gör med djur), så har den, likt ett verkligt husdjur, ingen förmåga att föra ett samtal. Kan man även tänka sig en robot som på motsvarande sätt skulle kunna föra samtal med demenssjuka eller ensamma människor? 

ATT GE MASKINEN ETT ANSIKTE

I min egen forskning undersöker jag hur man kan få sociala robotar att efterlikna människor i sitt sätt att kommunicera. Till skillnad från en smarthögtalare behöver en sådan robot inte barakunna höra och tala, utan den behöver ävenkunna se om det finns människor i dess närhet, tolka deras ansiktsuttryck, vart de riktar sin uppmärksamhet, och så vidare. Som »ögon» använder vi djupseende kameror som kan avläsa ansikten och ansiktsuttryck, och som »öron» mikrofoner som kan uppfatta riktningen varifrån ljudet kommer. Detta gör det möjligt att skapa mer män­niskoliknande interaktioner, där inte bara vadsom sägs, utan också hurdet sägs och andra så kallade icke-verbalasociala signaler, är betydelsefulla. 

För att kunna testa våra modeller i verkliga samtal har vi på KTH utvecklat robothuvudet Furhat. Robotens ansikte består av en mask på vilken ett animerat ansikte projiceras med hjälp av en liten projektor inne i huvudet. Den har även en mekanisk nacke som gör att den kan röra på huvudet, och tillsammans med animerade ögonrörelser, ansiktsuttryck och läpprörelser blir det möjligt att på ett subtilt och naturligt sätt återskapa de signaler som är viktiga för mänsklig kommunikation, som att söka ögonkontakt med den man pratar med, höja på ögonbrynen när man blir förvånad, eller le när man ser någon som man är bekant med. I vår forskning har vi kunnat se att försökspersoner reagerar på dessa signaler i samtal med Furhat på samma sätt som vi förväntar oss att de skulle göra i samtal med en människa. Eftersom evolutionen har format oss till de sociala varelser vi är, är våra hjärnor programmerade att instinktivt läsa av och reagera på dessa signaler, även om de kommer från en människolik robot. 

Intresset för Furhat visade sig bli större än vi hade trott, och 2014 startade vi företaget Furhat Robotics AB. Furhat testas nu för en mängd olika tillämpningar, till exempel som värd på flygplatser och tågstationer runt om i världen, i samarbete med Deutsche Bahn. En annan tillämpning är att låta Furhat simulera personer med psykologiska problem för att träna psykologistudenter på att genomföra samtalsterapi. Ett tredje exempel är ett samarbete med rekryteringsföretaget TNG, där roboten genomför intervjuer med jobbsökande i ett tidigt skede i rekryteringsprocessen. Precis som en mänsklig intervju­are ger roboten återkoppling i form av nickningar, leenden och hummanden för att uppmuntra kandidaten att ge utförliga svar. Men till skillnad från en mänsklig rekryterare har roboten inga fördomar om kandidaten (den har ingen information om till exempel kön eller etnicitet) och genomför därför intervjun på exakt samma sätt med alla.

Men vad tillför då robothuvudet, jämfört med att till exempel ha ett animerat ansikte på en skärm? Den stora skillnaden är att roboten får en fysisk plats i rummet och ger en känsla av närvaro. Det är lätt att inse hur viktig denna skillnad är om vi jämför ett samtal över telefon eller videolänk med ett fysiskt möte. Skillnaden är särskilt tydlig om man har ett samtal med flera personer samtidigt. Därför är människor villiga att betala stora summor för att resa till varandra och för att kunna träffas i fysiska möten. På samma sätt skapar samtalet med en fysisk robot en känsla av närvaro och möjlighet för flera människor att prata med roboten samtidigt, utan att skapa förvirring. Kontrollerade experiment med sociala robotar i en lärandesituation har också visat att man minns det inlärda materialet bättre när man pratar med en fysisk robot än med en virtuell agent. 

HUR LÄR VI ROBOTEN ATT SAMTALA?

En utmaning för datorer att förstå naturligt språk är att det finns så många olika sätt att uttrycka samma sak. Om vi till exempel vill förmedla till vår samtalspartner att vi inte hörde vad denne sade kan vi uttrycka detta på en mängd olika sätt, som »vad sa du?», »ursäkta?», »jag hörde inte», och så vidare, eller genom ickeverbala uttryck, som att rynka på pannan. Liksom inom de flesta områden inom AI använder man i dag vanligtvis maskininlärning för detta problem. Det innebär att man ger datorn en stor mängd olika exempel på språkliga uttryck och deras underliggande intentioner, och så får datorn lära sig att förstå dessa samband på egen hand utan att man behöver programmera in komplicerade språkliga regler. Detta gör också systemet mer robust, eftersom talat språk uppvisar en så stor variationsrikedom och inte låter sig be­skrivas särskilt väl med grammatiska regler. En annan färdighet som vi måste lära roboten, och som jag studerat ingående i min egen forskning, är att hantera turtagning i samtal. Detta kanske inte låter så komplicerat, men om man studerar mänsklig turtagning så ser man att den ofta sker med mycket korta pauser mellan turskiftena (runt 200 millisekunder). Samtidigt lyckas vi oftast undvika att prata i munnen på varandra. För att klara denna koordination använder människor en mängd olika signaler. Till exempel kan en satsmelodi med avslutande platt ton, en inandning, eller ett »ööh» signalera att vi har något mer vi vill säga och att motparten inte ska ta turen. Vi tenderar också att titta bort när vi vill fortsätta prata, och titta upp på den vi talar med när vi lämnar över turen. Med hjälp av stora mängder inspelade samtal mellan människor har vi kunnat träna ett neuralt nät på att tolka dessa signaler och förutsäga vem som kommer prata härnäst i samtalet, och därmed göra det möjligt för en dator att hitta lämpliga tidpunkter för turskiften. Givet tillräckligt med data och träning kunde vår modell till slut göra bättre förutsägelser än vad människor gör när de ges samma uppgift. 

FRAMTIDA UTMANINGAR

En uppenbar begränsning med dagens AI är att även om vi kan träna modellerna med hjälp av data, har vi fortfarande inga bra metoder för att låta datorn generalisera sin kunskap. Där människan har förmågan att se analogier mellan uppgifter och lära sig från några få exempel, kräver dagens AI enorma mängder data eller interaktioner för att lära sig. Därför kan den excellera i mycket specialiserade och avgränsade uppgifter, som att spela schack eller köra bil, men skulle ha svårt med mer generella och flexibla uppgifter, som att agera vaktmästare eller ha hand om barn på en förskola.

På samma sätt måste dagens konverserande system tränas att samtala kring specifika ämnen, och de har svårt att använda språket på ett kreativt sätt. När vi tolkar vad andra människor säger gör vi det inte bokstavligt, oftast försöker vi läsa in vad den bakomliggande intentionen är, utifrån vad som är rimligt i situationen. Ta till exempel frågan »Vet du vad klockan är?» Tolkar vi den bokstavligt skulle kanske svaret bara bli ett »Ja». Men vi förstår att ingen skulle vara intresserad av det svaret, och därför svarar vi i stället vad vi tror att den andre personen egentligen vill veta. Just detta exempel följer ett mönster som har blivit så standardiserat i vårt språk att vi kanske inte ens behöver gå via denna slutledning. Vi kan helt enkelt lägga till den som ytterligare ett exempel på hur man kan säga »Vad är klockan?», så att datorn kan lära sig det. Men språket är fyllt av denna typ av indirekta och kreativa tolkningar, som är helt beroende av situationen. Mot slutet av ett utdraget möte skulle frågan till exempel kunna betyda »Borde vi inte avsluta nu?». Att förstå den typen av intentioner är dock fortfarande mycket svårt för en dator, och det är omöjligt att rada upp exempel på alla tänkbara uttryck och deras betydelse i olika situationer. Än så länge måste vi alltså begränsa roboten till att föra samtal inom vissa givna ramar och för specifika tillämpningar. Hur pass avancerade våra modeller måste bli för att vi ska kunna skapa en robot som vi kan ha en mer långvarig social interaktion med, och kanske till och med betrakta som en vän, vet vi inte än. 

Att samtala med maskiner, inte bara för att de kan svara på faktafrågor och utföra uppgifter, utan för att de fyller ett socialt behov, framstår för vissa som ett främmande (och kanske skrämmande) framtidsscenario. Men redan i dag tycker vi inte att det är så märkligt att barn låtsaspratar med sina leksaker, eller att vuxna människor talar till sina husdjur (trots att djuren förmodligen har mycket begränsad förståelse av vad som sägs). Det är inte orimligt att vi i framtiden kommer tycka att det är normalt att även prata med våra maskiner, så länge vi upplever att de fyller en mening i våra liv.

Gabriel Skantze är professor i talteknologi, Kungl. Tekniska högskolan. Han utvecklar modeller för kommunikation mellan människor och datorer/robotar.

Ta del av samtalet! Bli prenumerant och
få Sans direkt hem i brevlådan.