Mattias Heldner

Samtalets prosodi

Det långsiktiga målet för forskarna är att skapa en artificiell samtalspartner. Arbetet mot denna vision har blottat luckor i kunskapen om mänskliga samtal som bland annat kommer till uttryck i att dagens talteknologi varken låter som om den deltar i ett samtal eller förmår tolka mänskligt samtalsbeteende i någon högre utsträckning.

Samtalets prosodi syftar till att fylla i några av kunskapsluckorna genom att studera egenskaper som är väsentliga för och som bara förekommer i samtal. Mer precist ska det handla om hur samtalsparterna gemensamt reglerar ’vem som ska prata när’ och vilken roll prosodin - eller talets rytm och melodi - spelar i sammanhanget. Projektet ska undersöka prosodiska egenskaper i samtal mellan människor och effekterna av att använda sådana egenskaper i samtal.Det senare dels genom att modifiera riktiga samtal och låta människor bedöma resultatet; dels genom att använda prosodiska egenskaper i talande datorer som människor samtalar med.

Projektet delar bevekelsegrunder med andra som studerat samtalsspecifika företeelser, men skiljer sig i sitt val av metoder och i den tänkta avsättningen av resultaten. Vi ska studera den akustiska realiseringen snarare än subjektiva bedömningar av samtalets prosodi, och ska använda automatiska instrumentella metoder och operationaliserade bedömningar av samtalsparternas beteende.

Forskargruppen har en tvärvetenskaplig sammansättning och stor erfarenhet av analys av samtalets prosodi

Mattias Heldner, insttiutionen för lingvistik, Stockholms universitet

2009-2013

Projektet hade syftet att fördjupa kunskapen om prosodiska egenskaper som är specifika för samtal och som har en interaktionell funktion. Projektets huvudspår har därför varit att undersöka och modellera rytmiska mönster och intonationsmönster i samband med turtagning och verbal återkoppling i olika svensk- och engelskspråkiga taldatabaser. Projektet har även arbetat med att verifiera effekter av observerade prosodiska egenskaper genom olika lyssnings- och produktionstester, samt genom generering av interaktivt beteende i människa-robot interaktion i samarbete med Furhat-projektet. Det har inte skett några väsentliga förändringar av projektets syfte under projektperioden.

Resultat

De tre viktigaste resultaten inom projektet kan föras in under punkterna:

(i) Kvantitativa beskrivningar av samtalets prosodi (till exempel tajming av återkopplingsljud 'backchannels' i förhållande till samtalspartens tal, prosodiska mönster som inbjuder till återkopplingsljud, hur ofta det finns möjlighet att yttra dem, prosodisk realisering av återkopplingssignaler och hur dessa yttranden är anpassade till samtalspartens prosodi);
(ii) Stokastiska modeller av turtagning i interaktion utifrån prosodiska egenskaper (till exempel tal, tystnader, överlapp, talhastighetsförändringar, intonationsmönster, ljudstyrkemönster) som ger ramverket för en artificiell talare att förstå och producera mer människolikt samtalsbeteende; samt
(iii) Implementering av prosodiskt beteende i en fysisk realisering av en avatar för verifiering av effekter av samtalsspecifika prosodiska egenskaper.

Tillsammans för dessa tre punkter oss ett stort steg framåt mot det långsiktiga målet att skapa en artificiell samtalspartner som faktiskt låter och beter sig som om den deltar i ett samtal.

Nya forskningsfrågor som har genererats genom projektet

Projektplanen fokuserar på prosodiska egenskaper i samtalet och hur dessa används i turtagningen. Under projektets gång har insikten vuxit sig allt starkare att det saknas kunskap om förhållandet mellan prosodi och de icke-prosodiska och även icke-verbala egenskaper som också har stor kommunikativ relevans och betydelse för turtagningen i samtal som sker ansikte mot ansikte, till exempel deltagarnas blickriktningar, huvudrörelser, ansiktsuttryck och andningsmönster. Vi har börjat utforska denna typ av information och söker i år (2014) projektmedel för att undersöka andningsbeteende, samt blick- och huvudriktningar i samtal.


Projektet internationella förankring

Vi upplever att projektets resultat haft en mycket god genomslagskraft på internationell nivå. Ett tydligt exempel på detta är att det arbete vi gjort tillsammans med professor Julia Hirschberg på Columbia University i New York hade en framträdande plats i hennes keynote vid den inom vårt område helt centrala konferensen Interspeech 2011 i Florens.

Ytterligare ett exempel på genomslagskraften i projektet är att Mattias Heldner och Jens Edlund 2014 blivit inbjudna till ett EU-COST nätverk med titeln Dialogue Interaction Across diverse Languages på grund av arbete inom projektet. Jens Edlund har även medarrangerat en rad relevanta konferenser (The 15th ACM International Conference on Multimodal Interaction (ICMI), 2013 och Speech Prosody, the 7th biennial meeting of the Speech Prosody Special Interest Group, 2014) och workshops (bland andra ICT Workshop on Overlap in Human-Computer Dialogue in Los Angeles, CA, US, 2011; Workshop on Multimodal Corpora, 2012, 2013, 2014; The Interdisciplinary Workshop on Feedback Behaviors in Dialog, 2012; Real-time Conversations with Virtual Agents, 2012; The sixth International workshop on Disfluences in Spontaneous Speech (DiSS), 2012 och Breathing in Speech and Spoken Interaction, 2014).

Projektresultatens spridning har underlättats av att projektdeltagare blivit inbjudna att tala om sin forskning i olika sammanhang. Bland annat på internationella sommarskolor (CLARA Summer School on Semantic and Multimodal Annotation, Köpenhamn, 2011 och Summer School in Social Signal Processing, Mullsjö, 2013), inbjudna fördrag (Carnegie Mellon Silicon Valley branch, US, 2011; Honda Research, Mountain Viev, US, 2011; Trinity College, Dublin, 2011; The Beckman Institute/University Urbana-Champaign, Illinois, US, 2012; Columbia University, NYC, 2013; Universitetet i Debrecen, Ungern, 2013; QMUL, London, 2014; and GIPSA-lab, Grenoble, 2014); samt som huvudtalare på The 11th International Conference on Intelligent Virtual Agents (IVA), Reykjavik, Iceland, 2011 och på The 3rd International Workshop on Laughter and Other Non-verbal Vocalisations, Dublin, Ireland, 2013.

Projektets resultat är också viktiga för olika pågående eller nyligen avslutade avhandlingsprojekt runt om i världen (t.ex. Rivka Levitan, Columbia University; Iwan de Kok, University of Twente; Marcin W?odarczak och Hendrik Buschmeier, Universität Bielefeld; Zofia Malisz, AMU Poznan; Catharine Oertel, KTH). Mattias Heldner och Jens Edlund har vid flera tillfällen agerat opponent, granskare eller betygsnämnd vid disputationer som ett direkt resultat av att projektresultat varit centrala i avhandlingsprojekten. Catharine Oertel kom till KTH som doktorand och Marcin W?odarczak kom nyligen till Stockholms universitet som postdoc till stor del på grund av kontakter med projektdeltagare.

Vidare, alla publikationer utom de två som publicerats på de svenska konferenserna Fonetik och SLTC har genomgått 'peer review' av internationellt erkända forskare.

Slutligen, vi har under projektets gång haft den stora förmånen att få arbeta tillsammans med Kornel Laskowski (tidigare Carnegie Mellon University, nu Voci Technologies, Inc.) och detta samarbete lever vidare bortom projektets löptid vilket vi upplever som mycket värdefullt.

Forskningsinformativa insatser utanför vetenskapssamhället

Verksamheten har huvudsakligen befunnit sig inom vetenskapssamhället, men Mattias Heldner blev i alla fall intervjuad om röst och interaktion för det populärvetenskapliga programmet Kärlekskoden som ska sändas i Sveriges Television under 2014.

Robothuvudet Furhat som använts i ett par undersökningar inom projektet har dock fått stor uppmärksamhet utanför vetenskapssamhället. Furhat visades bland annat på SVT Rapport i april 2013; presenterade en paneldiskussion vid Tällberg Forum i juni 2012; visades vid RobotVille på London Science Museum i december 2011; och förekom i samband med RobotVille på nyhetssändningar på BBC.


Projektets två viktigaste publikationer samt ett resonemang om dessa

Vi håller Heldner, Hjalmarsson, & Edlund (2013) som projektets viktigaste publikation inom området beskrivningar av samtalets prosodi. Denna artikel har rönt mycket uppmärksamhet (bl a citeringar och två inbjudningar till internationella symposier och workshops). Vi använde innovativa metoder och fick helt nya resultat vad gäller möjliga (men inte nödvändigtvis utnyttjade) ställen för 'backchannels'.

Vidare håller vi Laskowski, Edlund, & Heldner (2011b) som projektets viktigaste publikation inom området stokastiska modeller av turtagning i interaktion utifrån prosodiska egenskaper. Denna artikel presenterar ett ramverk för att modellera turtagning i flerpartsdialog som är lämpat att använda i artificiella samtalsparter.

Projektets publiceringsstrategi samt kommentare

Vi har inom projektet huvudsakligen publicerat vid internationella vetenskapliga konferenser med 'peer review' (framför allt Interspeech) och i några fall vid nordiska eller nationella konferenser. Open access har säkerställts genom att samtliga av projektets publikationer lagts in i det Digitala vetenskapliga arkivet DiVA, i några fall i så kallade 'författarversioner'. Publikationerna finns även tillgängliga via projekthemsidan och via deltagarnas personliga hemsidor.

Publikationslista, samt länkar till egna webbsidor


Länkar till projektets webbsidor: www.speech.kth.se/sampros/

Publikationslista
Al Moubayed, Samer, Edlund, Jens, & Gustafson, Joakim. (2013). Analysis of gaze and speech patterns in three-party quiz game interaction. In Proceedings Interspeech 2013 (pp. 1126-1130), Lyon, France: ISCA.

Beskow, Jonas, Edlund, Jens, Gustafson, Joakim, Heldner, Mattias, Hjalmarsson, Anna, & House, David. (2010a). Modelling humanlike conversational behaviour. In The third Swedish language technology conference (SLTC-2010), Linköping, Sweden: SLTC.

Beskow, Jonas, Edlund, Jens, Gustafson, Joakim, Heldner, Mattias, Hjalmarsson, Anna, & House, David. (2010b). Research focus: Interactional aspects of spoken face-to-face communication. In Proceedings from Fonetik 2010 (pp. 7-10), Lund.

Edlund, Jens. (2011). In search of the conversational homonculus - serving to understand spoken human face-to-face interaction. Doctoral dissertation, KTH, Stockholm, Sweden.  

Edlund, Jens, Heldner, Mattias, & Gustafson, Joakim. (2012a). On the effect of the acoustic environment on the accuracy of perception of speaker orientation from auditory cues alone. In Proceedings Interspeech 2012 (pp. pages not numbered), Portland, OR, USA: ISCA.

Edlund, Jens, Heldner, Mattias, & Gustafson, Joakim. (2012b). Who am I speaking at? Perceiving the head orientation of speakers from acoustic cues alone. In LREC 2012 Workshop: Multimodal Corpora: How Should Multimodal Corpora Deal with the Situation? (pp. 38-41), Istanbul, Turkey: LREC.

Heldner, Mattias, Edlund, Jens, & Hirschberg, Julia. (2010). Pitch similarity in the vicinity of backchannels. In Proceedings Interspeech 2010 (pp. 3054-3057), Makuhari, Japan: ISCA.

Heldner, Mattias, Edlund, Jens, Hjalmarsson, Anna, & Laskowski, Kornel. (2011). Very short utterances and timing in turn-taking. In Proceedings Interspeech 2011 (pp. 2837-2840), Florence, Italy: ISCA.

Heldner, Mattias, Hjalmarsson, Anna, & Edlund, Jens. (2013). Backchannel relevance spaces. In E. L. Asu & P. Lippus (Eds.), Nordic Prosody: Proceedings of the XIth Conference, Tartu 2012 (pp. 137-146), Frankfurt am Main: Peter Lang, Germany.

Hjalmarsson, Anna. (2010). The vocal intensity of turn-initial cue phrases and filled pauses in dialogue. In Proceedings of SIGdial, Tokyo, Japan: SIGdial.

Hjalmarsson, Anna, & Laskowski, Kornel. (2011). Measuring final lengthening for speaker-change prediction. In Proceedings Interspeech 2011 (pp. 2065-2068), Florence, Italy: ISCA.

Laskowski, Kornel. (2012). Exploiting loudness dynamics in stochastic models of turn-taking. In Proceedings of the 4th IEEE Workshop on Spoken Language Technology (SLT2012) (pp. 79-84), Miami, FL, USA: IEEE.

Laskowski, Kornel, Edlund, Jens, & Heldner, Mattias. (2011a). Incremental learning and forgetting in stochastic turn-taking models. In Proceedings Interspeech 2011 (pp. 2069-2072), Florence, Italy: ISCA.

Laskowski, Kornel, Edlund, Jens, & Heldner, Mattias. (2011b). A single-port non-parametric model of turn-taking in multi-party conversation. In Proceedings ICASSP 2011 (pp. 5600-5603), Prague, Czech Republic.

Laskowski, Kornel, Heldner, Mattias, & Edlund, Jens. (2010). Preliminaries to an account of multi-party conversational turn-taking as an antiferromagnetic spin glass. In Proceedings of the NIPS Workshop on Modeling Human Communication Dynamics, Whistler, British Columbia, Canada: NIPS.

Laskowski, Kornel, Heldner, Mattias, & Edlund, Jens. (2012). On the dynamics of overlap in multi-party conversation. In Proceedings Interspeech 2012 (pp. pages not numbered), Portland, OR, USA: ISCA.

Laskowski, Kornel, & Jin, Qin. (2011). Harmonic structure transform for speaker recognition. In Proceedings Interspeech 2011 (pp. 365-368), Florence, Italy: ISCA.

Oertel, Catharine, Włodarczak, Marcin, Tarasov, Alexey, Campbell, Nick, & Wagner, Petra. (2012). Context cues for classification of competitive and collaborative overlaps. In Speech Prosody 2012 (pp. 721-724), Shanghai, China.

Skantze, Gabriel, Oertel, Catharine, & Hjalmarsson, Anna. (2013). User feedback in human-robot interaction: Prosody, gaze and timing. In Proceedings Interspeech 2013 (pp. 1901-1905), Lyon, France: ISCA.