V každodenním životě jsou okamžiky, které se na první pohled zdají být zcela banální. Sedíte u stolu, pracujete na článku, přemýšlíte o novém tématu - a najednou zazvoní telefon. Číslo, které nepoznáváte. V mém případě to byla předvolba z Porúří: 0233 něco. Jako osoba samostatně výdělečně činná občas takové hovory dostáváte. Obvykle jde o reklamu, služby nebo rady, které ve skutečnosti nepotřebujete.
Zpočátku jsem tedy hovor normálně přijal. Na druhé straně se ozval příjemný ženský hlas. Představila se jako zaměstnankyně, která spolupracuje s Facebookem a Instagramem. Nepřekvapivě se jednalo o reklamu. O reklamách. O dosahu. O zviditelnění firem.
Rozhovor začal přesně stejným tónem hlasu, jaký známe z takových telefonátů. Zdvořilý, profesionální, trochu nacvičený. Vysvětlila mi, že mnoho společností má dnes potíže s oslovením nových zákazníků. Rozhodujícím faktorem je online reklama, zejména pro malé a střední podniky - takzvaný sektor malých a středních podniků. Facebook a Instagram nabízejí obrovské možnosti, jak oslovit potenciální zákazníky.
Když mluvila, zpočátku jsem normálně poslouchal. Nic mi na ní nepřipadalo neobvyklé. Hlas zněl lidsky, přirozeně, dokonce s lehkým jihoněmeckým dialektem. Díky tomu mi to celé bylo spíš sympatické než rušivé. Neznělo to jako z tradičního call centra někde ve světě, ale spíš jako někdo, kdo skutečně volá z Německa.
Takové rozhovory mají obvykle vždy stejný průběh. V určitém okamžiku nastane okamžik, kdy volaný vysvětlí, proč pro něj nabídka není relevantní. A přesně to jsem udělal já.
Řekl jsem jí, že v podstatě chápu, co tím myslí, ale že sociální média pro mě hrají spíše druhořadou roli. Moje hlavní práce je jinde. Vedu nakladatelství, pracuji na článcích, knihách a svém časopise. Sociální média jsou spíše vedlejší. Mohou být užitečné, ale nejsou jádrem mé práce. Vysvětlil jsem jí to poměrně klidně.
Zpočátku reagovala tak, jak se dalo očekávat. Poslechla, krátce potvrdila a pak pokračovala v rozhovoru. V tu chvíli mi začala popisovat konkrétní nabídku. Jednalo se o jakousi reklamní kampaň, která byla speciálně přizpůsobena firmám. Prý s ní bylo možné dosáhnout zviditelnění zhruba pěti tisíc potenciálních zákazníků. Mluvila o důležitosti digitální přítomnosti, o tom, jak mohou firmy zvýšit svůj dosah a jak jim Facebook a Instagram pomohou oslovit nové cílové skupiny.
Samotný obsah nebyl překvapivý. Každý, kdo někdy mluvil s marketingovými agenturami, takové fráze zná. Ale něco ve způsobu, jakým mluvila, mě začínalo dráždit. Tón hlasu mi najednou připadal trochu jiný. Znělo to, jako by něco četla nahlas. Ne nutně zřejmé. Ale jaksi příliš hladce, příliš strukturovaně, příliš dokonale formulovaně. Jako by procházela prezentaci větu po větě.

Dál jsem poslouchal a zpočátku jsem o tom nepřemýšlel. Možná měla před sebou skutečně nějakou předlohu. Koneckonců přesně takhle probíhá mnoho obchodních schůzek.
Tak jsem na jejich výroky znovu reagoval. Znovu jsem jim vysvětlil, že chápu jejich pohled na věc, ale že takové reklamy momentálně nepotřebuji. Moje práce funguje jinak. Vytvářím obsah, píšu články, dlouhodobě rozvíjím témata. Sociální média mi v tom mohou pomoci, ale nejsou hlavní pákou.
Zatímco jsem to říkal, stalo se něco zajímavého.
Nastala krátká pauza. Asi jen na vteřinu.
Pak přišla odpověď, která odpovídala obsahu toho, co jsem právě řekl. Řekla, že jsem zřejmě již v médiích určitým způsobem působil, a proto jsem si možná stanovil jiné priority. Pokud má někdo již vybudovaný dosah, je reklama samozřejmě jiným rozhodnutím než pro firmy, které teprve začínají.
Ta věta překvapivě dobře zapadala do toho, co jsem právě řekl. Ale zároveň zněla opět divně. Zase ten lehce předčítavý tón. Opět ta struktura, která působila jako připravený text.
V tu chvíli jsem začal poslouchat pozorněji. Najednou mi totiž vyvstala velmi jednoduchá otázka. Pokud opravdu jen čte scénář - odkud se bere ta odpověď, která tak přesně reaguje na můj výrok? Opravdu má před sebou stovky různých textových listů, které si vybírá podle průběhu rozhovoru? Nebo se tu děje něco jiného?
Když jsem o tom přemýšlel, všiml jsem si ještě něčeho. Průběh konverzace byl podivně vyrovnaný. Nedocházelo k žádným spontánním reakcím, k drobným přeřeknutím, k improvizovaným formulacím. Všechno znělo úžasně čistě, až příliš čistě.
A najednou se mi v hlavě objevila nová možnost. Možná vůbec nemluvím s člověkem. Možná na druhém konci linky není skutečný člověk - ale systém. Umělý hlas. Umělá inteligence.
Zpočátku to znělo absurdně. Ale čím déle jsem o tom přemýšlel, tím to bylo pravděpodobnější. Protože jedna věc mi prostě neseděla: Odpovědi se zdály být zároveň přizpůsobené a zároveň jako by byly přečtené. Jako by někdo rozuměl tomu, co říkám - ale přesto se stále vracel k připraveným textovým modulům.
Začal jsem přemýšlet, kolik takových systémů dnes existuje. Kolik rozhovorů už možná neprobíhá mezi lidmi, ale mezi lidmi a stroji. A právě v tomto okamžiku jsem se rozhodl položit velmi jednoduchou otázku.
Otázka, která by tuto záhadu okamžitě vyřešila.
Okamžik pravdy
V tu chvíli mi v hlavě vytanula myšlenka: možná vůbec nemluvím s člověkem. Čím déle jsem o tom přemýšlel, tím více detailů z rozhovoru mi najednou zapadalo do sebe. Krátké prodlevy po mých odpovědích. Ten podivně vyrovnaný způsob mluvení. Věty, které se zdály být zároveň individuální, ale vždy měly takový lehce předčítavý charakter.
Bylo to, jako by se pomalu skládalo puzzle. Tak jsem se rozhodl, že to prostě vyřeším rovnou. Žádné složité testy, žádné záludné otázky. Jen jednoduchá, jasná otázka. Krátce jsem přerušil rozhovor a řekl:
„Mám další otázku.“
Na druhém konci linky se ozvala další krátká pauza. Ne dlouhá, možná vteřinová. Ale dost dlouhá na to, abych ji vědomě rozpoznal. Pak jsem položil otázku, kterou jsem měl teď na jazyku:
„Mluvím skutečně s člověkem, nebo s robotem?“
Byla to velmi přímá otázka. Vlastně taková, na kterou by člověk mohl bez problémů odpovědět. Člověk by čekal, že se někdo buď zasměje, možná zareaguje trochu podrážděně nebo prostě řekne: „Samozřejmě, že se mnou mluvíš.“
Ale přesně to se nestalo. Místo toho jsme dostali odpověď, která se zpočátku zdála vyhýbavá.
Hlas mi řekl, že mi může zaručit, že mě bude kontaktovat skutečná osoba, pokud budu mít zájem o konzultaci. Společně bychom pak mohli probrat, které možnosti by pro mou společnost měly smysl.
Odpověď zněla zdvořile. Profesionální. Ale neodpověděla na mou otázku. Neptal jsem se, jestli se mi člověk ozve později. Ptal jsem se, s kým mluvím teď. Tento rozpor dělal situaci ještě zajímavější. Protože lidský partner v dialogu by mou otázku pravděpodobně pochopil jinak. Možná by se na chvíli podivil, možná by se zasmál nebo dokonce reagoval trochu dotčeně. Ale pravděpodobně by na ni odpověděl přímo.

Zde se však stalo něco jiného. Odpověď byla vyhýbavá. Vrátila se k původnímu účelu rozhovoru: prodat poradenské sezení. To byl okamžik, kdy mé podezření definitivně zesílilo.
Tak jsem mu znovu v klidu vysvětlil, že o tuto nabídku opravdu nemám zájem. Zopakoval jsem, co jsem řekl už dříve: sociální média pro mě nejsou ústředním tématem. Pracuji na časopisu, článcích, knihách a svém nakladatelství. Reklama na Facebooku momentálně nepatří mezi mé priority.
Když jsem mluvil, pozorně jsem poslouchal.
Následovala další krátká pauza. Pak přišla další odpověď - opět zdvořilá, opět přátelská, ale opět s tím lehce mechanickým podtónem. Bylo těžké popsat, co přesně na ní bylo neobvyklé. Hlas zněl lidsky, slova byla správná, věty dávaly smysl. A přece tu něco chybělo. Možná to byla ta jemná nepředvídatelnost, kterou obvykle mají skutečné rozhovory. Lidé reagují spontánně. Mění tón hlasu, přerušují se, improvizují.
Tady se naopak zdálo, že je všechno strukturované. Uspořádané. Jako by neviditelný systém v pozadí rozhodoval o tom, která věta bude vyslovena jako další. Tak jsem to zkusil znovu. Ne agresivně, ne konfrontačně - prostě ze zvědavosti.
V podstatě jsem zopakoval, že mě nezajímá ani tak nabídka, jako spíš otázka, s kým vlastně mluvím. Tentokrát však žádné nové vysvětlení nepřišlo. Místo toho se tón rozhovoru náhle změnil.
Hlas jí stroze řekl, že teď musí jít dál. Byly tu další úkoly. Pak se rozloučila.
„Musím jít dál. Sbohem.“
A to byl konec rozhovoru. Žádná další argumentace, žádný pokus mě přece jen přesvědčit, žádný dotaz. Rozhovor byl prostě zrušen.
Chvíli jsem seděla a dívala se na telefon. Byl to zvláštní pocit. Protože konverzace mi několik minut připadala úplně normální. Zněl jako typický obchodní hovor, takový, který znáte už léta. Přátelský hlas, nabídka, několik námitek, několik odpovědí.
A přesto ten zvláštní pocit na konci zůstal. Co když jsem skutečně mluvil se strojem? Co když ten hlas, který tak přirozeně mluvil o marketingu, dosahu a potenciálních zákaznících, ve skutečnosti nevycházel z lidské bytosti? Protože upřímně řečeno, tento scénář dokonale zapadá do doby, ve které žijeme. Systémy, které píší texty. Programy, které vedou rozhovory. Umělé hlasy, které jsou téměř k nerozeznání od skutečných lidí.
Možná právě to se právě stalo. Možná mi právě zavolal stroj - a já si to skoro ani neuvědomil. Nemohla jsem se té myšlenky zbavit. A čím déle jsem o tom přemýšlel, tím víc jsem si uvědomoval, že i kdybych se v tomto konkrétním případě mýlil, tak na tom vlastně nezáleží.
Technologie, která by takový rozhovor umožnila, totiž existuje už dlouho. A pokud existuje, pak se bude používat. Skutečnou otázkou tedy již není, zda se takové rozhovory konají. Jedinou otázkou je, jak často.
Aktuální průzkum používání místních systémů umělé inteligence
Nová generace telefonní umělé inteligence
Když jsem se po rozhovoru podíval na svůj telefon, nemohl jsem se zbavit jedné otázky: jak moc je pravděpodobné, že jsem skutečně mluvil se strojem? Ještě před několika lety bych tuto myšlenku pravděpodobně rychle zavrhl. Telefonní hovory byly jednou z oblastí, v nichž byli lidé dlouho považováni za nenahraditelné. Jazyk je složitý, spontánní a plný nuancí. Dialekty, ironie, malé pauzy, intonace - to vše činilo lidskou komunikaci pro stroje tak obtížnou.
Tento obraz se však právě začíná měnit. Což si mnoho lidí ještě neuvědomilo: Technické požadavky na to, aby stroje mohly přesvědčivě telefonovat, jsou již z velké části splněny. A vyvíjejí se ohromujícím tempem.
Od hlasového příkazu ke skutečné konverzaci
První krok na této cestě začal poměrně jednoduchými hlasovými systémy. Mnoho lidí je zná ze svého každodenního života: hlasové asistenty v chytrých telefonech, navigační systémy v autech nebo digitální pomocníky v domácnosti.
Zpočátku tyto systémy rozuměly pouze jednoduchým příkazům. Mohli jste se jich zeptat na počasí, spustit hudbu nebo zadat adresu. Jejich odpovědi byly předem naprogramované a dialogy byly velmi omezené.
S příchodem moderních jazykových modelů se však situace zásadně změnila. Dnes jsou systémy schopny rozpoznávat, analyzovat a reagovat na mluvený jazyk téměř v reálném čase. Konverzace se strojem probíhá v několika technických krocích na pozadí:
- Nejprve se rozpozná mluvený jazyk osoby a převede se na text. Toto tzv. rozpoznávání řeči je dnes již tak přesné, že ani dialekty nebo zvuky v pozadí již často nepředstavují zásadní problém.
- Jazykový model pak analyzuje obsah výpovědi. Snaží se pochopit, co je tím myšleno, jaký je záměr otázky a jaká odpověď by mohla být vhodná.
- V dalším kroku systém formuluje odpověď - již ne pouze z pevně daného skriptu, ale často dynamicky generovanou z rozsáhlého jazykového modelu.
- Nakonec je tento text převeden zpět do mluvené řeči. Moderní systémy syntézy řeči dokáží vytvořit hlasy, které znějí překvapivě realisticky.
Výsledkem je konverzace, která může být pro lidi překvapivě přirozená.
Proč stroje najednou telefonují
Otázkou však není jen to, zda tato technologie existuje. Skutečně vzrušující otázka zní: proč ji společnosti vůbec používají?
Odpověď je poměrně jednoduchá. Telefonický kontakt se zákazníky je pro mnoho společností jednou z nejdražších oblastí. Tradiční call centra vyžadují zaměstnance, školení, pracovní stanice a infrastrukturu. Zaměstnanci musí být placeni, potřebují přestávky a mohou uskutečnit pouze omezený počet hovorů za den.
Stroj naproti tomu funguje úplně jinak. Automatický systém může mluvit s mnoha lidmi najednou. Může pracovat nepřetržitě, aniž by se unavil. A na jeden hovor mu vzniká jen zlomek nákladů, které by vynaložil lidský zaměstnanec.
Pro společnosti, které chtějí kontaktovat tisíce potenciálních zákazníků, je to obrovská ekonomická výhoda. Zejména v oblasti marketingu se proto vyvíjí stále více systémů, které slouží právě k tomuto účelu: k automatickému vedení prodejních nebo konzultačních hovorů. Tyto systémy mohou např:
- Volání potenciálním zákazníkům
- Sjednávání schůzek
- Provádění úvodních poradenských sezení
- Zájem o dotaz
- Předběžná kvalifikace kontaktů pro lidské prodejce
Lidé často vstupují do hry až později - když už je jasné, že je o ně skutečný zájem.
Hybridní přístup: skriptování a umělá inteligence
Mnohé z těchto systémů nefungují zcela volně, ale spíše podle tzv. hybridního modelu. To znamená, že část konverzace probíhá podle pevně daného scénáře, podobně jako v tradičních call centrech. Určité výroky, nabídky nebo vysvětlení jsou prezentovány v předem stanovené podobě.
Zároveň však umělá inteligence analyzuje, co druhá osoba říká, a může reagovat na určitá klíčová slova nebo výroky.
Právě tato kombinace vytváří dojem skutečného rozhovoru. Některé odpovědi působí spontánně a individuálně, zatímco jiné znějí jako připravené textové moduly. Pro účastníka rozhovoru je často obtížné rozpoznat, zda je na druhém konci člověk, nebo systém.
Když se ohlédnu zpět, tento vzorec překvapivě dobře odpovídal rozhovoru, který jsem vedl. Některé odpovědi se zdály být velmi přizpůsobené tomu, co jsem řekl, zatímco jiné zněly téměř jako přečtené.
Hlasy, které znějí jako lidé
Asi nejúžasnější na tomto vývoji je však samotný hlas. Ještě před několika lety zněly hlasy generované počítačem výrazně uměle. Byly monotónní, mechanické a poměrně snadno rozpoznatelné.
Dnes to vypadá úplně jinak. Moderní syntéza řeči dokáže vytvořit hlasy, které znějí úžasně přirozeně. Dokážou napodobit emoce, začlenit malé pauzy a dokonce napodobit regionální zabarvení řeči.
Mírný dialekt, jaký jsem slyšel v rozhovoru, již není technickým problémem. Pro mnoho lidí je tak stále obtížnější rozlišovat mezi skutečnými hlasy a uměle generovanými hlasy.
Tichá změna
Zajímavé na tomto vývoji je, že proběhl v podstatě bez povšimnutí. Neobjevují se žádné velké titulky o tom, že stroje najednou telefonují. Neobjevují se žádná zjevná oznámení o tom, že partner při hovoru nemusí být vůbec člověk.
Místo toho se technologie pomalu vkrádají do každodenního života. Tady zavoláte, támhle si domluvíte schůzku, jinde zavoláte na zákaznický servis. A stále častěji se stává, že přátelský hlas v telefonu už není člověk, ale systém, který byl vycvičen, aby co nejpřesvědčivěji napodoboval lidskou konverzaci.
Zda tomu tak skutečně bylo, když jsem volal, nelze zpětně s naprostou jistotou říci, ale je to velmi pravděpodobné. Jedno je však jisté: technické možnosti pro to již dávno existují. A každým měsícem se zlepšují.
Když se hlas vaší vlastní dcery stane pastí
Zvláště otřesný příklad zneužití moderní technologie umělé inteligence ukazuje reportáž stanice Hessischer Rundfunk. Žena v ní referuje o hovoru, při němž se jí zdálo, že slyší v telefonu svou vlastní dceru. Hlas zněl panicky a zároveň povědomě:
Došlo k vážné nehodě, jedna osoba zemřela a nyní hrozí vazba. Krátce poté se ozvala údajná policistka a vysvětlila, že propuštění bude možné pouze proti vysoké kauci. Požadovaná částka se pohybovala kolem 120 000 eur. Teprve později vyšlo najevo, že hlas dcery byl podvodně simulován pomocí umělé inteligence.
Nový perfidní podvod s využitím umělé inteligence | hlavní věž
Případ působivě ukazuje, jak přesvědčivá může být moderní syntéza řeči - a jak důležité je nedůvěřovat slepě ani známým hlasům při nečekaných hovorech.
Call centra bez lidí
Pokud se na chvíli oprostíte od vlastních zkušeností a podíváte se na věc střízlivým pohledem, rychle vám bude jasné, proč společnosti vůbec napadlo nechat stroje telefonovat. Skutečnou hnací silou tohoto vývoje není nadšení pro technologii. Je to ekonomika.
Call centra jsou již po desetiletí jednou z nejdražších oblastí mnoha společností. Ať už se jedná o zákaznický servis, sjednávání schůzek nebo prodejní hovory - náklady vznikají všude tam, kde se telefonuje. Zaměstnance je třeba najímat, školit a platit. Je třeba zřídit pracovní místa. Dále je třeba počítat s pracovní dobou, přestávkami, nárokem na dovolenou a nemocenskou.
To vše je zcela normální a přirozené, pokud lidé tuto práci vykonávají. Z pohledu firmy však každý z těchto faktorů znamená dodatečné náklady.
Právě zde začíná přitažlivost automatizovaných systémů. Stroj nepotřebuje pracoviště, dovolenou ani přestávku. Teoreticky může pracovat nepřetržitě. A může mluvit s mnoha lidmi najednou.
Zatímco lidský zaměstnanec může denně uskutečnit padesát nebo šedesát hovorů, automatizovaný systém může uskutečnit stovky nebo dokonce tisíce kontaktů. I když jen malá část těchto hovorů vede ke skutečnému zákazníkovi, může se to rychle ekonomicky vyplatit. To vysvětluje, proč mají o tyto technologie velký zájem zejména marketingové a obchodní společnosti.
Tento proces je obvykle poměrně jednoduchý:
- Nejprve se vytvoří rozsáhlý seznam potenciálních kontaktů. Ten může pocházet z různých zdrojů: veřejně přístupných firemních databází, obchodních adresářů nebo údajů o stávajících zákaznících.
- První kontakt pak provede automatizovaný systém. Automat zavolá, představí se a zahájí konverzaci podle určitého vzoru. Vysvětlí nabídku, položí několik otázek a snaží se zjistit, zda existuje základní úroveň zájmu.
- V mnoha případech hovor končí právě zde. Pokud volaný nemá zájem, kontakt se jednoduše ukončí. Pokud je naopak zájem signalizován, systém může kontakt předat lidskému pracovníkovi.
Lidé přicházejí na řadu až ve chvíli, kdy se potenciální zákazník již kvalifikoval.
Které profese by mohly zaniknout příště
Výše popsaný telefonát není ojedinělým případem, ale součástí širšího vývoje. Umělá inteligence v současnosti mění celá odvětví - často rychleji, než si mnozí lidé uvědomují. Zasaženy jsou zejména činnosti s mnoha opakujícími se procesy, jako je zákaznická podpora, call centra, zpracování nebo jednoduché textové a překladatelské práce. Moderní hlasové modely a voiceboti dnes mohou vést rozhovory, analyzovat dokumenty nebo odpovídat na e-maily - nepřetržitě a bez přestávky. V důsledku toho se mnoho tradičních kancelářských a komunikačních pracovních míst dostává pod tlak. V mém podrobném základním článku „Umělá inteligence: která pracovní místa jsou ohrožena - a jak se můžeme vyzbrojit“ Uvádím, kterých profesí se to týká obzvláště a proč má smysl se na tyto změny včas připravit.
To je pro firmy obrovská výhoda.
Je to proto, že většina telefonických kontaktů v oblasti prodeje stejně končí zrušením. Volání lidem, kteří nemají zájem, je často časově nejnáročnější částí práce prodejce. Automatizované systémy mohou tuto část převzít a odlehčit tak lidským zaměstnancům.
To také vysvětluje, proč se mnoho těchto systémů nesnaží nahradit celou konverzaci. Převezmou pouze první krok. Dalo by se říci: stroj otevře dveře, člověk převezme vlastní konverzaci až později.
Další výhodou je škálovatelnost. Tradiční call centrum může vyřídit pouze tolik hovorů, kolik má k dispozici zaměstnanců. Pokud chce společnost náhle spustit větší kampaň, musí najmout a vyškolit nové zaměstnance.
Naproti tomu automatizovaný systém lze rozšířit téměř okamžitě. Jakmile je software jednou nastaven, lze další hovory uskutečnit s poměrně malým úsilím. Nové kampaně lze spustit v krátké době, aniž by bylo nutné zvyšovat počet zaměstnanců. Tato flexibilita je ve světě digitálního marketingu obzvláště atraktivní.

Další faktor, který je často přehlížen: Důslednost
Lidé nikdy nevedou rozhovory úplně stejným způsobem. Jeden prodejce může mít špatný den, být unavený nebo vystresovaný. Jiný je zase mimořádně motivovaný a přesvědčivý. Tyto rozdíly jsou součástí lidského chování.
Stroje naproti tomu pracují podle jasných pravidel. Vždy říkají totéž, vždy se ptají na totéž a striktně dodržují předem definovaný model dialogu. Z pohledu mnoha firem je to výhoda, protože to standardizuje kvalitu prvotních kontaktů.
Tento vývoj má samozřejmě i druhou stránku. Rozhovor s člověkem je jiný než rozhovor se strojem. I když umělý hlas zní přesvědčivě, často mu chybí něco, co se těžko popisuje: spontánní dynamika lidské komunikace.
Člověk může improvizovat, projevit humor, pronést nečekanou poznámku nebo prostě spontánně reagovat. Pro stroje je stále obtížné takové situace zvládnout, i když se jejich schopnosti rychle zlepšují.
Proto mnoho společností sází na hybridní přístup. Počáteční kontakty přebírá stroj, filtruje potenciální zájemce a poté je předává skutečným zaměstnancům. Vzniká tak kombinace automatizované efektivity a lidské komunikace. Pro mnoho společností je to v současné době ideální kompromis.
Ale i tento přechodný stav může být pouze přechodnou fází. Čím lepší jsou systémy, tím více úkolů mohou převzít. To, co je dnes ještě pouhou úvodní konzultací, by zítra mohlo být kompletním poradenstvím.
Otázky, které z toho vyplývají, nejsou ani tak technické jako spíše sociální.
- Jak se změní naše komunikace, až budou konverzaci stále častěji vést stroje?
- A jak se vypořádáme s tím, že si už nemůžeme být jisti, zda je na druhém konci linky skutečně člověk?
Možná právě v tomto bodě nabývá moje malá zkušenost s tímto podivným telefonátem najednou většího významu. Protože to, co začalo jako obyčejný prodejní hovor, mohlo být ve skutečnosti malým zábleskem do budoucnosti.
Jak rozpoznáte umělou inteligenci telefonu?
Po skončení rozhovoru mi v místnosti zůstala jedna otázka: Mohl jsem vůbec poznat, zda se jedná o stroj?
Právě to je skutečnou výzvou této nové technologie. Moderní hlasové systémy jsou dnes tak přesvědčivé, že si mnozí lidé už ani neuvědomují, kdy mluví s umělou inteligencí. Hlasy znějí přirozeně, odpovědi se zdají být logické a dokonce i malé pauzy nebo nářečí lze nyní překvapivě dobře napodobit.
Přesto existují určité indicie, na které si můžete dát pozor. Žádné z těchto pozorování není samo o sobě jistým důkazem. V kombinaci však mohou poskytnout poměrně jasný obrázek.
Drobná zpoždění v dialogu
Prvním vodítkem je často velmi krátká prodleva po výpovědi. Když spolu lidé mluví, obvykle reagují okamžitě. Samozřejmě i zde se vyskytují malé pauzy, ale ty vyplývají z průběhu rozhovoru - protože někdo přemýšlí nebo si tříbí slova.
V systémech umělé inteligence je pauza výsledkem technického procesu. Nejprve musí systém rozpoznat mluvený jazyk. Poté je text analyzován. Poté systém zformuluje odpověď a převede ji zpět do mluveného jazyka.
Tento proces trvá jen zlomek sekundy. Přesto si někdy můžete všimnout tohoto krátkého zpoždění. Právě takové pauzy jsem si během konverzace několikrát všiml. Nebyla však dostatečně dlouhá na to, aby ve mně vzbudila okamžité podezření. Byla však dostatečně zřetelná na to, abyste si jí v určitém okamžiku všimli.
Odpovědi, které sedí a zároveň se zdají být podivné.
Dalším vodítkem může být struktura odpovědí. Lidé v rozhovorech často reagují spontánně. Přeformulovávají věty, dělají drobné odbočky, vyzvedávají jednotlivá slova nebo kladou protiotázky.
Automatizované systémy naproti tomu často pracují se směsí připravených textových modulů a generovaných odpovědí. To vede ke zvláštnímu efektu: odpověď v podstatě odpovídá konverzaci - ale zároveň zní, jako by někdo něco četl nahlas.
V mém případě mě právě toto přimělo k zamyšlení. Některé odpovědi se zdály být překvapivě přesně šité na míru mým výrokům. Zároveň však zněly tak hladce a strukturovaně, jako by vycházely z připravené šablony.
Tato kombinace je typická pro tzv. hybridní dialogové systémy, které kombinují skript a umělou inteligenci.
Úžasně dokonalý hlas
Zajímavé je, že samotný hlas již často není spolehlivým ukazatelem. V minulosti byly umělé hlasy poměrně snadno rozpoznatelné. Zněly monotónně, mechanicky a měly jasně slyšitelnou počítačovou kvalitu.
Dnes se to výrazně změnilo. Moderní syntéza řeči dokáže vytvořit hlasy, které znějí úžasně přirozeně. Dokážou dokonce simulovat malé pauzy v dýchání, intonaci nebo emocionální nuance. Některé systémy jsou nyní schopny napodobit regionální zabarvení řeči - stejně jako jižní německý dialekt, který jsem slyšel v telefonu.
Pro mnoho lidí je takový hlas naprosto autentický. To znamená, že často již není možné rozpoznat, zda hovoříte s člověkem, nebo se strojem, pouze podle zvuku hlasu.
Potíže s neočekávanými otázkami
Obzvláště zajímavý moment často nastane, když položíte otázku, která nezapadá do zamýšleného průběhu rozhovoru.
Lidé mohou v takových situacích improvizovat. Přemýšlejí krátce a reagují spontánně.
Na druhou stranu jsou systémy umělé inteligence často připraveny na určité konverzace. Pokud se objeví otázka mimo tento rámec, někdy selhávají. To se může projevit různými způsoby:
- Odpověď se vyhýbá otázce.
- Systém se náhle vrátí k původnímu tématu.
- Rozhovor nečekaně skončí.
Přesně to se stalo v mém případě. Když jsem se zeptal, zda mluvím s člověkem nebo robotem, nedostal jsem přímou odpověď. Místo toho byla konverzace nasměrována zpět k aktuální prodejní nabídce.
A když jsem se zeptal znovu, rozhovor byl definitivně ukončen.
Náhle ukončené rozhovory
Další indicií může být neobvykle náhlý konec rozhovoru. Lidé se obvykle snaží rozhovor zdvořile ukončit. I když někdo nemá zájem, často dojde ke krátké výměně názorů, poděkování nebo závěrečné poznámce.
Naproti tomu automatizované systémy pracují s jasnými pravidly. Pokud jsou splněny určité podmínky - například jasné odmítnutí - hovor je ukončen. Někdy se tak stane překvapivě rychle, protože systém již neposkytuje žádnou další strategii dialogu.
Věta, kterou jsem slyšel na konci, do tohoto vzorce dokonale zapadala:
„Promiňte, musím jít. Sbohem.“
Rychlá závěrečná věta - a rozhovor skončil.
Proč si mnoho lidí nevšimne rozdílu
Fascinující na tomto vývoji je, že většina lidí si takových detailů v každodenním životě téměř nevšimne. Telefonní hovory jsou běžnou součástí našeho života. Slyšíme hlas, krátce promluvíme a pak zase zavěsíme. Jen málokdy někdo následně tak přesně analyzuje průběh hovoru.
Právě proto lze nyní automatizované systémy používat poměrně nenápadně. Pokud konverzace vypadá přiměřeně věrohodně a její obsah je srozumitelný, mnoho lidí se ani neptá, s kým mluví.
Teprve když něco nesedí - podivná pauza, neobvyklá odpověď nebo vyhýbavá odpověď - objeví se malý pocit podráždění. Tento pocit jsem měl během telefonátu. A právě tento pocit mě nakonec přivedl na myšlenku položit zásadní otázku.
Otázka, která pravděpodobně odhalila, že jsem právě mluvil se strojem.

Když stroje volají - a co se od nich můžeme naučit
Po rozhovoru ve mně zůstal zvláštní dojem. Na jedné straně nebyl hovor ničím výjimečný. Jako podnikatel občas takové obchodní hovory dostáváte. Na druhou stranu mi tento rozhovor připadal nějak jiný. Ne dramaticky jiný - ale prostě natolik neobvyklý, že mi chvíli trvalo, než jsem pochopil proč.
Myšlenka, že na druhém konci linky nemusel být člověk, mě neopouštěla. A čím déle jsem o tom přemýšlel, tím více jsem si uvědomoval, že i když jsem se v tomto konkrétním případě mýlil, skutečný vývoj, který za tím stál, se už dávno stal realitou. Dnes mohou stroje vést rozhovory. Mohou volat lidem, klást jim otázky a dávat odpovědi. A pravděpodobně to budou dělat stále častěji.
To vyvolává otázku, která přesahuje mé osobní zkušenosti. Jak se vlastně vypořádáme s tím, když nám začnou volat stroje?
Získávání telefonů - dnes již citlivé téma
Ještě před nástupem umělé inteligence byla telefonická reklama citlivou oblastí. V mnoha zemích - včetně Německa - je tzv. cold calling, tj. nevyžádané telefonáty potenciálním zákazníkům, přísně omezen zákonem. V mnoha případech je jednoduše zakázáno, zejména pro soukromé osoby.
Dokonce i v podnikovém sektoru se taková agitace často pohybuje v šedé zóně. Musí existovat předpokládaný zájem a mnoho společností dnes reaguje na nevyžádané reklamní hovory velmi citlivě.
Důvod je jednoduchý: telefonní hovor okamžitě přeruší každodenní život lidí. Zatímco e-mail lze ignorovat a reklamu na internetu často jednoduše přehlédnete, telefonát nutí volaného okamžitě reagovat. Musíte se rozhodnout, zda hovor zvednete, vyslechnete nebo ukončíte.
Pokud za takovými hovory stojí také automatizované systémy, dostává tato diskuse nový rozměr. Vždyť stroje mohou teoreticky volat tisícům lidí denně.
Aktuální průzkum digitalizace v každodenním životě
Čas je nejvzácnější zdroj
Skutečným bodem, který mi na takovýchto hovorech vadí, není ani samotná technologie. Technologie se vyvíjí a neustále se objevují nové možnosti. To je součást moderního světa. Více mě znepokojuje jiná otázka: jak ohleduplně vlastně firmy zacházejí s časem druhých lidí?
Čas je pravděpodobně nejvzácnějším zdrojem, který máme. Každý z nás má jen omezený počet hodin denně. A každý se sám rozhoduje, jak chce tento čas strávit. Nevyžádaný hovor - ať už od člověka, nebo od stroje - do tohoto času zasahuje.
Pokud jsou pak automatizované systémy využívány i ke kontaktování co největšího počtu osob, rychle vzniká dojem, že čas volaného je v marketingové strategii pouze statistickým faktorem. Možná právě to je důvod, proč takové telefonáty často zanechávají špatný pocit. Ne proto, že by tato technologie byla působivá, ale proto, že ukazuje, jak snadné je automatizovat komunikaci - a to i tam, kde je skutečně nutná osobní pozornost.
Zdravá dávka pochybností neuškodí
V každém případě mi můj malý telefonát objasnil jednu věc: V budoucnu bude pravděpodobně stále obtížnější rozpoznat, s kým vlastně mluvíme. Telefonní hovory, zprávy na chatu, e-maily - mnohé z toho lze dnes generovat automaticky. Hlasy lze syntetizovat, texty lze vytvořit během několika sekund a celé konverzace lze naprogramovat.
Proto zdravá dávka pochybností možná není nejhorší postoj. Pokud se vám zdá, že je rozhovor podivně strukturovaný, odpovědi jsou formulovány neobvykle hladce nebo se otázkám náhle vyhýbáte, možná by stálo za to se na chvíli zastavit a položit si otázky. Někdy stačí jednoduchá otázka, jako např:
„Mluvím s člověkem, nebo se strojem?“
Už jen tato otázka může nečekaně nasměrovat rozhovor úplně jiným směrem.
Smlouvy po telefonu? Raději ne
Pro mě osobně má tato zkušenost ještě jeden důsledek. Stejně bych nepodepisoval žádné smlouvy po telefonu - bez ohledu na to, zda je osoba, se kterou mluvím, člověk nebo stroj.
Telefonát je spontánní okamžik. Nemáte čas si v klidu vše ověřit, přečíst si informace nebo porovnat nabídky. Rozhodnutí učiněná za takových podmínek jsou málokdy zvlášť promyšlená.
Pokud má někdo opravdu zajímavou nabídku, může ji snadno poslat písemně. Pak máte možnost si vše v klidu prohlédnout a učinit informované rozhodnutí. To platí dnes více než kdy jindy. Pokud totiž stroje dokáží vést stále přesvědčivější rozhovory, bude o to důležitější nedělat rozhodnutí na základě momentální situace.
Pohled do budoucnosti
Možná si na podobné situace za pár let zvykneme. Možná bude jednou zcela normální, že některé naše rozhovory budou probíhat s automatizovanými systémy. Schůzky, služby zákazníkům nebo první konzultace budou vyřizovat stroje. Možná, že v určitém okamžiku spolu budou dva systémy dokonce hovořit po telefonu - zatímco lidé v pozadí uvidí pouze výsledek.
Zda tento vývoj považujete za vzrušující, nebo se k němu stavíte kritičtěji, je otázka na vás. V každém případě byl můj vlastní telefonát malým momentem, který mi ukázal, jak rychle se náš svět komunikace mění.
A možná tento článek pomůže jednomu nebo dvěma čtenářům, aby příště, až jim někdo nečekaně zavolá, naslouchali pozorněji.
Nikdy nevíte. Možná na druhém konci linky ani nikdo není.
Často kladené otázky
- Jak pravděpodobné je, že jsem skutečně telefonoval s umělou inteligencí, aniž bych si to uvědomoval?
To je nyní zcela možné. Moderní telefonní systémy umělé inteligence dokáží rozpoznat řeč, formulovat odpovědi a opět je vyslat jako přirozený hlas. V každodenním životě mnoho lidí vědomě nevěnuje pozornost drobným detailům, jako je minimální zpoždění odpovědi nebo neobvykle strukturované formulace. Může se proto stát, že rozhovor považují za zcela normální, přestože byl již technicky automatizován. Takové systémy se stále častěji používají v marketingu, zákaznickém servisu nebo při sjednávání schůzek. Často je obtížné zpětně určit, zda jste již osobně hovořili s umělou inteligencí - pravděpodobnost se však s každým technickým pokrokem zvyšuje. - Proč společnosti vůbec používají umělou inteligenci k volání lidem?
Hlavní důvod je ekonomické povahy. Telefonické kontakty se zákazníky jsou pro firmy poměrně nákladné, protože vyžadují personál, infrastrukturu a organizaci. Naproti tomu automatizované systémy mohou pracovat nepřetržitě a uskutečňovat mnoho hovorů najednou. Společnosti takové systémy často využívají k navázání prvního kontaktu nebo k předběžné filtraci potenciálních zákazníků. Pokud partner pro dialog projeví zájem, může jej pak převzít lidský zaměstnanec. Pro společnosti to znamená obrovské zvýšení efektivity. Lidé jsou pak nasazováni pouze tam, kde skutečně dochází k vážnému rozhovoru. - Zní dnes hlas umělé inteligence skutečně stejně realisticky jako lidský hlas?
V mnoha případech ano. Moderní syntéza řeči je dnes úžasně pokročilá. Hlasy lze generovat s přirozenou intonací, pauzami a dokonce i dialekty. Některé systémy jsou vycvičeny k napodobování typických vzorců lidské řeči, jako jsou drobné zvuky dechu nebo minimální prodlevy ve struktuře věty. Hlas tak působí mnohem autentičtěji než dříve. Zatímco dříve bylo možné počítačem generované hlasy snadno rozpoznat, dnes je rozdíl stále jemnější. Pro mnoho lidí v každodenním životě je jen stěží možné rozpoznat, zda hovoří se strojem, nebo s člověkem, jen na základě poslechu jeho hlasu. - Jak poznám, že možná telefonuji s umělou inteligencí?
Existuje několik možných vodítek, i když žádné z nich není přesvědčivým důkazem. Patří mezi ně krátké prodlevy po výpovědích, neobvykle strukturované odpovědi nebo průběh rozhovoru, který se zdá být velmi vyrovnaný. Některé systémy také reagují podivně na nečekané otázky a snaží se konverzaci nasměrovat zpět k původnímu tématu. Indicií může být také náhlé ukončení konverzace. Je však důležité poznamenat, že tyto charakteristiky nejsou vždy jednoznačné. Čím jsou systémy dokonalejší, tím obtížnější je v konverzaci rozpoznat rozdíl mezi člověkem a strojem. - Je vůbec právně přípustné volat lidem automatizovaně?
Právní situace v mnoha zemích je složitá a někdy přísně regulovaná. Neoprávněné reklamní hovory jsou často zakázány, zejména pro soukromé osoby. Pravidla platí také v podnikové sféře, například že musí existovat předpokládaný zájem. Při použití automatizovaných systémů se někteří poskytovatelé pohybují v šedé právní zóně. Proto mnoho společností reaguje na nevyžádané hovory velmi obezřetně. Základním pravidlem pro volající je, že nejsou povinni takové hovory uskutečňovat ani na nabídky reagovat. - Proč se mnozí lidé cítí takovými výzvami znepokojeni?
Telefonní hovor má přímý dopad na každodenní život. Zatímco reklamy na internetu nebo v e-mailu můžete ignorovat, telefonní hovor vyžaduje vaši okamžitou pozornost. Pokud je hovor navíc nečekaný a obsahuje prodejní nabídku, je pro mnoho lidí obtěžující. Pokud je navíc použit automat, mají někteří volající dojem, že jejich čas je brán v úvahu pouze jako statistická veličina v marketingové kampani. Tento dojem může rychle vést k pocitu neúcty. - Jsou tyto automatické hovory znamením, že lidé budou brzy nahrazeni stroji?
Ne nutně úplně. V mnoha oblastech se automatizované systémy používají spíše jako doplněk. Přebírají jednoduché nebo opakující se úkoly, jako je úvodní kontaktní rozhovor nebo sjednávání schůzek. Složitější rozhovory, poradenství nebo jednání stále vedou lidé. Trend často směřuje k hybridnímu modelu: stroj udělá první krok, člověk následuje později. Zda se tato rovnováha v budoucnu změní, závisí do značné míry na tom, jak se budou vyvíjet technologie a jak je budou firmy využívat. - Proč některé odpovědi zněly, jako by byly přečtené?
Mnoho automatizovaných systémů pracuje s tzv. skripty. To znamená, že určité výpisy nebo nabídky se skládají z připravených textových modulů. Zároveň může umělá inteligence tyto stavební bloky kombinovat s individuálně generovanými odpověďmi. Vzniká tak konverzace, která někdy působí spontánně a někdy zní jako připravený text. Pro partnera v dialogu to vytváří zvláštní dojem: odpovědi v zásadě odpovídají konverzaci, ale zároveň se zdají být neobvykle strukturované nebo hladce formulované. - Proč systémy umělé inteligence někdy reagují podivně na neočekávané otázky?
Automatizované dialogové systémy jsou obvykle trénovány na konkrétní konverzační sekvence. Rozpoznávají klíčová slova a odpovídají vhodnými odpověďmi. Pokud je však položena otázka, která se tomuto rámci vymyká, může se systém dostat do potíží. Některé systémy se pak snaží konverzaci nasměrovat zpět k původnímu tématu. Jiné konverzaci jednoduše ukončí. Tyto reakce se někdy zdají být pro člověka neobvyklé, protože od lidských konverzačních partnerů očekáváme spontánní improvizaci. - Je možné, aby spolu dva systémy umělé inteligence telefonovaly?
Technicky by to bylo zcela možné. Pokud se automatický volací systém setká s digitálním asistentem, mohly by spolu teoreticky komunikovat dva stroje. Oba by rozpoznávaly, interpretovaly a reagovaly na řeč. Takové scénáře jsou zatím vzácné, ale ukazují, do jaké míry lze komunikaci automatizovat. V budoucnu by k takovým interakcím mohlo docházet častěji, zejména v oblasti plánování schůzek nebo automatizovaných služeb. - Proč je rozumné být opatrný při telefonických nabídkách?
Telefonní hovory jsou spontánní situace. Na ověření informací nebo důkladné promyšlení nabídky je málo času. Proto mnoho odborníků obecně nedoporučuje činit důležitá rozhodnutí přímo po telefonu. Pokud je nabídka opravdu zajímavá, můžete požádat o zaslání informací písemně. Tím získáte možnost vše v klidu prozkoumat a porovnat různé možnosti. Tento přístup chrání před impulzivními rozhodnutími a možnými nedorozuměními. - Co mám dělat, když mám podezření, že telefonicky hovořím s umělou inteligencí?
Pokud chcete, můžete zpočátku reagovat jako obvykle a vést konverzaci. Pokud máte pochybnosti, můžete se také jednoduše přímo zeptat, zda se jedná o automatický systém. Další možností je konverzaci zdvořile ukončit. Nikdo není povinen účastnit se nechtěného prodejního hovoru. Důležité je především nenechat na sebe vyvíjet nátlak a nečinit rozhodnutí, která ve vás vyvolávají nepříjemné pocity. - Proč je tato technologie právě teď tak rozšířená?
V současné době probíhá několik technických změn. Pokrok v rozpoznávání řeči, výkonné modely řeči a realistická syntéza řeči výrazně zlepšily kvalitu těchto systémů. Zároveň se výrazně snížila cena této technologie. To ji činí atraktivní pro mnoho společností. To, co bylo dříve možné pouze pro velké korporace, mohou nyní využívat i menší společnosti. - Bude v budoucnu vyžadováno označování konverzací s umělou inteligencí?
O tom se diskutuje v mnoha zemích. Někteří odborníci požadují, aby automatizované systémy byly jasně rozpoznatelné jako umělá inteligence. Jiní argumentují, že by to bylo obtížně vymahatelné nebo by to mohlo omezit používání této technologie. Jak se tato otázka bude právně vyvíjet, se teprve uvidí. Je však docela možné, že budoucí předpisy budou vyžadovat větší transparentnost. - Proč je pro mnoho lidí obtížné takové systémy rozpoznat?
Lidé jsou zvyklí automaticky spojovat hlasy se skutečnými lidmi. Pokud hlas zní přirozeně a konverzace dává smysl, málokdy o něm pochybujeme. Náš mozek okamžitě interpretuje řeč jako lidskou komunikaci. Právě této důvěry využívají moderní systémy. Teprve když se nám v rozhovoru zdá něco neobvyklého - například podivná odpověď nebo nečekaná pauza -, začneme poslouchat pozorněji. - Jsou takové technologie zásadně problematické?
To do značné míry závisí na způsobu jejich použití. V některých oblastech mohou být automatické konverzace velmi užitečné, například v zákaznickém servisu nebo při sjednávání jednoduchých schůzek. Problémem se obvykle stává, když lidé nedokážou rozpoznat, že hovoří se strojem, nebo když se technologie používá k agresivnímu marketingu. Stejně jako u mnoha jiných technologií jde nakonec o zodpovědné používání. - Proč některé systémy reagují tak náhle a náhle ukončují konverzace?
Mnoho automatizovaných dialogových systémů se řídí jasně definovanými pravidly. Pokud jsou splněny určité podmínky - například jasné odmítnutí nabídky - systém dialog automaticky ukončí. Toto chování se lidem někdy zdá nezdvořilé nebo náhlé, protože jsme zvyklí nechat rozhovor skončit o něco déle. Pro automatizovaný systém je to však jednoduše naprogramované rozhodnutí. - Co se mohu z takových zkušeností naučit?
Nejdůležitější je asi zůstat ve střehu. Náš svět komunikace se velmi rychle mění. Hlasy, texty a konverzace mohou být nyní generovány automaticky. Zdravá dávka pochybností a vědomý přístup k takovým situacím nám může pomoci se s nimi lépe vypořádat. Pokud si najdete čas pozorněji naslouchat a klást otázky, někdy si uvědomíte více, než jste původně očekávali.


















