Há momentos na vida quotidiana que, à primeira vista, parecem completamente banais. Está sentado na sua secretária, a trabalhar num artigo, a pensar num novo tema - e de repente o telefone toca. Um número que não reconhecemos. No meu caso, era um código de marcação da região do Ruhr: 0233 qualquer coisa. Como trabalhador independente, recebe-se ocasionalmente chamadas deste género. Normalmente, trata-se de publicidade, serviços ou conselhos de que não precisamos de facto.
Atendi a chamada normalmente. Uma voz feminina simpática respondeu do outro lado. Apresentou-se como uma funcionária que trabalha com o Facebook e o Instagram. Sem surpresa, tratava-se de publicidade. Sobre anúncios. Sobre alcance. Visibilidade para as empresas.
A conversa começou exatamente com o mesmo tom de voz que conhecemos de tais chamadas telefónicas. Educado, profissional, um pouco ensaiado. Explicou-me que, atualmente, muitas empresas têm dificuldade em alcançar novos clientes. Especialmente no sector das pequenas e médias empresas - o chamado sector das PME - a publicidade online é um fator decisivo. O Facebook e o Instagram oferecem enormes oportunidades para chegar a potenciais clientes.
Enquanto ela falava, eu ouvia normalmente no início. Nada parecia invulgar. A voz parecia humana, natural, mesmo com um ligeiro dialeto do sul da Alemanha. Isso tornou tudo mais agradável do que intrusivo. Não parecia um centro de atendimento tradicional algures no mundo, mas sim alguém que estava realmente a ligar da Alemanha.
Normalmente, estas conversas seguem sempre o mesmo padrão. A dada altura, chega o momento em que a pessoa a quem se ligou explica porque é que a oferta não é relevante para ela. E foi exatamente isso que eu fiz.
Disse-lhe que compreendia basicamente o que ela queria dizer, mas que as redes sociais desempenham um papel mais secundário para mim. O meu trabalho principal é outro. Dirijo uma editora, trabalho em artigos, livros e na minha revista. As redes sociais são mais um espetáculo à parte. Podem ser úteis, mas não são o centro do meu trabalho. Expliquei-lhe isto com relativa calma.
Inicialmente, ela reagiu como seria de esperar. Ouviu, confirmou brevemente e depois continuou a conversa. Nessa altura, começou a descrever-me uma oferta específica. Tratava-se de uma espécie de campanha publicitária especialmente concebida para empresas. Dizia-se que era capaz de alcançar uma visibilidade de cerca de cinco mil potenciais clientes. Falou da importância da presença digital, de como as empresas podiam aumentar o seu alcance e de como o Facebook e o Instagram as ajudariam a chegar a novos grupos-alvo.
O conteúdo em si não era surpreendente. Qualquer pessoa que já tenha falado com agências de marketing conhece este tipo de frases. Mas algo na forma como ela falava estava a começar a irritar-me. O tom de voz pareceu-me de repente um pouco diferente. Parecia que ela estava a ler algo em voz alta. Não necessariamente óbvio. Mas de alguma forma demasiado suave, demasiado estruturado, demasiado perfeitamente formulado. Era como se ela estivesse a fazer uma apresentação, frase a frase.

Continuei a ouvir e, de início, não pensei em mais nada. Talvez ela tivesse mesmo um modelo à sua frente. Afinal de contas, é exatamente assim que se desenrolam muitas reuniões de vendas.
Por isso, voltei a responder às suas afirmações. Expliquei mais uma vez que compreendia a perspetiva deles, mas que, de momento, não tinha necessidade de tais anúncios. O meu trabalho funciona de forma diferente. Construo conteúdos, escrevo artigos, desenvolvo temas a longo prazo. As redes sociais podem ajudar neste processo, mas não são a alavanca central.
Enquanto estava a dizer isto, aconteceu uma coisa interessante.
Houve uma breve pausa. Apenas durante cerca de um segundo.
Depois veio uma resposta que correspondia ao conteúdo do que eu tinha acabado de dizer. Disse que, obviamente, eu já tinha uma certa presença nos meios de comunicação social e que, por isso, talvez estabelecesse prioridades diferentes. Se alguém já construiu um alcance, a publicidade é, naturalmente, uma decisão diferente da das empresas que estão a começar.
A frase encaixava surpreendentemente bem no que eu tinha acabado de dizer. Mas, ao mesmo tempo, voltou a soar estranha. Outra vez aquele tom ligeiramente pré-lido. De novo aquela estrutura que parecia um texto preparado.
Nesse momento, comecei a ouvir com mais atenção. Porque, de repente, surgiu uma pergunta muito simples. Se ela está realmente a ler um guião - de onde vem esta resposta que responde tão precisamente à minha afirmação? Será que ela tem mesmo centenas de folhas de texto diferentes à sua frente, que seleciona consoante o desenrolar da conversa? Ou será que se passa mais alguma coisa?
Enquanto pensava nisso, reparei noutra coisa. O fluxo da conversa era estranhamente uniforme. Não havia reacções espontâneas, nem pequenos deslizes de linguagem, nem formulações improvisadas. Tudo soava incrivelmente limpo, quase demasiado limpo.
E, de repente, surgiu uma nova possibilidade na minha cabeça. Talvez eu não esteja a falar com uma pessoa. Talvez não haja uma pessoa real do outro lado da linha - mas um sistema. Uma voz artificial. Uma IA.
No início, a ideia parecia absurda. Mas quanto mais pensava nisso, mais plausível se tornava. Porque uma coisa não se encaixava: As respostas pareciam simultaneamente adaptadas e, no entanto, como se tivessem sido lidas. Como se alguém percebesse o que eu estava a dizer - mas continuasse a recorrer a módulos de texto previamente preparados.
Comecei a perguntar-me quantos sistemas deste género existem atualmente. Quantas conversas poderiam já não ter lugar entre pessoas, mas entre pessoas e máquinas. E foi precisamente nesse momento que decidi fazer uma pergunta muito simples.
Uma pergunta que resolveria imediatamente este mistério.
O momento da verdade
Então, nesse momento, tive um pensamento na minha cabeça: talvez não esteja a falar com uma pessoa. Quanto mais pensava nisso, mais pormenores da conversa se encaixavam. As pequenas demoras após as minhas respostas. A forma estranhamente uniforme de falar. As frases que pareciam individuais ao mesmo tempo, mas que tinham sempre um carácter ligeiramente pré-lido.
Era como se um puzzle se estivesse a compor lentamente. Por isso, decidi resolvê-lo de imediato. Nada de testes complicados, nada de perguntas com truques. Apenas uma pergunta simples e clara. Interrompi a conversa por breves instantes e disse:
„Tenho outra pergunta.“
No outro lado da linha, houve outra pequena pausa. Não muito longa, talvez um segundo. Mas o tempo suficiente para estar conscientemente ciente disso.
Depois fiz a pergunta que estava na ponta da língua:
„Estou mesmo a falar com um humano ou com um robô?“
Era uma pergunta muito direta. Na verdade, uma pergunta a que uma pessoa poderia responder sem problemas. Seria de esperar que alguém se risse, talvez reagisse um pouco irritado ou simplesmente dissesse: „Claro que estás a falar comigo.“
Mas foi exatamente isso que não aconteceu. Em vez disso, recebemos uma resposta que inicialmente parecia evasiva.
A voz disse-me que podia garantir que uma pessoa real me contactaria se eu estivesse interessado numa consulta. Poderíamos então discutir em conjunto as opções que fariam sentido para a minha empresa.
A resposta pareceu-me educada. Profissional. Mas não respondeu à minha pergunta. Eu não tinha perguntado se a pessoa entraria em contacto mais tarde. Tinha perguntado com quem estava a falar agora. Esta discrepância tornou a situação ainda mais interessante. Porque um interlocutor humano teria provavelmente entendido a minha pergunta de forma diferente. Talvez se tivesse questionado por um momento, talvez se tivesse rido ou até reagido um pouco ofendido. Mas provavelmente teria respondido diretamente.

Aqui, porém, aconteceu outra coisa. A resposta foi evasiva. Ela voltou ao objetivo inicial da conversa: vender uma sessão de aconselhamento. Foi nesse momento que as minhas suspeitas se tornaram finalmente mais fortes.
Então, calmamente, expliquei mais uma vez que não estava interessada na oferta. Repeti o que já tinha dito antes: as redes sociais não são um tema central para mim. Estou a trabalhar numa revista, em artigos, em livros e na minha editora. A publicidade no Facebook não é uma das minhas prioridades neste momento.
Enquanto falava, ouvia com atenção.
Houve outra pequena pausa. Depois veio outra resposta - novamente educada, novamente amigável, mas novamente com aquele tom ligeiramente mecânico. Era difícil descrever o que era exatamente invulgar. A voz parecia humana, as palavras estavam corretas, as frases faziam sentido. E, no entanto, faltava qualquer coisa. Talvez fosse aquela imprevisibilidade subtil que as conversas reais normalmente têm. As pessoas reagem espontaneamente. Mudam o tom de voz, interrompem-se umas às outras, improvisam.
Aqui, por outro lado, tudo parecia estruturado. Ordenado. Como se um sistema invisível no fundo estivesse a decidir que frase deveria ser dita a seguir. Por isso, voltei a tentar. Não de forma agressiva, nem em confronto - simplesmente curioso.
Basicamente, repeti que estava menos interessado na oferta do que na questão de saber com quem estava realmente a falar. Mas desta vez não houve uma nova explicação. Em vez disso, o tom da conversa mudou subitamente.
A voz disse-lhe, de forma brusca, que tinha de seguir em frente. Havia outras tarefas. Depois despediu-se.
„Agora tenho de seguir em frente. Adeus.“
E assim terminou a conversa. Não houve mais argumentos, nem tentativas de me convencer, nem perguntas. A conversa foi simplesmente cancelada.
Fiquei ali sentado por um momento e olhei para o meu telemóvel. Era uma sensação estranha. Porque a conversa tinha parecido completamente normal durante vários minutos. Parecia uma típica chamada de vendas, daquelas que se conhecem há anos. Uma voz amiga, uma oferta, algumas objecções, algumas respostas.
E, no entanto, esta sensação estranha permaneceu no final. E se eu tivesse acabado de falar com uma máquina? E se esta voz, que falou tão naturalmente sobre marketing, alcance e potenciais clientes, não estivesse a vir de um ser humano? Porque, para ser sincero, este cenário enquadra-se perfeitamente nos tempos que estamos a viver. Sistemas que escrevem textos. Programas que mantêm conversas. Vozes artificiais que quase não se distinguem de pessoas reais.
Talvez fosse exatamente isso que tinha acabado de acontecer. Talvez eu tivesse acabado de receber uma chamada de uma máquina - e quase nem me apercebi disso. Não conseguia deixar de pensar nisso. E quanto mais pensava nisso, mais me apercebia de que, mesmo que estivesse errado neste caso específico, isso não importava.
Porque a tecnologia que tornaria essa conversa possível já existe há muito tempo. E se existe, então será utilizada. Portanto, a verdadeira questão já não é se essas conversas acontecem. A única questão é saber com que frequência.
Inquérito atual sobre a utilização de sistemas locais de IA
A nova geração de IA telefónica
Quando olhei para o meu telemóvel depois da conversa, não consegui tirar uma pergunta da cabeça: qual é a probabilidade de eu estar a falar com uma máquina? Há apenas alguns anos, esta ideia teria provavelmente sido rapidamente descartada. As conversas telefónicas foram uma das áreas em que os humanos foram considerados insubstituíveis durante muito tempo. A linguagem é complexa, espontânea e cheia de nuances. Dialectos, ironia, pequenas pausas, entoações - tudo isto tornava a comunicação humana tão difícil para as máquinas.
Mas esta imagem está a começar a mudar. O que muitas pessoas ainda não perceberam: Os requisitos técnicos para que as máquinas sejam capazes de fazer chamadas telefónicas convincentes já estão, em grande parte, estabelecidos. E estão a desenvolver-se a um ritmo espantoso.
Do comando de voz à conversação real
O primeiro passo neste caminho começou com sistemas de voz relativamente simples. Muitas pessoas estão familiarizadas com eles no seu quotidiano: assistentes de voz em smartphones, sistemas de navegação em automóveis ou ajudantes digitais em casa.
No início, estes sistemas só conseguiam compreender comandos simples. Podíamos perguntar-lhes como estava o tempo, pôr música ou introduzir um endereço. As suas respostas eram pré-programadas e os diálogos eram muito limitados.
No entanto, com o advento dos modelos linguísticos modernos, a situação mudou radicalmente. Atualmente, os sistemas são capazes de reconhecer, analisar e reagir à linguagem falada quase em tempo real. Uma conversa com uma máquina passa por várias etapas técnicas em segundo plano:
- Em primeiro lugar, a língua falada da pessoa é reconhecida e convertida em texto. O chamado reconhecimento de voz tornou-se tão preciso que até os dialectos ou os ruídos de fundo deixaram de ser um grande problema.
- Um modelo linguístico analisa então o conteúdo do enunciado. Tenta compreender o que se pretende dizer, qual a intenção por detrás da pergunta e qual a resposta adequada.
- Na etapa seguinte, o sistema formula uma resposta - já não apenas a partir de um guião fixo, mas muitas vezes gerada dinamicamente a partir de um grande modelo linguístico.
- Finalmente, este texto é convertido novamente em linguagem falada. Os sistemas modernos de síntese de voz podem produzir vozes que soam surpreendentemente realistas.
O resultado é uma conversa que pode parecer surpreendentemente natural para as pessoas.
Porque é que as máquinas estão subitamente a fazer chamadas telefónicas
No entanto, a questão não é apenas saber se esta tecnologia existe. A questão realmente interessante é: porque é que as empresas a utilizam?
A resposta é relativamente simples. Os contactos telefónicos com os clientes são uma das áreas mais dispendiosas para muitas empresas. Os centros de atendimento tradicionais requerem pessoal, formação, postos de trabalho e infra-estruturas. Os empregados têm de ser pagos, precisam de fazer pausas e só podem fazer um número limitado de chamadas por dia.
Uma máquina, por outro lado, funciona de forma completamente diferente. Um sistema automatizado pode falar com muitas pessoas ao mesmo tempo. Pode trabalhar 24 horas por dia sem se cansar. E incorre apenas numa fração dos custos por chamada que um empregado humano incorreria.
Para as empresas que pretendem contactar milhares de potenciais clientes, esta é uma enorme vantagem económica. No sector do marketing, em particular, estão a ser desenvolvidos cada vez mais sistemas precisamente para este fim: realizar chamadas de venda ou de consulta automatizadas. Estes sistemas podem, por exemplo:
- Contactar potenciais clientes
- Organizar marcações
- Realizar sessões de aconselhamento inicial
- Consulta de interesse
- Pré-qualificar contactos para vendedores humanos
Muitas vezes, as pessoas só entram em ação mais tarde - quando já é evidente que existe um interesse real.
A abordagem híbrida: guião e IA
Muitos destes sistemas não funcionam de forma totalmente livre, mas sim de acordo com o chamado modelo híbrido. Isto significa que parte da conversa segue um guião fixo, semelhante ao dos call centers tradicionais. Certas afirmações, ofertas ou explicações são apresentadas numa forma pré-determinada.
Ao mesmo tempo, porém, uma IA analisa o que a outra pessoa está a dizer e pode reagir a determinadas palavras-chave ou afirmações.
É precisamente esta combinação que cria a impressão de uma verdadeira conversa. Algumas respostas parecem espontâneas e individuais, enquanto outras soam como módulos de texto preparados. Muitas vezes, é difícil para o interlocutor reconhecer se há uma pessoa ou um sistema do outro lado.
Olhando para trás, este padrão correspondia surpreendentemente bem à conversa que tive. Algumas das respostas pareciam muito adaptadas ao que eu tinha dito, enquanto outras soavam quase como se tivessem sido lidas.
Vozes que parecem pessoas
No entanto, talvez a parte mais surpreendente desta evolução seja a própria voz. Há apenas alguns anos, as vozes geradas por computador soavam nitidamente artificiais. Eram monótonas, mecânicas e relativamente fáceis de reconhecer.
Atualmente, as coisas são muito diferentes. A síntese de voz moderna pode produzir vozes que soam incrivelmente naturais. Podem imitar emoções, incorporar pequenas pausas e até imitar colorações regionais.
Um ligeiro dialeto, como o que ouvi na minha conversa, já não é um problema técnico. Para muitas pessoas, isto torna cada vez mais difícil distinguir entre vozes reais e vozes geradas artificialmente.
Uma mudança silenciosa
O interessante desta evolução é o facto de estar a passar praticamente despercebida. Não há grandes manchetes sobre máquinas que, de repente, fazem chamadas telefónicas. Não há anúncios óbvios de que um interlocutor pode não ser humano de todo.
Em vez disso, a tecnologia está a entrar lentamente na vida quotidiana. Um telefonema aqui, uma marcação ali, uma chamada para o serviço de apoio ao cliente noutro lugar. E, cada vez com mais frequência, a voz simpática ao telefone pode já não ser uma pessoa - mas um sistema que foi treinado para imitar conversas humanas da forma mais convincente possível.
Não é possível afirmar com absoluta certeza, em retrospetiva, se este era efetivamente o caso quando telefonei, mas é muito provável. Mas uma coisa é certa: as possibilidades técnicas para o efeito existem há muito tempo. E estão a melhorar todos os meses.
Quando a voz da sua própria filha se torna uma armadilha
Um exemplo particularmente chocante da má utilização da moderna tecnologia de IA é mostrado numa reportagem da Hessischer Rundfunk. Nela, uma mulher relata uma chamada em que julgou ouvir a sua própria filha ao telefone. A voz soava ao mesmo tempo a pânico e a familiaridade:
Tinha havido um acidente grave, uma pessoa tinha morrido e havia agora a ameaça de prisão preventiva. Pouco tempo depois, uma alegada mulher polícia entrou em contacto e explicou que a libertação só seria possível mediante uma fiança elevada. A quantia exigida era de cerca de 120.000 euros. Só mais tarde se veio a saber que a voz da filha tinha sido enganosamente simulada com a ajuda de inteligência artificial.
Novo esquema pérfido que utiliza a inteligência artificial torre principal
O caso demonstra de forma impressionante até que ponto a síntese de voz moderna pode ser convincente - e até que ponto é importante não confiar cegamente em vozes familiares quando se fazem chamadas inesperadas.
Centros de atendimento sem pessoas
Se pararmos um momento para nos distanciarmos da nossa própria experiência e analisarmos o assunto com sobriedade, rapidamente se torna claro por que razão as empresas têm a ideia de permitir que as máquinas façam chamadas telefónicas. A verdadeira força motriz por detrás deste desenvolvimento não é o entusiasmo pela tecnologia. É a economia.
Os centros de atendimento telefónico são, desde há décadas, uma das áreas mais dispendiosas de muitas empresas. Quer se trate do serviço de apoio ao cliente, da marcação de consultas ou de chamadas de vendas - os custos são incorridos sempre que são efectuadas chamadas telefónicas. Os empregados têm de ser contratados, formados e pagos. Os postos de trabalho têm de ser montados. Depois, há os horários de trabalho, as pausas, os direitos a férias e as baixas por doença.
Tudo isto é completamente normal e natural, desde que as pessoas façam este trabalho. Mas, na perspetiva de uma empresa, cada um destes factores implica custos adicionais.
É precisamente aqui que começa o atrativo dos sistemas automatizados. Uma máquina não precisa de um local de trabalho, de férias ou de uma pausa. Teoricamente, pode trabalhar 24 horas por dia. E pode falar com muitas pessoas ao mesmo tempo.
Enquanto um empregado humano pode fazer cinquenta ou sessenta chamadas por dia, um sistema automatizado pode fazer centenas ou mesmo milhares de contactos. Mesmo que apenas uma pequena parte destas conversas conduza a um cliente efetivo, pode rapidamente compensar em termos económicos. Isto explica porque é que as empresas de marketing e vendas, em particular, estão muito interessadas nestas tecnologias.
O processo é geralmente relativamente simples:
- Em primeiro lugar, é criada uma grande lista de potenciais contactos. Esta pode provir de várias fontes: bases de dados de empresas acessíveis ao público, diretórios de empresas ou dados de clientes existentes.
- Um sistema automatizado estabelece então o primeiro contacto. A máquina telefona, apresenta-se e inicia uma conversa de acordo com um determinado padrão. Explica uma oferta, faz algumas perguntas e tenta descobrir se existe um nível básico de interesse.
- Em muitos casos, a chamada termina imediatamente. Se a pessoa chamada não estiver interessada, o contacto é simplesmente terminado. Se, por outro lado, for sinalizado interesse, o sistema pode reencaminhar o contacto para um funcionário humano.
As pessoas só entram em ação quando um potencial cliente já está qualificado.
Que profissões podem desaparecer a seguir
A chamada telefónica descrita não é um incidente isolado, mas faz parte de um desenvolvimento mais vasto. A inteligência artificial está atualmente a mudar indústrias inteiras - muitas vezes mais rapidamente do que muitas pessoas imaginam. As actividades com muitos processos recorrentes, como o apoio ao cliente, os centros de atendimento, o processamento ou o trabalho simples de texto e tradução, são particularmente afectadas. Atualmente, os modelos modernos de voz e os voicebots podem conduzir conversas, analisar documentos ou responder a e-mails - 24 horas por dia e sem interrupções. Consequentemente, muitos dos empregos tradicionais de escritório e de comunicação estão a ficar sob pressão. No meu artigo de fundo pormenorizado „Inteligência artificial: que empregos estão em risco - e como nos podemos armar agora“ Mostro quais são as profissões particularmente afectadas e por que razão faz sentido preparar-se para estas mudanças numa fase inicial.
Esta é uma enorme vantagem para as empresas
Isto porque a maioria dos contactos telefónicos no sector das vendas termina, de qualquer modo, com um cancelamento. Telefonar a pessoas que não estão interessadas é frequentemente a parte mais morosa do trabalho de um vendedor. Os sistemas automatizados podem assumir esta parte e, assim, aliviar o fardo dos empregados humanos.
Isto também explica porque é que muitos destes sistemas não tentam substituir toda a conversa. Apenas assumem o primeiro passo. Poder-se-ia dizer: a máquina abre a porta, o ser humano só mais tarde assume a conversa propriamente dita.
Outra vantagem é a escalabilidade. Um call center tradicional só pode atender tantas chamadas quantos os funcionários disponíveis. Se uma empresa quiser lançar subitamente uma campanha maior, terá de contratar e formar novos funcionários.
Um sistema automatizado, por outro lado, pode ser expandido quase imediatamente. Uma vez configurado o software, podem ser efectuadas chamadas adicionais com relativamente pouco esforço. Novas campanhas podem ser lançadas num curto espaço de tempo sem necessidade de aumentar o número de funcionários. Esta flexibilidade é particularmente atractiva no mundo do marketing digital.

Outro fator que é frequentemente ignorado: A consistência
As pessoas nunca conversam exatamente da mesma forma. Um vendedor pode estar a ter um dia mau, estar cansado ou stressado. Outro está particularmente motivado e persuasivo. Estas diferenças fazem parte do comportamento humano.
As máquinas, por outro lado, trabalham de acordo com regras claras. Dizem sempre as mesmas coisas, fazem sempre as mesmas perguntas e seguem rigorosamente o modelo de diálogo predefinido. Do ponto de vista de muitas empresas, isto é uma vantagem porque uniformiza a qualidade dos primeiros contactos.
É claro que há um outro lado deste desenvolvimento. Uma conversa com um ser humano é diferente de uma conversa com uma máquina. Mesmo que uma voz artificial soe convincente, falta-lhe frequentemente algo que é difícil de descrever: a dinâmica espontânea da comunicação humana.
Um ser humano pode improvisar, mostrar humor, fazer uma observação inesperada ou simplesmente reagir espontaneamente. As máquinas continuam a ter dificuldade em lidar com estas situações, mesmo que as suas capacidades estejam a melhorar rapidamente.
É por esta razão que muitas empresas recorrem a uma abordagem híbrida. A máquina assume os contactos iniciais, filtra as potenciais perspectivas e, em seguida, transmite-as a funcionários reais. Isto cria uma combinação de eficiência automatizada e comunicação humana. Para muitas empresas, este é atualmente o compromisso ideal.
Mas mesmo este estado intermédio pode ser apenas uma fase de transição. Porque quanto melhor os sistemas se tornam, mais tarefas podem assumir. O que hoje ainda é uma simples consulta inicial, amanhã pode ser uma sessão de aconselhamento completa.
As questões que se colocam nesta matéria são menos técnicas do que sociais.
- Como é que a nossa comunicação vai mudar quando as máquinas conduzirem cada vez mais as conversas?
- E como é que lidamos com o facto de já não podermos ter a certeza de que existe realmente uma pessoa do outro lado da linha?
Talvez seja precisamente neste ponto que a minha pequena experiência com este estranho telefonema adquire subitamente um maior significado. Porque o que começou por ser um telefonema de vendas vulgar pode ter sido, de facto, um pequeno vislumbre do futuro.
Como reconhecer uma IA de telemóvel?
Depois de ter terminado a conversa, ficou uma pergunta na sala: será que eu poderia ter reconhecido se se tratava de uma máquina?
É precisamente este o verdadeiro desafio desta nova tecnologia. Os sistemas de voz modernos são agora tão convincentes que muitas pessoas já nem se apercebem de que estão a falar com uma IA. As vozes soam naturais, as respostas parecem lógicas e mesmo pequenas pausas ou dialectos podem agora ser imitados de forma surpreendente.
No entanto, existem alguns indícios a que se pode estar atento. Nenhuma destas observações constitui, por si só, uma prova segura. Mas, em conjunto, podem dar uma ideia bastante clara.
Pequenos atrasos no diálogo
A primeira pista é, muitas vezes, um atraso muito curto após uma afirmação. Quando as pessoas falam umas com as outras, normalmente reagem imediatamente. Claro que também há pequenas pausas, mas estas surgem da conversa - porque alguém está a pensar ou a organizar as suas palavras.
Nos sistemas de IA, a pausa resulta de um processo técnico. Primeiro, o sistema tem de reconhecer a língua falada. De seguida, o texto é analisado. O sistema formula então uma resposta e converte-a novamente em linguagem falada.
Este processo demora apenas uma fração de segundo. No entanto, por vezes é possível notar este pequeno atraso. Reparei nessa pausa várias vezes durante a minha conversa. Não foi suficientemente longa para me fazer suspeitar imediatamente. Mas era suficientemente clara para ser notada em algum momento.
Respostas que se encaixam e, ao mesmo tempo, parecem estranhas
Outra pista pode ser a estrutura das respostas. É frequente as pessoas reagirem espontaneamente nas conversas. Reformulam as frases, fazem pequenos desvios, pegam em palavras individuais ou fazem contra-perguntas.
Os sistemas automatizados, por outro lado, trabalham frequentemente com uma mistura de módulos de texto preparados e respostas geradas. Isto leva a um efeito estranho: a resposta corresponde basicamente à conversa - mas ao mesmo tempo soa como se alguém estivesse a ler algo em voz alta.
No meu caso, foi precisamente esse o ponto que me fez pensar. Algumas das respostas pareciam estar surpreendentemente adaptadas às minhas afirmações. No entanto, ao mesmo tempo, soavam tão suaves e estruturadas como se viessem de um modelo preparado.
Esta combinação é típica dos chamados sistemas de diálogo híbridos que combinam guião e IA.
A voz incrivelmente perfeita
Curiosamente, a própria voz já não é, muitas vezes, um indicador fiável. No passado, as vozes artificiais eram relativamente fáceis de reconhecer. Tinham um som monótono, mecânico e uma qualidade informática claramente audível.
Atualmente, isto mudou drasticamente. A síntese de voz moderna pode produzir vozes que soam incrivelmente naturais. Podem mesmo simular pequenas pausas na respiração, entoação ou nuances emocionais. Alguns sistemas são agora capazes de imitar colorações de fala regionais - tal como o dialeto do sul da Alemanha que ouvi ao telefone.
Para muitas pessoas, uma voz assim parece completamente autêntica. Isto significa que, muitas vezes, já não é possível reconhecer se se está a falar com um humano ou com uma máquina simplesmente pelo som da voz.
Dificuldades com perguntas inesperadas
Um momento particularmente interessante surge muitas vezes quando se faz uma pergunta que não se enquadra no curso pretendido da conversa.
As pessoas podem improvisar nestas situações. Pensam brevemente e reagem espontaneamente.
Os sistemas de IA, por outro lado, estão muitas vezes preparados para determinadas conversas. Se surgir uma questão fora deste quadro, por vezes vacilam. Isto pode manifestar-se de várias formas:
- A resposta evita a pergunta.
- O sistema regressa subitamente ao tema inicial.
- A conversa termina de forma inesperada.
Foi exatamente isso que aconteceu no meu caso. Quando perguntei se estava a falar com um humano ou com um robô, não obtive uma resposta direta. Em vez disso, a conversa foi desviada para a oferta de venda propriamente dita.
E quando voltei a perguntar, a conversa acabou por terminar.
Conversas que terminam abruptamente
Outro indício pode ser um final de conversa invulgarmente abrupto. Normalmente, as pessoas tentam terminar uma conversa de forma educada. Mesmo que alguém não esteja interessado, é frequente haver uma breve troca de palavras, um agradecimento ou um comentário final.
Os sistemas automatizados, por outro lado, funcionam com regras claras. Se estiverem reunidas determinadas condições - como uma rejeição clara - a chamada é terminada. Por vezes, isto acontece com uma rapidez surpreendente, porque o sistema já não oferece mais nenhuma estratégia de diálogo.
A frase que ouvi no final enquadrava-se perfeitamente neste padrão:
„Desculpa, tenho de ir andando. Adeus.“
Uma frase final rápida - e a conversa terminou.
Porque é que muitas pessoas não notam a diferença
O que é fascinante neste desenvolvimento é que a maioria das pessoas dificilmente se apercebe destes pormenores na vida quotidiana. As chamadas telefónicas são uma parte rotineira das nossas vidas. Ouvimos uma voz, falamos brevemente e depois desligamos novamente. Só raramente alguém analisa o curso da conversa com tanta precisão.
É precisamente por isso que os sistemas automatizados podem agora ser utilizados de forma relativamente discreta. Desde que a conversa pareça razoavelmente plausível e o conteúdo seja compreensível, muitas pessoas nem sequer questionam com quem estão a falar.
Só quando algo não bate certo - uma pausa estranha, uma resposta invulgar ou uma resposta evasiva - é que surge este pequeno sentimento de irritação. Tive essa sensação durante o meu telefonema. E foi precisamente essa sensação que me deu a ideia de fazer a pergunta crucial.
A pergunta que provavelmente revelou que eu tinha acabado de falar com uma máquina.

Quando as máquinas telefonam - e o que podemos aprender com elas
Após a conversa, fiquei com uma impressão estranha. Por um lado, a chamada não foi nada de especial. Como empresário, recebe-se ocasionalmente chamadas de vendas como esta. Por outro lado, esta conversa tinha-me parecido diferente. Não dramaticamente diferente - mas tão invulgar que demorei algum tempo a perceber porquê.
A ideia de que talvez não houvesse um ser humano do outro lado da linha nunca me abandonou. E quanto mais pensava no assunto, mais me apercebia de que, mesmo que estivesse errado neste caso específico, o desenvolvimento por detrás dele há muito que se tinha tornado realidade. Atualmente, as máquinas podem manter conversas. Podem telefonar a pessoas, fazer perguntas e dar respostas. E provavelmente fá-lo-ão cada vez com mais frequência.
Isto levanta uma questão que vai para além da minha experiência pessoal. Como é que lidamos com o facto de as máquinas começarem a telefonar-nos?
Aquisição de telefones - já hoje um tema sensível
Mesmo antes da entrada em cena da inteligência artificial, a publicidade telefónica era uma área sensível. Em muitos países - incluindo a Alemanha - as chamadas frias, ou seja, as chamadas não solicitadas para potenciais clientes, são severamente restringidas por lei. Em muitos casos, é simplesmente proibido, especialmente para particulares.
Mesmo no sector empresarial, este tipo de prospeção encontra-se frequentemente numa zona cinzenta. Tem de haver um interesse presumido e muitas empresas reagem atualmente de forma muito sensível a chamadas de publicidade não desejadas.
A razão é simples: uma chamada telefónica interrompe imediatamente a vida quotidiana das pessoas. Enquanto um e-mail pode ser ignorado e a publicidade na Internet é muitas vezes simplesmente ignorada, uma chamada telefónica obriga a pessoa chamada a reagir imediatamente. A pessoa tem de decidir se atende, ouve ou termina a chamada.
Se também existirem sistemas automatizados por detrás dessas chamadas, esta discussão assume uma nova dimensão. Afinal de contas, as máquinas podem, teoricamente, telefonar a milhares de pessoas por dia.
Inquérito atual sobre a digitalização na vida quotidiana
O tempo é o recurso mais escasso
A verdadeira questão que me incomoda neste tipo de chamadas nem sequer é a tecnologia em si. A tecnologia evolui e estão constantemente a surgir novas possibilidades. Isso faz parte do mundo moderno. O que me preocupa mais é outra questão: até que ponto as empresas tratam o tempo das outras pessoas com respeito?
O tempo é provavelmente o recurso mais escasso que temos. Cada um de nós tem apenas um número limitado de horas por dia. E cada um decide por si próprio como quer passar esse tempo. Uma chamada não solicitada - quer seja de uma pessoa ou de um atendedor de chamadas - rouba esse tempo.
Se os sistemas automatizados forem também utilizados para contactar o maior número possível de pessoas, rapidamente surge a impressão de que a hora da pessoa chamada é apenas um fator estatístico numa estratégia de marketing. Talvez seja precisamente por esta razão que estas chamadas deixam muitas vezes uma má sensação. Não porque a tecnologia seja impressionante, mas porque mostra como é fácil automatizar a comunicação - mesmo quando é efetivamente necessária uma atenção pessoal.
Uma dose saudável de dúvida não faz mal nenhum
Em todo o caso, o meu pequeno telefonema deixou-me claro uma coisa: No futuro, será provavelmente cada vez mais difícil reconhecer com quem estamos realmente a falar. Chamadas telefónicas, mensagens de chat, e-mails - muito disto pode agora ser gerado automaticamente. As vozes podem ser sintetizadas, os textos podem ser criados em segundos e conversas inteiras podem ser programadas.
É por isso que uma dose saudável de dúvida talvez não seja a pior atitude a ter. Se uma conversa parecer estranhamente estruturada, se as respostas forem formuladas de forma invulgarmente suave ou se as perguntas forem subitamente evitadas, pode valer a pena parar por um momento e fazer perguntas. Por vezes, uma simples pergunta como:
„Estou a falar com uma pessoa ou com uma máquina?“
Esta pergunta, por si só, pode levar uma conversa a uma direção completamente diferente.
Contratos ao telefone? É melhor não
Para mim, pessoalmente, esta experiência tem outra consequência. De qualquer forma, não assinaria nenhum contrato por telefone, independentemente de a pessoa com quem estou a falar ser um ser humano ou uma máquina.
Uma chamada telefónica é um momento espontâneo. Não se tem tempo para verificar as coisas com calma, ler informações ou comparar ofertas. As decisões tomadas nestas condições raramente são muito bem pensadas.
Se alguém tiver realmente uma proposta interessante, pode facilmente enviá-la por escrito. Assim, tem a oportunidade de analisar tudo com calma e tomar uma decisão informada. Isto aplica-se hoje mais do que nunca. Porque se as máquinas podem conduzir conversas cada vez mais convincentes, será ainda mais importante não tomar decisões no calor do momento.
Um olhar sobre o futuro
Talvez nos tenhamos habituado a situações como esta dentro de alguns anos. Talvez, a dada altura, seja completamente normal que algumas das nossas conversas tenham lugar com sistemas automatizados. As marcações, o serviço de apoio ao cliente ou as primeiras consultas serão efectuados por máquinas. Talvez, a dada altura, dois sistemas cheguem mesmo a falar um com o outro ao telefone - enquanto as pessoas em segundo plano apenas vêem o resultado.
Se esta evolução é interessante para si ou se tem uma visão mais crítica, é uma questão pessoal. Em todo o caso, o meu telefonema foi um pequeno momento que me mostrou como o nosso mundo da comunicação está a mudar rapidamente.
E talvez este artigo ajude um ou dois leitores a ouvir com um pouco mais de atenção da próxima vez que receberem um telefonema inesperado.
Nunca se sabe. Pode nem sequer haver uma pessoa do outro lado da linha.
Perguntas mais frequentes
- Qual é a probabilidade de eu ter falado com uma IA ao telefone sem me aperceber?
Atualmente, isso é perfeitamente possível. Os sistemas modernos de IA para telefones podem reconhecer o discurso, formular respostas e emiti-las novamente como uma voz natural. Na vida quotidiana, muitas pessoas não prestam conscientemente atenção a pequenos pormenores, como atrasos mínimos na resposta ou formulações invulgarmente estruturadas. Por isso, pode acontecer que uma conversa seja considerada completamente normal, mesmo que já tenha sido tecnicamente automatizada. Estes sistemas estão a ser cada vez mais utilizados no marketing, no serviço ao cliente ou na marcação de reuniões. Muitas vezes é difícil determinar, em retrospetiva, se já se falou pessoalmente com uma IA antes - mas a probabilidade aumenta com cada avanço técnico. - Para começar, porque é que as empresas utilizam a IA para telefonar às pessoas?
A principal razão é de natureza económica. Os contactos telefónicos com os clientes são relativamente dispendiosos para as empresas porque requerem pessoal, infra-estruturas e organização. Os sistemas automatizados, por outro lado, podem funcionar 24 horas por dia e efetuar muitas chamadas ao mesmo tempo. As empresas utilizam frequentemente estes sistemas para fazer o primeiro contacto ou pré-filtrar potenciais clientes. Se um parceiro de diálogo mostrar interesse, um funcionário humano pode então assumir o controlo. Para as empresas, isto significa um enorme aumento de eficiência. Os humanos só são utilizados quando se trata de uma conversa séria. - Será que uma voz de IA soa realmente tão realista como uma voz humana atualmente?
Em muitos casos, sim. A síntese de voz moderna está agora espantosamente avançada. As vozes podem ser geradas com entoações naturais, pausas e até dialectos. Alguns sistemas são treinados para imitar padrões típicos da fala humana, como pequenos ruídos de respiração ou atrasos mínimos na estrutura das frases. Isto faz com que a voz pareça muito mais autêntica do que antes. Se antes as vozes geradas por computador eram fáceis de reconhecer, hoje em dia a diferença é cada vez mais subtil. Para muitas pessoas na vida quotidiana, dificilmente é possível reconhecer se estão a falar com uma máquina ou com um humano só por ouvir a sua voz. - Como posso reconhecer que posso estar a falar ao telefone com uma IA?
Existem algumas pistas possíveis, mesmo que nenhuma delas seja uma prova conclusiva. Estas incluem pequenos atrasos após as afirmações, respostas invulgarmente estruturadas ou um fluxo de conversa que parece muito uniforme. Alguns sistemas também reagem de forma estranha a perguntas inesperadas e tentam voltar ao tema original da conversa. Um fim abrupto da conversa também pode ser uma indicação. No entanto, é importante notar que estas caraterísticas nem sempre são claras. Quanto melhores forem os sistemas, mais difícil será reconhecer a diferença entre humanos e máquinas numa conversa. - É legalmente admissível fazer chamadas automáticas para as pessoas?
A situação jurídica em muitos países é complexa e, por vezes, estritamente regulamentada. As chamadas publicitárias não autorizadas são frequentemente proibidas, especialmente para os particulares. No sector empresarial, também se aplicam regras, como por exemplo a de que deve haver um interesse presumido. Quando são utilizados sistemas automatizados, alguns fornecedores operam em zonas cinzentas do ponto de vista jurídico. É por isso que muitas empresas reagem com muita cautela às chamadas não solicitadas. A regra básica para quem telefona é que não é obrigado a fazer tais chamadas ou a responder a ofertas. - Porque é que muitas pessoas se sentem incomodadas com estes telefonemas?
Uma chamada telefónica tem um impacto direto na vida quotidiana. Embora se possa ignorar os anúncios na Internet ou por correio eletrónico, uma chamada telefónica exige uma atenção imediata. Se a chamada também for inesperada e contiver uma oferta de venda, muitas pessoas consideram-na incómoda. Se também for utilizada uma máquina automática, algumas pessoas que telefonam ficam com a impressão de que o seu tempo está a ser considerado apenas como uma variável estatística numa campanha de marketing. Esta impressão pode levar rapidamente a um sentimento de desrespeito. - Serão estas chamadas automáticas um sinal de que as pessoas serão em breve substituídas por máquinas?
Não necessariamente de forma completa. Em muitos domínios, os sistemas automatizados são utilizados mais como um complemento. Assumem tarefas simples ou repetitivas, como a conversa de contacto inicial ou a marcação de reuniões. As conversas mais complexas, o aconselhamento ou as negociações continuam a ser conduzidas por pessoas. A tendência é frequentemente para um modelo híbrido: a máquina dá o primeiro passo, o ser humano segue-o mais tarde. A alteração deste equilíbrio no futuro depende em grande medida do desenvolvimento da tecnologia e da forma como as empresas a utilizam. - Porque é que algumas das respostas pareciam ter sido lidas em voz alta?
Muitos sistemas automatizados funcionam com os chamados scripts. Isto significa que certas declarações ou ofertas consistem em módulos de texto preparados. Ao mesmo tempo, uma IA pode combinar estes blocos de construção com respostas geradas individualmente. Isto cria uma conversa que, por vezes, parece espontânea e, por vezes, soa como um texto preparado. Isto cria uma impressão estranha para o parceiro de diálogo: as respostas enquadram-se basicamente na conversa, mas ao mesmo tempo parecem invulgarmente estruturadas ou formuladas de forma suave. - Porque é que os sistemas de IA reagem por vezes de forma estranha a perguntas inesperadas?
Os sistemas de diálogo automatizados são normalmente treinados para sequências de conversação específicas. Reconhecem palavras-chave e respondem com respostas adequadas. No entanto, se for feita uma pergunta que não se enquadre neste contexto, o sistema pode ter dificuldades. Alguns sistemas tentam então reconduzir a conversa ao tópico original. Outros simplesmente terminam a conversa. Estas reacções parecem, por vezes, invulgares para os seres humanos, porque esperamos uma improvisação espontânea dos interlocutores humanos. - É possível que dois sistemas de IA falem um com o outro ao telefone?
Tecnicamente, isso seria perfeitamente possível. Se um sistema de chamadas automatizado se encontrar com um assistente digital, as duas máquinas poderiam teoricamente comunicar uma com a outra. Ambas reconheceriam, interpretariam e responderiam ao discurso. Estes cenários são ainda raros, mas mostram até que ponto a comunicação pode ser automatizada. No futuro, estas interações poderão ocorrer com mais frequência, nomeadamente no domínio da marcação de consultas ou dos serviços automatizados. - Porque é que é sensato ter cuidado com as ofertas telefónicas?
As chamadas telefónicas são situações espontâneas. Há pouco tempo para verificar as informações ou refletir cuidadosamente sobre uma oferta. É por isso que muitos especialistas desaconselham geralmente a tomada de decisões importantes diretamente por telefone. Se uma oferta for realmente interessante, pode pedir para receber a informação por escrito. Isto dá-lhe a oportunidade de verificar tudo à sua vontade e comparar diferentes opções. Esta abordagem protege contra decisões impulsivas e possíveis mal-entendidos. - O que devo fazer se suspeitar que estou a falar com uma IA ao telefone?
Inicialmente, pode responder normalmente e manter a conversa, se assim o desejar. Em caso de dúvida, pode também simplesmente perguntar diretamente se se trata de um sistema automático. Outra opção é terminar a conversa de forma educada. Ninguém é obrigado a participar numa conversa de vendas indesejada. Acima de tudo, é importante não se deixar pressionar e não tomar decisões que o façam sentir-se desconfortável. - Porque é que esta tecnologia está a tornar-se tão difundida neste momento?
Atualmente, estão em curso vários desenvolvimentos técnicos. Os avanços no reconhecimento do discurso, os modelos de discurso poderosos e a síntese realista do discurso melhoraram muito a qualidade desses sistemas. Ao mesmo tempo, o custo desta tecnologia baixou significativamente. Isto torna-a atractiva para muitas empresas. O que antes só era possível para as grandes empresas, agora também pode ser utilizado por empresas mais pequenas. - Haverá no futuro um requisito de rotulagem para as conversas com IA?
Esta questão está a ser discutida em muitos países. Alguns peritos defendem que os sistemas automatizados devem ser claramente reconhecidos como IA. Outros argumentam que isso seria difícil de aplicar ou poderia restringir a utilização da tecnologia. Resta saber como é que esta questão vai evoluir do ponto de vista jurídico. No entanto, é bem possível que os futuros regulamentos exijam mais transparência. - Porque é que muitas pessoas têm dificuldade em reconhecer estes sistemas?
As pessoas estão habituadas a associar automaticamente vozes a pessoas reais. Se uma voz soa natural e a conversa faz sentido, raramente a questionamos. O nosso cérebro interpreta imediatamente o discurso como comunicação humana. É precisamente esta confiança que os sistemas modernos exploram. Só quando algo na conversa parece invulgar - como uma resposta estranha ou uma pausa inesperada - é que começamos a ouvir com mais atenção. - Serão estas tecnologias fundamentalmente problemáticas?
Isso depende muito da forma como são utilizadas. Nalgumas áreas, as conversas automatizadas podem ser muito úteis, por exemplo, no serviço de apoio ao cliente ou na marcação de simples consultas. Normalmente, torna-se problemático quando as pessoas não conseguem reconhecer que estão a falar com uma máquina ou quando a tecnologia é utilizada para marketing agressivo. Tal como acontece com muitas tecnologias, em última análise, tudo se resume a uma utilização responsável. - Porque é que alguns sistemas reagem de forma tão abrupta e terminam as conversas de repente?
Muitos sistemas de diálogo automatizado seguem regras claramente definidas. Se estiverem reunidas determinadas condições - por exemplo, uma clara rejeição da oferta - o sistema termina automaticamente o diálogo. Este comportamento parece por vezes rude ou abrupto para os humanos, porque estamos habituados a deixar uma conversa terminar um pouco mais tarde. No entanto, para um sistema automatizado, trata-se simplesmente de uma decisão programada. - O que é que posso aprender com estas experiências?
O mais importante é provavelmente mantermo-nos alerta. O nosso mundo da comunicação está a mudar muito rapidamente. As vozes, os textos e as conversas podem agora ser gerados automaticamente. Uma dose saudável de dúvida e uma abordagem consciente destas situações podem ajudar-nos a lidar melhor com elas. Se dedicarmos algum tempo a ouvir com mais atenção e a fazer perguntas, por vezes apercebemo-nos de mais do que inicialmente esperávamos.

















