Cuando hablaba por teléfono con un robot: cómo la IA está conquistando el teléfono y cómo reconocerla

Hay momentos en la vida cotidiana que al principio parecen completamente banales. Estás sentado en tu mesa, trabajando en un artículo, pensando en un tema nuevo... y de repente suena el teléfono. Un número que no reconoces. En mi caso, un prefijo de la cuenca del Ruhr: 0233 algo. Como autónomo, de vez en cuando recibes llamadas así. Suele tratarse de publicidad, servicios o consejos que en realidad no necesitas.

Al principio contesté a la llamada con normalidad. Una voz femenina y amable respondió al otro lado. Se presentó como empleada de Facebook e Instagram. Como era de esperar, se trataba de publicidad. Sobre anuncios. Sobre el alcance. Visibilidad para las empresas.


Cuestiones sociales de actualidad

La conversación comenzó exactamente con el mismo tono de voz que conocemos de este tipo de llamadas telefónicas. Educada, profesional, un poco ensayada. Me explicó que hoy en día muchas empresas tienen dificultades para llegar a nuevos clientes. Especialmente en el sector de las pequeñas y medianas empresas -el llamado sector PYME-, la publicidad en línea es un factor decisivo. Facebook e Instagram ofrecen enormes oportunidades para llegar a clientes potenciales.

Mientras ella hablaba, yo escuchaba con normalidad al principio. Nada en ella me parecía inusual. La voz sonaba humana, natural, incluso con un ligero dialecto del sur de Alemania. Eso lo hacía todo más simpático que intrusivo. No sonaba como un centro de llamadas tradicional en algún lugar del mundo, sino más bien como alguien que realmente llamaba desde Alemania.

Estas conversaciones suelen seguir el mismo patrón. En algún momento, llega el momento en que la persona llamada explica por qué la oferta no es relevante para ella. Y eso es exactamente lo que hice.

Le dije que básicamente entendía lo que quería decir, pero que para mí las redes sociales desempeñan un papel más bien secundario. Mi trabajo principal está en otra parte. Dirijo una editorial, trabajo en artículos, libros y mi revista. Las redes sociales son algo secundario. Pueden ser útiles, pero no son el núcleo de mi trabajo". Se lo expliqué con relativa calma.

Al principio reaccionó como cabría esperar. Escuchó, confirmó brevemente y luego continuó su conversación. En ese momento, empezó a describirme una oferta concreta. Se trataba de un tipo de campaña publicitaria dirigida específicamente a empresas. Se decía que podía alcanzar una visibilidad de unos cinco mil clientes potenciales. Habló de la importancia de la presencia digital, de cómo las empresas podían aumentar su alcance y de cómo Facebook e Instagram les ayudarían a llegar a nuevos grupos objetivo.

El contenido en sí no era sorprendente. Cualquiera que haya hablado alguna vez con agencias de marketing conoce esas frases. Pero había algo en su forma de hablar que empezaba a irritarme. El tono de voz de repente parecía un poco diferente. Sonaba como si estuviera leyendo algo en voz alta. No necesariamente obvio. Pero de algún modo demasiado suave, demasiado estructurado, demasiado perfectamente formulado. Era como si estuviera repasando una presentación, frase por frase.

Llamada telefónica con la IA

Seguí escuchando y al principio no pensé nada más. Tal vez tenía una plantilla delante. Al fin y al cabo, así es como se desarrollan muchas reuniones de ventas.

Así que volví a responder a sus declaraciones. Volví a explicarles que entendía su punto de vista, pero que por el momento no necesitaba ese tipo de anuncios. Mi trabajo es diferente. Construyo contenidos, escribo artículos, desarrollo temas a largo plazo. Las redes sociales pueden ayudar, pero no son la palanca central.

Mientras decía eso, ocurrió algo interesante.

Hubo una breve pausa. Sólo un segundo.

Luego vino una respuesta que coincidía con el contenido de lo que acababa de decir. Me dijo que, obviamente, yo ya tenía cierta presencia en los medios de comunicación y que, por lo tanto, quizá establecía prioridades diferentes. Si alguien ya ha creado un alcance, la publicidad es, por supuesto, una decisión diferente que para las empresas que acaban de empezar.

La frase encajaba sorprendentemente bien con lo que acababa de decir. Pero al mismo tiempo volvió a sonar extraña. Otra vez ese tono ligeramente pre-lectura. Otra vez esa estructura que parecía un texto preparado.

En ese momento, empecé a escuchar con más atención. Porque de repente surgió una pregunta muy sencilla. Si realmente se limita a leer un guión, ¿de dónde sale esa respuesta que responde con tanta precisión a mi afirmación? ¿Realmente tiene ante sí cientos de hojas de texto diferentes, que selecciona en función del curso de la conversación? ¿O sucede algo más?

Mientras pensaba en ello, me di cuenta de otra cosa. El flujo de la conversación era extrañamente uniforme. No había reacciones espontáneas, ni pequeños lapsus linguae, ni formulaciones improvisadas. Todo sonaba asombrosamente limpio, casi demasiado limpio.

Y de repente surgió una nueva posibilidad en mi cabeza. Quizá no esté hablando con una persona. Tal vez no haya una persona real al otro lado de la línea, sino un sistema. Una voz artificial. Una IA.

Al principio, la idea parecía absurda. Pero cuanto más lo pensaba, más plausible me parecía. Porque había algo que no encajaba: Las respuestas parecían al mismo tiempo adaptadas y, sin embargo, como si hubieran sido leídas en voz alta. Como si alguien hubiera entendido lo que decía, pero siguiera recurriendo a módulos de texto preparados.

Empecé a preguntarme cuántos sistemas de este tipo existen en la actualidad. Cuántas conversaciones podrían tener lugar ya no entre personas, sino entre personas y máquinas. Y fue precisamente en ese momento cuando decidí formular una pregunta muy sencilla.

Una pregunta que resolvería inmediatamente este misterio.


Artículos de actualidad sobre Alemania

El momento de la verdad

En ese momento me vino a la cabeza la siguiente idea: tal vez no esté hablando con una persona. Cuanto más pensaba en ello, más detalles de la conversación me venían a la cabeza. Los breves retardos tras mis respuestas. La forma extrañamente uniforme de hablar. Las frases que parecían individuales al mismo tiempo, pero que siempre tenían ese carácter ligeramente preconcebido.

Era como si un rompecabezas fuera encajando poco a poco. Así que decidí resolverlo directamente. Sin pruebas complicadas, sin preguntas trampa. Sólo una pregunta sencilla y clara. Interrumpí brevemente la conversación y dije:

„Tengo otra pregunta“.“

Al otro lado de la línea, hubo otra breve pausa. No muy larga, quizá un segundo. Pero lo suficiente para que la reconociera conscientemente. Entonces hice la pregunta que ahora tenía en la punta de la lengua:

„¿Estoy hablando con un humano o con un robot?“.“

Era una pregunta muy directa. En realidad, una que una persona podría responder sin problemas. Uno esperaría que alguien se riera, tal vez reaccionara un poco irritado o simplemente dijera: „Por supuesto que estás hablando conmigo.“

Pero eso es exactamente lo que no ocurrió. En su lugar, recibimos una respuesta que inicialmente parecía evasiva.

La voz me dijo que podía garantizarme que una persona real se pondría en contacto conmigo si estaba interesado en una consulta. Entonces podríamos discutir juntos qué opciones tendrían sentido para mi empresa.

La respuesta sonó educada. Profesional. Pero no respondía a mi pregunta. Yo no había preguntado si una persona se pondría en contacto más tarde. Había preguntado con quién estaba hablando ahora. Esta discrepancia hace que la situación sea aún más interesante. Porque un interlocutor humano probablemente habría entendido mi pregunta de otra manera. Tal vez se lo hubiera preguntado por un momento, tal vez se hubiera reído o incluso hubiera reaccionado un poco ofendido. Pero probablemente habría respondido directamente.

El momento de la verdad

Aquí, sin embargo, ocurrió algo más. La respuesta fue evasiva. Volvió al propósito original de la conversación: vender una sesión de asesoramiento. Ese fue el momento en que mis sospechas cobraron fuerza.

Así que volví a explicar con calma que realmente no me interesaba esta oferta. Repetí lo que ya había dicho antes: las redes sociales no son un tema central para mí. Estoy trabajando en una revista, artículos, libros y en mi editorial. La publicidad en Facebook no es una de mis prioridades en este momento.

Mientras hablaba, escuchaba atentamente.

Hubo otra breve pausa. Luego llegó otra respuesta, de nuevo cortés, de nuevo amistosa, pero de nuevo con ese matiz ligeramente mecánico. Resultaba difícil describir qué tenía de extraño. La voz sonaba humana, las palabras eran correctas, las frases tenían sentido. Sin embargo, faltaba algo. Tal vez fuera esa sutil imprevisibilidad que suelen tener las conversaciones reales. La gente reacciona espontáneamente. Cambian el tono de voz, se interrumpen, improvisan.

Aquí, en cambio, todo parecía estructurado. Ordenado. Como si un sistema invisible en segundo plano decidiera qué frase debía pronunciarse a continuación. Así que volví a intentarlo. Sin agresividad, sin confrontación, simplemente por curiosidad.

Básicamente repetí que me interesaba menos la oferta que la cuestión de con quién estaba hablando en realidad. Pero esta vez no hubo nuevas explicaciones. En cambio, el tono de la conversación cambió de repente.

La voz le dijo secamente que tenía que seguir adelante. Había otras tareas. Luego se despidió.

„Tengo que seguir adelante ahora. Adiós.“

Y ese fue el final de la conversación. Ningún argumento más, ningún intento de convencerme después de todo, ninguna pregunta. La conversación simplemente se canceló.

Me senté un momento y miré mi teléfono. Era una sensación extraña. Porque la conversación me había parecido completamente normal durante varios minutos. Sonaba como una típica llamada de ventas, de esas que conoces desde hace años. Una voz amable, una oferta, algunas objeciones, algunas respuestas.

Y, sin embargo, al final me quedó esa extraña sensación. ¿Y si en realidad acababa de hablar con una máquina? ¿Y si esta voz, que había hablado con tanta naturalidad sobre marketing, alcance y clientes potenciales, no procedía en realidad de un ser humano? Porque, para ser sinceros, este escenario encaja perfectamente con los tiempos que vivimos. Sistemas que escriben textos. Programas que mantienen conversaciones. Voces artificiales que casi no se distinguen de las personas reales.

Tal vez eso era exactamente lo que acababa de ocurrir. Quizá acababa de recibir una llamada de una máquina y casi ni me había dado cuenta. No podía dejar de pensar en ello. Y cuanto más pensaba en ello, más me daba cuenta de que, aunque me equivocara en este caso concreto, en realidad no importaba.

Porque la tecnología que haría posible esa conversación existe desde hace mucho tiempo. Y si existe, se utilizará. Así que la verdadera cuestión ya no es si esas conversaciones tienen lugar. La única cuestión es con qué frecuencia.


Encuesta actual sobre el uso de sistemas locales de IA

¿Qué opina de la ejecución local de programas de IA como MLX o Ollama?

La nueva generación de IA telefónica

Cuando miré mi teléfono después de la conversación, no podía quitarme una pregunta de la cabeza: ¿qué probabilidades hay de que realmente estuviera hablando con una máquina? Hace sólo unos años, esta idea probablemente se habría descartado rápidamente. Las conversaciones telefónicas eran uno de los ámbitos en los que durante mucho tiempo se consideró que el ser humano era insustituible. El lenguaje es complejo, espontáneo y lleno de matices. Dialectos, ironía, pequeñas pausas, entonaciones... todo esto hacía que la comunicación humana fuera tan difícil para las máquinas.

Pero esta imagen está empezando a cambiar. Lo que mucha gente aún no se ha dado cuenta: Los requisitos técnicos para que las máquinas sean capaces de realizar llamadas telefónicas convincentes ya se han establecido en gran medida. Y se están desarrollando a un ritmo asombroso.

Del mando vocal a la conversación real

El primer paso en este camino comenzó con sistemas de voz relativamente sencillos. Mucha gente los conoce de su vida cotidiana: asistentes de voz en los smartphones, sistemas de navegación en los coches o ayudantes digitales en el hogar.

Al principio, estos sistemas sólo podían entender órdenes sencillas. Se les podía preguntar por el tiempo, poner música o introducir una dirección. Sus respuestas estaban preprogramadas y los diálogos eran muy limitados.

Sin embargo, con la llegada de los modernos modelos lingüísticos, la situación ha cambiado radicalmente. Hoy en día, los sistemas son capaces de reconocer, analizar y reaccionar ante el lenguaje hablado casi en tiempo real. Una conversación con una máquina pasa por varios pasos técnicos en segundo plano:

  • En primer lugar, se reconoce el lenguaje hablado de la persona y se convierte en texto. Este reconocimiento del habla es tan preciso que incluso los dialectos o los ruidos de fondo dejan de ser un problema.
  • A continuación, un modelo lingüístico analiza el contenido del enunciado. Trata de entender lo que se quiere decir, cuál es la intención de la pregunta y qué respuesta podría encajar.
  • En el siguiente paso, el sistema formula una respuesta, ya no sólo a partir de un guión fijo, sino a menudo generada dinámicamente a partir de un amplio modelo lingüístico.
  • Por último, este texto se convierte de nuevo en lenguaje hablado. Los sistemas modernos de síntesis del habla pueden producir voces que suenan asombrosamente realistas.

El resultado es una conversación que puede resultar sorprendentemente natural para la gente.

Por qué de repente las máquinas llaman por teléfono

Sin embargo, la cuestión no es sólo si esta tecnología existe. La pregunta realmente apasionante es: ¿por qué la utilizan las empresas?

La respuesta es relativamente sencilla. El contacto telefónico con el cliente es una de las áreas más caras para muchas empresas. Los centros de atención telefónica tradicionales requieren personal, formación, puestos de trabajo e infraestructura. Los empleados tienen que cobrar, necesitan descansos y solo pueden hacer un número limitado de llamadas al día.

Una máquina, en cambio, funciona de forma completamente distinta. Un sistema automatizado puede hablar con muchas personas al mismo tiempo. Puede trabajar las 24 horas del día sin cansarse. Y solo incurre en una fracción de los costes por llamada en que incurriría un empleado humano.

Para las empresas que quieren contactar con miles de clientes potenciales, esto supone una enorme ventaja económica. En el sector del marketing, en particular, cada vez se desarrollan más sistemas precisamente con este fin: realizar llamadas automáticas de venta o consulta. Estos sistemas pueden, por ejemplo

  • Llamar a clientes potenciales
  • Concertar citas
  • Realizar sesiones iniciales de asesoramiento
  • Interés de la consulta
  • Precalificar contactos para vendedores humanos

Las personas no suelen entrar en juego hasta más tarde, cuando ya está claro que existe un interés real.

El enfoque híbrido: guión e IA

Muchos de estos sistemas no funcionan de forma totalmente libre, sino según un modelo denominado híbrido. Esto significa que parte de la conversación sigue un guión fijo, similar al de los centros de llamadas tradicionales. Determinadas afirmaciones, ofertas o explicaciones se presentan de forma predeterminada.
Al mismo tiempo, sin embargo, una IA analiza lo que dice la otra persona y puede reaccionar ante determinadas palabras clave o afirmaciones.

Es precisamente esta combinación la que crea la impresión de una conversación real. Algunas respuestas parecen espontáneas e individuales, mientras que otras suenan como módulos de texto preparados. A menudo es difícil para el interlocutor reconocer si hay una persona o un sistema al otro lado.
Mirando hacia atrás, este patrón coincidía sorprendentemente bien con la conversación que mantuve. Algunas de las respuestas parecían muy adaptadas a lo que yo había dicho, mientras que otras sonaban casi como si las hubieran leído en voz alta.

Voces que suenan como personas

Sin embargo, quizá lo más asombroso de este avance sea la propia voz. Hace sólo unos años, las voces generadas por ordenador sonaban claramente artificiales. Eran monótonas, mecánicas y relativamente fáciles de reconocer.

Hoy las cosas son muy distintas. La síntesis del habla moderna puede producir voces que suenan asombrosamente naturales. Pueden imitar emociones, incorporar pequeñas pausas e incluso imitar las coloraciones regionales del habla.

Un ligero dialecto, como el que oí en mi conversación, ya no es un problema técnico. Para muchas personas, esto hace cada vez más difícil distinguir entre voces reales y voces generadas artificialmente.

Un cambio tranquilo

Lo interesante de esta evolución es que está pasando desapercibida. No hay grandes titulares sobre máquinas que de repente hacen llamadas telefónicas. No hay anuncios evidentes de que un interlocutor pueda no ser humano en absoluto.

En cambio, la tecnología se está introduciendo poco a poco en la vida cotidiana. Una llamada por aquí, una cita por allá, una llamada de atención al cliente por acullá. Y, cada vez con más frecuencia, la voz amable del teléfono ya no es una persona, sino un sistema entrenado para imitar las conversaciones humanas de la forma más convincente posible.

En retrospectiva, no se puede afirmar con absoluta certeza si este era realmente el caso cuando llamé, pero es muy probable. Pero una cosa es cierta: las posibilidades técnicas para ello existen desde hace mucho tiempo. Y cada mes son mejores.

Cuando la voz de tu propia hija se convierte en una trampa

Un ejemplo especialmente desgarrador del mal uso de la moderna tecnología de IA se muestra en un reportaje de Hessischer Rundfunk. En él, una mujer relata una llamada en la que le pareció oír a su propia hija al teléfono. La voz sonaba aterrorizada y familiar al mismo tiempo:

Había habido un accidente grave, una persona había muerto y ahora había amenaza de prisión preventiva. Poco después, una supuesta policía se puso en contacto y explicó que la puesta en libertad sólo sería posible mediante una fianza elevada. La suma exigida rondaba los 120.000 euros. Sólo más tarde se supo que la voz de la hija había sido simulada engañosamente con ayuda de inteligencia artificial.


Nueva pérfida estafa mediante inteligencia artificial | torre principal

El caso demuestra de forma impresionante lo convincente que puede llegar a ser la síntesis de voz moderna, y lo importante que se ha vuelto no confiar ciegamente ni siquiera en las voces conocidas al hacer llamadas inesperadas.

Centros de llamadas sin personas

Si uno se toma un momento para alejarse de su propia experiencia y analizar el asunto con sobriedad, enseguida queda claro por qué las empresas tienen la idea de dejar que las máquinas hagan llamadas telefónicas en primer lugar. El verdadero motor de este desarrollo no es el entusiasmo por la tecnología. Es la economía.

Desde hace décadas, los centros de llamadas son una de las áreas más caras de muchas empresas. Ya se trate de atención al cliente, concertación de citas o llamadas de ventas, los costes se generan allí donde se realizan llamadas telefónicas. Hay que contratar, formar y pagar a los empleados. Hay que instalar puestos de trabajo. También hay que tener en cuenta las horas de trabajo, los descansos, las vacaciones y las bajas por enfermedad.

Todo esto es completamente normal y natural mientras haya personas que hagan este trabajo. Pero desde la perspectiva de una empresa, cada uno de estos factores supone costes adicionales.

Aquí es precisamente donde comienza el atractivo de los sistemas automatizados. Una máquina no necesita lugar de trabajo, ni vacaciones, ni descansos. En teoría, puede trabajar las veinticuatro horas del día. Y puede hablar con muchas personas al mismo tiempo.

Mientras que un empleado humano puede hacer cincuenta o sesenta llamadas al día, un sistema automatizado puede hacer cientos o incluso miles de contactos. Incluso si sólo una pequeña proporción de estas conversaciones conducen a un cliente real, puede resultar rápidamente rentable económicamente. Esto explica por qué las empresas de marketing y ventas en particular están muy interesadas en estas tecnologías.

El proceso suele ser relativamente sencillo:

  • En primer lugar, se crea una amplia lista de contactos potenciales. Puede proceder de diversas fuentes: bases de datos empresariales de acceso público, directorios de empresas o datos de clientes existentes.
  • A continuación, un sistema automatizado establece el primer contacto. La máquina llama, se presenta e inicia una conversación siguiendo un patrón determinado. Explica una oferta, hace algunas preguntas e intenta averiguar si existe un nivel básico de interés.
  • En muchos casos, la llamada termina ahí mismo. Si la persona a la que se llama no está interesada, simplemente se termina el contacto. Si, por el contrario, se muestra interés, el sistema puede reenviar el contacto a un empleado humano.

Las personas sólo entran en juego cuando un cliente potencial ya se ha cualificado.

Qué profesiones podrían ser las próximas en desaparecer

Qué empleos eliminará la IA en el futuroLa llamada telefónica descrita no es un incidente aislado, sino parte de una evolución más amplia. La inteligencia artificial está cambiando sectores enteros, a menudo más rápido de lo que muchos creen. Las actividades con muchos procesos recurrentes, como la atención al cliente, los centros de llamadas, el procesamiento o el trabajo de traducción y texto simple, se ven especialmente afectadas. Hoy en día, los modernos modelos y robots de voz pueden mantener conversaciones, analizar documentos o responder correos electrónicos las 24 horas del día y sin descanso. Como consecuencia, muchos puestos de trabajo tradicionales de oficina y comunicación están sufriendo presiones. En mi detallado artículo de fondo „Inteligencia artificial: qué empleos están en peligro - y cómo podemos armarnos ahora“ Muestro qué profesiones se ven especialmente afectadas y por qué tiene sentido prepararse para estos cambios en una fase temprana.

Esto supone una gran ventaja para las empresas

En cualquier caso, la mayoría de los contactos telefónicos en ventas acaban con una cancelación. Llamar a personas que no están interesadas suele ser la parte del trabajo del vendedor que más tiempo consume. Los sistemas automatizados pueden encargarse de esta parte y aliviar así la carga de los empleados humanos.

Esto explica también por qué muchos de estos sistemas no intentan sustituir toda la conversación. Sólo se hacen cargo del primer paso. Se podría decir: la máquina abre la puerta, el humano solo se hace cargo de la conversación propiamente dicha más tarde.

Otra ventaja es la escalabilidad. Un centro de llamadas tradicional sólo puede atender tantas llamadas como empleados tenga disponibles. Si de repente una empresa quiere lanzar una campaña mayor, hay que contratar y formar a nuevos empleados.

En cambio, un sistema automatizado puede ampliarse casi de inmediato. Una vez configurado el software, se pueden realizar llamadas adicionales con relativamente poco esfuerzo. Se pueden lanzar nuevas campañas en poco tiempo sin necesidad de aumentar la plantilla. Esta flexibilidad es especialmente atractiva en el mundo del marketing digital.

Centros de llamadas sin personas

Otro factor que a menudo se pasa por alto: La coherencia

Las personas nunca tienen conversaciones exactamente iguales. Un vendedor puede tener un mal día, estar cansado o estresado. Otro está especialmente motivado y es persuasivo. Estas diferencias forman parte del comportamiento humano.

Las máquinas, en cambio, funcionan según reglas claras. Siempre dicen lo mismo, siempre hacen las mismas preguntas y se ciñen estrictamente al modelo de diálogo predefinido. Desde la perspectiva de muchas empresas, esto es una ventaja porque estandariza la calidad de los contactos iniciales.

Por supuesto, esta evolución tiene otra cara. Una conversación con un ser humano es diferente a una conversación con una máquina. Aunque una voz artificial suene convincente, a menudo carece de algo difícil de describir: la dinámica espontánea de la comunicación humana.

Un ser humano puede improvisar, mostrar humor, hacer un comentario inesperado o simplemente reaccionar espontáneamente. Las máquinas siguen teniendo dificultades para enfrentarse a estas situaciones, aunque sus capacidades mejoran rápidamente.

Por eso muchas empresas recurren a un enfoque híbrido. La máquina se encarga de los contactos iniciales, filtra las perspectivas potenciales y luego las transmite a empleados reales. Esto crea una combinación de eficacia automatizada y comunicación humana. Para muchas empresas, este es actualmente el compromiso ideal.

Pero incluso este estado intermedio podría ser sólo una fase de transición. Porque cuanto mejores sean los sistemas, más tareas podrán asumir. Lo que hoy sigue siendo una simple consulta inicial, mañana podría ser una sesión completa de asesoramiento.

Las cuestiones que se plantean son menos técnicas que sociales.

  • ¿Cómo cambiará nuestra comunicación cuando las máquinas dirijan cada vez más las conversaciones?
  • ¿Y cómo afrontamos el hecho de que ya no podemos estar seguros de si hay realmente una persona al otro lado de la línea?

Tal vez sea precisamente en este punto donde mi pequeña experiencia con esta extraña llamada telefónica adquiere de repente un mayor significado. Porque lo que empezó como una llamada de ventas ordinaria podría haber sido en realidad una pequeña visión del futuro.


Artículos de actualidad sobre Alemania

¿Cómo se reconoce una IA telefónica?

Una vez terminada la conversación, quedaba una pregunta en la recámara: ¿habría podido reconocer si se trataba de una máquina?

Este es precisamente el verdadero reto de esta nueva tecnología. Los sistemas de voz modernos son ahora tan convincentes que muchas personas ni siquiera se dan cuenta de que están hablando con una IA. Las voces suenan naturales, las respuestas parecen lógicas e incluso las pequeñas pausas o dialectos pueden imitarse sorprendentemente bien.

No obstante, hay algunos indicios a los que puede estar atento. Ninguna de estas observaciones constituye una prueba segura por sí sola. Pero combinadas pueden dar una idea bastante clara.

Pequeños retrasos en el diálogo

La primera pista suele ser un retraso muy breve tras una declaración. Cuando las personas hablan entre sí, suelen reaccionar inmediatamente. Por supuesto, aquí también hay pequeñas pausas, pero éstas surgen de la conversación, porque alguien está pensando o poniendo en orden sus palabras.

En los sistemas de IA, la pausa es el resultado de un proceso técnico. En primer lugar, el sistema tiene que reconocer el lenguaje hablado. A continuación se analiza el texto. A continuación, el sistema formula una respuesta y la convierte de nuevo en lenguaje hablado.

Este proceso sólo dura una fracción de segundo. Sin embargo, a veces se nota este pequeño retraso. Yo noté una pausa de este tipo varias veces durante mi conversación. No fue lo suficientemente larga como para hacerme sospechar inmediatamente. Pero era lo suficientemente clara como para notarla en algún momento.

Respuestas que encajan y parecen extrañas al mismo tiempo

Otra pista puede ser la estructura de las respuestas. La gente suele reaccionar espontáneamente en las conversaciones. Reformulan frases, dan pequeños rodeos, retoman palabras sueltas o hacen contrapreguntas.

Los sistemas automatizados, por su parte, suelen trabajar con una mezcla de módulos de texto preparados y respuestas generadas. Esto produce un efecto extraño: la respuesta coincide básicamente con la conversación, pero al mismo tiempo suena como si alguien estuviera leyendo algo en voz alta.

En mi caso, éste fue precisamente el punto que me hizo dudar. Algunas de las respuestas parecían ajustarse con sorprendente precisión a mis afirmaciones. Al mismo tiempo, sin embargo, sonaban tan suaves y estructuradas como si procedieran de una plantilla preparada.

Esta combinación es típica de los llamados sistemas de diálogo híbridos que combinan guión e IA.

La voz increíblemente perfecta

Curiosamente, la propia voz ya no suele ser un indicador fiable. En el pasado, las voces artificiales eran relativamente fáciles de reconocer. Sonaban monótonas, mecánicas y tenían una calidad informática claramente audible.

Hoy en día, esto ha cambiado drásticamente. La síntesis del habla moderna puede producir voces que suenan asombrosamente naturales. Incluso pueden simular pequeñas pausas en la respiración, entonación o matices emocionales. Algunos sistemas son capaces de imitar los matices regionales del habla, como el dialecto del sur de Alemania que oí por teléfono.

Para muchas personas, una voz así resulta completamente auténtica. Esto significa que a menudo ya no es posible reconocer si se está hablando con un ser humano o con una máquina simplemente por el sonido de la voz.

Dificultades con preguntas inesperadas

Un momento especialmente interesante suele surgir cuando se hace una pregunta que no encaja con el curso previsto de la conversación.
La gente puede improvisar en estas situaciones. Piensan brevemente y reaccionan espontáneamente.

Los sistemas de IA, en cambio, suelen estar preparados para determinadas conversaciones. Si surge una pregunta fuera de este marco, a veces flaquean. Esto puede manifestarse de varias maneras:

  • La respuesta evita la pregunta.
  • El sistema vuelve de repente al tema original.
  • La conversación termina inesperadamente.

Eso es exactamente lo que ocurrió en mi caso. Cuando pregunté si estaba hablando con un humano o con un robot, no obtuve una respuesta directa. En lugar de eso, la conversación se desvió hacia la oferta de venta real.

Y cuando volví a preguntar, la conversación terminó por fin.

Conversaciones que terminan abruptamente

Otro indicio puede ser un final de conversación inusualmente brusco. Por lo general, la gente intenta terminar una conversación con educación. Incluso si alguien no está interesado, suele haber un breve intercambio, un agradecimiento o un comentario final.

Los sistemas automatizados, en cambio, funcionan con reglas claras. Si se cumplen determinadas condiciones -como un rechazo claro-, la llamada se da por terminada. A veces esto ocurre sorprendentemente rápido porque el sistema ya no ofrece ninguna estrategia de diálogo adicional.

La frase que escuché al final se ajustaba perfectamente a este patrón:

„Lo siento, tengo que irme. Adiós.“

Una rápida frase final... y se acabó la conversación.

Por qué mucha gente no nota la diferencia

Lo fascinante de este avance es que la mayoría de la gente apenas repara en estos detalles en la vida cotidiana. Las llamadas telefónicas son una parte rutinaria de nuestras vidas. Oímos una voz, hablamos brevemente y volvemos a colgar. Rara vez alguien analiza después con tanta precisión el curso de la conversación.

Precisamente por eso, los sistemas automatizados pueden utilizarse ahora de forma relativamente discreta. Mientras la conversación parezca razonablemente plausible y el contenido sea comprensible, muchas personas ni siquiera se preguntan con quién están hablando.

Sólo cuando algo no encaja -una pausa extraña, una respuesta inusual o una evasiva- surge esta pequeña sensación de irritación. Tuve esta sensación durante mi llamada telefónica. Y fue precisamente esta sensación la que finalmente me dio la idea de hacer la pregunta crucial.

La pregunta que probablemente reveló que acababa de hablar con una máquina.

Cuando las máquinas llaman

Cuando las máquinas llaman y lo que podemos aprender de ellas

Tras la conversación, me quedé con una impresión extraña. Por un lado, la llamada no fue nada especial. Como empresario, de vez en cuando recibes llamadas de ventas de este tipo. Por otro lado, esta conversación me pareció diferente. No muy diferente, pero sí lo bastante inusual como para que tardara un momento en entender por qué.

No podía quitarme de la cabeza la idea de que tal vez no hubiera un ser humano al otro lado de la línea. Y cuanto más pensaba en ello, más me daba cuenta de que, aunque me equivocara en este caso concreto, el desarrollo real que había detrás hacía tiempo que se había hecho realidad. Hoy en día, las máquinas pueden mantener conversaciones. Pueden llamar a la gente, hacer preguntas y dar respuestas. Y probablemente lo harán cada vez más a menudo.

Esto plantea una cuestión que va más allá de mi experiencia personal. ¿Cómo afrontamos realmente que las máquinas empiecen a llamarnos?

Adquisición de teléfonos: un tema ya delicado en la actualidad

Incluso antes de que entrara en juego la inteligencia artificial, la publicidad telefónica era un terreno espinoso. En muchos países, entre ellos Alemania, las llamadas en frío, es decir, las llamadas no solicitadas a clientes potenciales, están muy restringidas por la ley. En muchos casos, simplemente no está permitida, especialmente para los particulares.

Incluso en el sector empresarial, este tipo de prospección se encuentra a menudo en una zona gris. Debe haber un presunto interés, y muchas empresas reaccionan ahora con mucha sensibilidad ante las llamadas publicitarias no deseadas.

La razón es sencilla: una llamada telefónica interrumpe inmediatamente a las personas en su vida cotidiana. Mientras que un correo electrónico puede ignorarse y la publicidad en Internet a menudo simplemente se pasa por alto, una llamada telefónica obliga a la persona llamada a reaccionar de inmediato. Tiene que decidir si descuelga, escucha o finaliza la llamada.

Si además hay sistemas automatizados detrás de esas llamadas, el debate adquiere una nueva dimensión. Al fin y al cabo, en teoría las máquinas pueden llamar a miles de personas al día.


Encuesta actual sobre la digitalización en la vida cotidiana

¿Cómo valora la influencia de la digitalización en su vida cotidiana?

El tiempo es el recurso más escaso

Lo que realmente me molesta de estas llamadas no es ni siquiera la tecnología en sí. La tecnología evoluciona y constantemente surgen nuevas posibilidades. Eso forma parte del mundo moderno. Lo que me preocupa más es otra cuestión: ¿con qué respeto tratan realmente las empresas el tiempo de los demás?

El tiempo es probablemente el recurso más escaso que tenemos. Cada uno de nosotros sólo dispone de un número limitado de horas al día. Y cada uno decide por sí mismo cómo quiere emplear ese tiempo. Una llamada no solicitada -sea de una persona o de una máquina- invade ese tiempo.

Si además se utilizan sistemas automatizados para contactar con el mayor número posible de personas, rápidamente surge la impresión de que la hora de la persona a la que se llama es un mero factor estadístico en una estrategia de marketing. Quizá sea precisamente esta la razón por la que este tipo de llamadas suelen dejar una mala sensación. No porque la tecnología sea impresionante, sino porque demuestra lo fácil que es automatizar la comunicación, incluso cuando realmente se requiere una atención personal.

Una buena dosis de duda no hace daño

En cualquier caso, mi pequeña llamada me dejó clara una cosa: En el futuro, probablemente será cada vez más difícil reconocer con quién estamos hablando. Las llamadas telefónicas, los mensajes de chat, los correos electrónicos... todo esto puede generarse ahora automáticamente. Se pueden sintetizar voces, crear textos en segundos y programar conversaciones enteras.

Por eso, una buena dosis de duda quizá no sea la peor actitud. Si una conversación parece extrañamente estructurada, si las respuestas se formulan de forma inusualmente fluida o si las preguntas se evaden de repente, puede merecer la pena detenerse un momento y hacer preguntas. A veces, una simple pregunta como

„¿Estoy hablando con una persona o con una máquina?“

Esta pregunta por sí sola puede llevar de repente una conversación en una dirección completamente diferente.

¿Contratos por teléfono? Mejor no

Para mí, personalmente, esta experiencia tiene otra consecuencia. De todos modos, no firmaría ningún contrato por teléfono, independientemente de si la persona con la que hablo es un ser humano o una máquina.

Una llamada telefónica es un momento espontáneo. No tienes tiempo de comprobar las cosas con calma, leer información o comparar ofertas. Las decisiones que se toman en esas condiciones no suelen ser especialmente meditadas.

Si alguien tiene una oferta realmente interesante, puede enviarla fácilmente por escrito. Entonces tendrás la oportunidad de verlo todo con calma y tomar una decisión con conocimiento de causa. Esto se aplica hoy más que nunca. Porque si las máquinas pueden mantener conversaciones cada vez más convincentes, será aún más importante no tomar decisiones en caliente.

Cuando se controlan las conversaciones: La venta empieza antes de la decisión

Trucos de venta en el supermercado y en InternetCualquiera que trate con IA por teléfono se da cuenta rápidamente de que no se trata sólo de tecnología, sino también de percepción e influencia. Aquí es precisamente donde este Artículo sobre trucos de venta modernos on. Al fin y al cabo, muchos de los mecanismos que se hacen visibles en el diálogo directo a través de la IA llevan mucho tiempo establecidos en la vida cotidiana, sólo que menos obvios. Ya sea en el supermercado o en Internet: Las decisiones rara vez se toman de forma neutral, sino que vienen preparadas por el diseño, el contexto y los impulsos selectivos. Este artículo muestra cómo funcionan estos procesos y por qué a menudo pasan desapercibidos. En combinación con los sistemas de diálogo asistidos por IA, surge una visión de conjunto que va mucho más allá de las tecnologías individuales: la cuestión de cómo se toman las decisiones hoy en día.

Una mirada al futuro

Quizá dentro de unos años nos hayamos acostumbrado a situaciones como ésta. Quizá en algún momento sea completamente normal que algunas de nuestras conversaciones tengan lugar con sistemas automatizados. Las citas, la atención al cliente o las primeras consultas serán atendidas por máquinas. Puede incluso que en algún momento dos sistemas hablen entre sí por teléfono, mientras las personas en segundo plano sólo ven el resultado.

Que esta evolución le parezca emocionante o que adopte una actitud más crítica es una cuestión personal. En cualquier caso, mi propia llamada fue un pequeño momento que me mostró lo rápido que está cambiando nuestro mundo de la comunicación.

Y quizá este artículo ayude a uno o dos lectores a escuchar con un poco más de atención la próxima vez que reciban una llamada inesperada.

Nunca se sabe. Puede que ni siquiera haya una persona al otro lado de la línea.


Artículos de actualidad sobre inteligencia artificial

Preguntas más frecuentes

  1. ¿Qué probabilidades hay de que haya hablado por teléfono con una IA sin darme cuenta?
    Esto ya es posible. Los modernos sistemas de IA telefónica pueden reconocer el habla, formular respuestas y emitirlas de nuevo como una voz natural. En la vida cotidiana, muchas personas no prestan atención conscientemente a pequeños detalles como retrasos mínimos en la respuesta o formulaciones inusualmente estructuradas. Por eso puede ocurrir que una conversación se considere completamente normal, aunque ya haya sido técnicamente automatizada. Estos sistemas se utilizan cada vez más en marketing, atención al cliente o para concertar citas. A menudo es difícil determinar retrospectivamente si se ha hablado personalmente antes con una IA, pero la probabilidad aumenta con cada avance técnico.
  2. ¿Por qué las empresas utilizan la IA para llamar a la gente?
    La razón principal es de naturaleza económica. Los contactos telefónicos con los clientes son relativamente caros para las empresas porque requieren personal, infraestructura y organización. Los sistemas automatizados, en cambio, pueden funcionar las veinticuatro horas del día y realizar muchas llamadas al mismo tiempo. Las empresas suelen utilizar estos sistemas para establecer el contacto inicial o filtrar previamente a los clientes potenciales. Si un interlocutor muestra interés, un empleado humano puede tomar el relevo. Para las empresas, esto supone un enorme aumento de la eficiencia. El personal humano sólo interviene en las conversaciones serias.
  3. ¿Suena una voz artificial tan realista como una voz humana?
    En muchos casos, sí. La síntesis de voz moderna es ahora asombrosamente avanzada. Se pueden generar voces con entonaciones naturales, pausas e incluso dialectos. Algunos sistemas están entrenados para imitar patrones típicos del habla humana, como pequeños ruidos respiratorios o retrasos mínimos en la estructura de las frases. Esto hace que la voz parezca mucho más auténtica que antes. Aunque las voces generadas por ordenador solían ser fáciles de reconocer, hoy en día la diferencia es cada vez más sutil. Para muchas personas en la vida cotidiana, apenas es posible reconocer si están hablando con una máquina o con un ser humano con sólo oír su voz.
  4. ¿Cómo puedo reconocer que estoy hablando por teléfono con una IA?
    Existen algunos indicios posibles, aunque ninguno de ellos sea una prueba concluyente. Por ejemplo, breves retrasos tras las declaraciones, respuestas inusualmente estructuradas o un flujo de conversación que parece muy uniforme. Algunos sistemas también reaccionan de forma extraña a preguntas inesperadas e intentan reconducir la conversación a su tema original. Un final abrupto de la conversación también puede ser un indicio. Sin embargo, es importante señalar que estas características no siempre son claras. Cuanto mejores son los sistemas, más difícil es reconocer la diferencia entre humanos y máquinas en una conversación.
  5. ¿Está permitido legalmente hacer llamadas automáticas a la gente?
    La situación legal en muchos países es compleja y a veces está estrictamente regulada. Las llamadas publicitarias no autorizadas suelen estar prohibidas, sobre todo para los particulares. También se aplican normas en el sector empresarial, por ejemplo que debe existir un interés presunto. Cuando se utilizan sistemas automatizados, algunos proveedores operan en zonas grises desde el punto de vista legal. Por eso muchas empresas reaccionan con mucha cautela ante las llamadas no solicitadas. La norma básica para quienes llaman es que no están obligados a hacerlo ni a responder a las ofertas.
  6. ¿Por qué muchas personas se sienten perturbadas por este tipo de llamadas?
    Una llamada telefónica tiene un impacto directo en la vida cotidiana. Se pueden ignorar los anuncios en Internet o por correo electrónico, pero una llamada telefónica exige atención inmediata. Si además la llamada es inesperada y contiene una oferta de venta, a muchas personas les resulta molesta. Si además se utiliza una máquina automatizada, algunas personas que llaman tienen la impresión de que su tiempo sólo se tiene en cuenta como variable estadística en una campaña de marketing. Esta impresión puede conducir rápidamente a un sentimiento de falta de respeto.
  7. ¿Son estas llamadas automáticas una señal de que las personas pronto serán sustituidas por máquinas?
    No necesariamente por completo. En muchos ámbitos, los sistemas automatizados se utilizan más bien como complemento. Se encargan de tareas sencillas o repetitivas, como la conversación inicial de contacto o la concertación de citas. Las conversaciones más complejas, el asesoramiento o las negociaciones las siguen llevando a cabo personas. La tendencia suele ser hacia un modelo híbrido: la máquina da el primer paso, el humano le sigue después. Que este equilibrio cambie en el futuro depende en gran medida de cómo se desarrolle la tecnología y cómo la utilicen las empresas.
  8. ¿Por qué algunas respuestas parecían leídas en voz alta?
    Muchos sistemas automatizados funcionan con los llamados scripts. Esto significa que determinadas declaraciones u ofertas constan de módulos de texto preparados. Al mismo tiempo, una IA puede combinar estos módulos con respuestas generadas individualmente. Esto crea una conversación que a veces parece espontánea y a veces suena como un texto preparado. Esto crea una impresión extraña para el interlocutor: las respuestas se ajustan básicamente a la conversación, pero al mismo tiempo parecen inusualmente estructuradas o formuladas con suavidad.
  9. ¿Por qué los sistemas de inteligencia artificial reaccionan a veces de forma extraña a preguntas inesperadas?
    Los sistemas de diálogo automatizados suelen entrenarse para secuencias de conversación específicas. Reconocen las palabras clave y responden con respuestas adecuadas. Sin embargo, si se formula una pregunta que se sale de este marco, el sistema puede tener dificultades. Algunos sistemas intentan entonces reconducir la conversación hacia el tema original. Otros simplemente ponen fin a la conversación. Estas reacciones parecen a veces inusuales en los humanos, porque esperamos de ellos una improvisación espontánea.
  10. ¿Es posible que dos sistemas de inteligencia artificial hablen por teléfono?
    Técnicamente, esto sería totalmente posible. Si un sistema de llamadas automatizadas se encuentra con un asistente digital, en teoría dos máquinas podrían comunicarse entre sí. Ambas reconocerían, interpretarían y responderían al habla. Este tipo de situaciones aún son raras, pero demuestran hasta qué punto se puede automatizar la comunicación. En el futuro, este tipo de interacciones podrían darse con más frecuencia, sobre todo en el ámbito de la programación de citas o los servicios automatizados.
  11. ¿Por qué conviene tener cuidado con las ofertas telefónicas?
    Las llamadas telefónicas son situaciones espontáneas. Hay poco tiempo para comprobar la información o pensar detenidamente una oferta. Por eso muchos expertos suelen desaconsejar tomar decisiones importantes directamente por teléfono. Si una oferta es realmente interesante, puede pedir recibir la información por escrito. Así tendrá la oportunidad de comprobarlo todo con tranquilidad y comparar las distintas opciones. Este enfoque le protege de decisiones impulsivas y posibles malentendidos.
  12. ¿Qué debo hacer si sospecho que estoy hablando por teléfono con una IA?
    Al principio puede responder con normalidad y mantener la conversación si lo desea. Si tienes dudas, también puedes preguntar directamente si se trata de un sistema automatizado. Otra opción es terminar la conversación educadamente. Nadie está obligado a participar en una llamada de ventas no deseada. Sobre todo, es importante no dejarse presionar y no tomar decisiones que le hagan sentirse incómodo.
  13. ¿Por qué se está extendiendo tanto esta tecnología en la actualidad?
    Actualmente se están produciendo varios avances técnicos. Los avances en el reconocimiento del habla, los potentes modelos del habla y la síntesis realista del habla han mejorado mucho la calidad de estos sistemas. Al mismo tiempo, el coste de esta tecnología se ha reducido considerablemente. Esto la hace atractiva para muchas empresas. Lo que antes sólo era posible para las grandes corporaciones, ahora también puede ser utilizado por empresas más pequeñas.
  14. ¿Habrá en el futuro una obligación de etiquetado para las conversaciones sobre IA?
    Esto se está debatiendo en muchos países. Algunos expertos piden que los sistemas automatizados sean claramente reconocibles como IA. Otros sostienen que esto sería difícil de aplicar o podría restringir el uso de la tecnología. Queda por ver cómo se desarrollará jurídicamente esta cuestión. Sin embargo, es muy posible que la futura normativa exija más transparencia.
  15. ¿Por qué a muchas personas les cuesta reconocer estos sistemas?
    La gente está acostumbrada a asociar automáticamente voces con personas reales. Si una voz suena natural y la conversación tiene sentido, rara vez la cuestionamos. Nuestro cerebro interpreta inmediatamente el habla como comunicación humana. Es precisamente esta confianza la que explotan los sistemas modernos. Sólo cuando algo en la conversación parece inusual -como una respuesta extraña o una pausa inesperada- empezamos a escuchar con más atención.
  16. ¿Son estas tecnologías fundamentalmente problemáticas?
    Depende mucho de cómo se utilicen. En algunos ámbitos, las conversaciones automáticas pueden ser muy útiles, por ejemplo en atención al cliente o para concertar citas sencillas. Suele ser problemático cuando la gente no puede reconocer que está hablando con una máquina o cuando la tecnología se utiliza para un marketing agresivo. Como ocurre con muchas tecnologías, en última instancia todo se reduce a un uso responsable.
  17. ¿Por qué algunos sistemas reaccionan de forma tan brusca y terminan las conversaciones de repente?
    Muchos sistemas de diálogo automatizado siguen reglas claramente definidas. Si se cumplen determinadas condiciones -por ejemplo, un rechazo claro de la oferta-, el sistema termina automáticamente el diálogo. Este comportamiento a veces parece grosero o brusco a los humanos, porque estamos acostumbrados a dejar que una conversación termine un poco más tarde. Para un sistema automatizado, sin embargo, se trata simplemente de una decisión programada.
  18. ¿Qué puedo aprender de estas experiencias?
    Lo más importante probablemente sea mantenerse alerta. Nuestro mundo de comunicación está cambiando muy deprisa. Las voces, los textos y las conversaciones pueden generarse ahora automáticamente. Una buena dosis de duda y un enfoque consciente de estas situaciones pueden ayudarnos a afrontarlas mejor. Si nos tomamos el tiempo de escuchar con más atención y hacer preguntas, a veces nos damos cuenta de más cosas de las que esperábamos en un principio.

Artículos de actualidad sobre arte y cultura

Deja un comentario