Inteligencia artificial al servicio del engaño: deepfakes y vishing

El avance de nuevas tecnologías les ha permitido a los ciberdelincuentes mejorar sus técnicas para estafar a las víctimas; ¿qué rol juega la IA? ¿Cómo podemos cuidarnos?

Contenidos Isbel
September 28, 2023

Inicio » Blog » Networking and Security » Inteligencia artificial al servicio del engaño: deepfakes y vishing

¿La nueva era de la ingeniería social?

Un informe del Centro de IA y Robótica del Instituto Interregional de Investigación de Justicia y Delincuencia de las Naciones Unidas del año 2020 identificó tendencias en foros clandestinos con relación al abuso de la inteligencia artificial (IA) o el aprendizaje automático (machine learning), que podrían tomar un fuerte impulso en un futuro cercano. Entre estas tendencias, destacaba la suplantación humana en plataformas de redes sociales. Hoy, ese futuro ya es una realidad, y todo lo que se pudo anticipar está ocurriendo y ha sobrepasado las expectativas.

En la intersección entre la innovación tecnológica y las tácticas delictivas, surgen fenómenos preocupantes como el uso de deepfakes y el vishing (phishing de voz).

Ambas modalidades son versiones modernas de las estafas del impostor (o, como también se las conoce en Uruguay, “el cuento del tío”). Se trata de una táctica en la que el estafador se hace pasar por una persona, normalmente muy cercana a la víctima, para engañarla en búsqueda de dinero.

En 2022, las estafas de este tipo fueron la segunda categoría de fraude más denunciada en Estados Unidos, con pérdidas de 2.600 millones de dólares.

Podríamos considerar que estas estafas se corresponden a usos modernos de ingeniería social. Según Knowbe4, la primera plataforma del mundo de formación en concientización de seguridad y phishing, la ingeniería social se define como “el arte de manipular, influenciar o engañar al usuario para tomar el control de su sistema”.

¿Qué papel juega la IA en este esquema? En los últimos años, los criminales cibernéticos han perfeccionado el uso de IA para construir ataques más verídicos y ágiles, lo que aumenta sus posibilidades de obtener ganancias en un período más corto. A su vez, les permite dirigirse a nuevos objetivos y desarrollar enfoques delictivos más innovadores, al tiempo que minimizan las probabilidades de ser detectados.

Creando realidades falsas: deepfake y vishing

El término “deepfake” encapsula la fusión de dos conceptos: “deep learning” (aprendizaje profundo) y “fake” (falso). Se refiere a una sofisticada técnica impulsada por IA que permite la creación de contenido multimedia que aparenta ser auténtico, pero es ficticio.

Utilizando algoritmos de aprendizaje profundo, los deepfakes pueden superponer caras en videos, alterar el discurso de una persona en un audio e incluso generar imágenes realistas de individuos que nunca existieron.

Este concepto se remonta a la década de 2010. Uno de los primeros videos deepfake que circuló en internet fue “Face2Face”, publicado en 2016 por un grupo de investigadores de la Universidad de Stanford que buscaban demostrar la capacidad de la tecnología para manipular expresiones faciales.

A partir de dos recursos, la grabación facial de un actor fuente (rol que ocuparon los investigadores) y la de un actor objetivo (presidentes como Vladimir Putin o Donald Trump), los académicos lograron reconstruir las expresiones faciales de los actores objetivo con las expresiones de los actores fuente, en tiempo real y manteniendo la sincronización entre la voz y el movimiento de los labios.

Otro contenido deepfake con gran trascendencia fue un video del expresidente Obama en el que lo escuchamos decir: “Estamos ingresando a una era en la que nuestros enemigos pueden hacer que cualquier persona diga cualquier cosa en cualquier momento”. Y, en efecto, la realidad es que no era Obama quien pronunciaba esas palabras, sino su deepfake.

Por su parte, el “vishing”, una abreviatura de “voice phishing”, representa una variante intrigante y peligrosa del clásico phishing. En lugar de enviar correos electrónicos engañosos, los estafadores llaman por teléfono para engañar a sus víctimas. Mediante software de generación de voz basada en IA, los delincuentes pueden imitar el tono, el timbre y la resonancia de la voz a partir de una muestra de audio de tan solo 30 segundos, algo a lo que pueden acceder fácilmente en las redes sociales.

Dos casos que encendieron las alarmas

Desde estos primeros ejemplos, la tecnología deepfake ha experimentado un rápido avance y una amplia difusión en los últimos años, a tal punto que ha llamado la atención incluso del FBI.

A principios de 2023, la agencia estadounidense emitió una alerta tras notar un aumento en las denuncias sobre falsos videos para adultos, “protagonizados” por las víctimas a partir de imágenes o videos que los delincuentes obtenían de sus redes sociales.

Deepfake en vivo a través de una videollamada

En este contexto, en el transcurso del último año, las autoridades chinas han intensificado la vigilancia y endurecido las represalias, a partir de la revelación de un fraude perpetrado con IA.

El incidente tuvo lugar el 20 de abril de 2023 en la ciudad de Baotou, en la región de Mongolia Interior. Un hombre de apellido Guo, ejecutivo de una empresa tecnológica en Fuzhou, provincia de Fujian, recibió una videollamada a través de WeChat, un servicio de mensajería muy popular en China, de un amigo que le solicitaba ayuda.

El perpetrador utilizó tecnología de intercambio de rostros impulsada por IA para hacerse pasar por el amigo de la víctima. El “amigo” de Guo mencionó que estaba participando en una licitación en otra ciudad y necesitaba utilizar la cuenta de la empresa para presentar una oferta de 4.3 millones de yuanes (aproximadamente USD 622.000). Durante la videollamada, prometió realizar el pago de inmediato y proporcionó un número de cuenta bancaria para que Guo efectuara la transferencia.

Sin sospechar nada, Guo transfirió la suma completa y luego llamó a su amigo real para confirmar que las transferencias se habían realizado correctamente. Fue entonces cuando se llevó una sorpresa desagradable: su verdadero amigo negó haber tenido una videollamada con él y mucho menos haberle solicitado dinero.

Voces falsificadas con IA

En cuanto a casos de vishing, en 2019 un medio informó por primera vez sobre un caso de fraude de voz impulsado por IA. El Wall Street Journal publicó la noticia de la estafa en la que cayó al CEO británico de una empresa de energía por la suma de 220.000 euros.

Estos individuos lograron crear una voz tan similar a la del jefe de la empresa matriz alemana que ninguno de sus colegas en el Reino Unido pudo detectar el fraude. Según explicó la firma de seguros de la compañía, la persona que llamó afirmó que la solicitud era urgente y ordenó al CEO realizar el pago en una hora. El CEO, al escuchar el sutil acento alemán familiar y los patrones de voz de su jefe, no sospechó nada.

Se presume que los piratas informáticos emplearon un software comercial de generación de voz para llevar a cabo el ataque. El ejecutivo británico siguió las instrucciones y transfirió el dinero, lo cual fue seguido por una rápida acción por parte de los delincuentes, quienes movieron los fondos de la cuenta húngara a distintas ubicaciones. 

¿Cómo mejorar nuestra seguridad en línea?

La evolución de la tecnología en los últimos años desafía la autenticidad de imágenes, audios y videos. Así, se vuelve esencial reforzar los cuidados sobre las formas en que nos comunicamos a distancia, a través de cualquier modalidad.

Como vimos, la ingeniería social tiene como principal objetivo las personas. Por este motivo, la principal medida de seguridad para evitar ser víctimas de ataques de este tipo debería concentrarse en las acciones del usuario.

Ante llamadas o mensajes con solicitudes que parezcan extrañas, aunque provengan de gente cercana y presenten una historia creíble (tanto por un medio de contacto frecuente como no), debemos cuestionarnos y desconfiar. Una práctica recomendable es hacer preguntas personales en el momento, cuya respuesta solo podría conocer esa persona.

Pero los usuarios no son los únicos que pueden ser engañados con vishing o deepfakes: también es posible vulnerar los sistemas de autenticación facial o de voz. Desde hace algunos años existe la norma ISO 30107, que establece principios y métodos para evaluar los mecanismos de detección de ataques de presentación (PAD, por su sigla en inglés), aquellos dirigidos a falsificar datos biométricos (como la voz o el rostro).

Daniel Alano, especialista en gestión de seguridad de información de Isbel, destacó que un punto para mejorar nuestra seguridad en línea es usar aplicaciones certificadas con ISO 30107. Alano explicó que “es el estándar que se utiliza para medir si se es vulnerable a ataques de suplantación de identidad”, aunque advirtió que no es infalible.

Si quieres profundizar en historias de ciberdelincuencia, te invitamos a escuchar Malicioso, nuestro pódcast sobre los ciberataques que paralizaron al mundo.