Los investigadores desarrollan un solucionador CAPTCHA para ayudar a la investigación de la web oscura

Un equipo de investigadores de las universidades de Arizona, Georgia y el sur de Florida ha desarrollado un solucionador de CAPTCHA basado en el aprendizaje automático que, según afirman, puede superar el 94,4 % de los desafíos reales en los sitios web oscuros.

El objetivo del estudio fue crear un sistema que pueda simplificar la inteligencia de amenazas cibernéticas, que actualmente requiere la participación humana para la resolución manual de CAPTCHA.

Los costos del delito cibernético están aumentando exponencialmente, con ataques cibernéticos y violaciones de datos que ocurren todos los días. Por lo tanto, tener una forma de hacer que la web oscura sea más transparente para la investigación es fundamental para tomar medidas preventivas específicas.

CAPTCHA de la web oscura

Los sitios web utilizan CAPTCHA (Prueba de Turing pública completamente automatizada para diferenciar a las computadoras y los humanos) para distinguir entre usuarios reales y bots.

Estos desafíos son omnipresentes en la web oscura para proteger las plataformas de los constantes ataques DDoS que las plataformas competidoras se lanzan entre sí.

Estos ataques DDoS son llevados a cabo por botnets y, por lo tanto, tener una capa fuerte de CAPTCHA en la página de inicio de sesión puede mantener la amenaza bajo control.

Sin embargo, cada sitio web implementa su propio desafío CAPTCHA personalizado, por lo que es prácticamente imposible desarrollar una herramienta que pueda resolver la mayoría de ellos.

Como tal, la recopilación de inteligencia sobre amenazas cibernéticas de los mercados y foros ilícitos de la web oscura se vuelve desafiante y costosa, ya que los empleados deben participar en la fase de resolución de CAPTCHA.

Enfoque de aprendizaje automático

Para abordar este problema práctico, los investigadores desarrollaron un sistema basado en la interpretación de imágenes rasterizadas, cualitativamente diferente de otros estudios recientes que también han utilizado enfoques generativos basados ​​en la red contradictoria.

Trazado de límites e identificación de rangos
Trazado de límites e identificación de rangos
Fuente: Arxiv.org

El nuevo solucionador puede distinguir letras y números mirándolos uno por uno, eliminando el ruido de la imagen, identificando sus bordes entre las letras y segmentando el contenido en caracteres individuales.

Eliminar el ruido del CAPTCHA y separar los caracteres
Eliminar el ruido del CAPTCHA y separar los caracteres
Fuente: Arxiv.org

Por lo tanto, el tamaño del desafío CAPTCHA no afecta en gran medida la eficacia del solucionador, especialmente cuando se mide el rendimiento acumulado de tres intentos.

Tasas de resolución en diferentes tamaños de CAPTCHA
Tasas de resolución para diferentes tamaños de CAPTCHA
Fuente: Arxiv.org

En cuanto al aspecto de reconocimiento de caracteres, el solucionador utiliza muestras extraídas en múltiples regiones locales para identificar características de grano fino como líneas y bordes, por lo que no puede ser "engañado" por la rotación de caracteres, los cambios de tamaño de fuente o los intercambios de colores.

Muestras de datos con diferente forma de fuente
Muestras de datos con diferentes formas de fuente
Fuente: Arxiv.org

Pruebas del mundo real

Usando su modelo de resolución DW-GAN más optimizado, los investigadores lo probaron contra Yellow Brick, un mercado web oscuro ahora desaparecido que albergaba listas de contenido ilícito.

Probando el solucionador contra el mercado de ladrillos amarillos
Probando el solucionador contra el mercado de ladrillos amarillos
Fuente: Arxiv.org

Como explica el diario:

Usando un rastreador impulsado por nuestro DW-GAN, pudimos recolectar 1831 productos ilegales de Yellow Brick. Entre estos productos, había 286 artículos relacionados con la ciberseguridad, incluidas 102 tarjetas de crédito robadas, 131 cuentas robadas, 9 escaneos de documentos falsos, 44 herramientas de piratería y 1223 productos relacionados con drogas.

En general, la recopilación de inteligencia de mercado sobre el "ladrillo amarillo" con DW-GAN tomó alrededor de 5 horas sin participación humana. Específicamente, cada solicitud HTTP tardó 8,8 segundos en cargar una nueva página web; por lo tanto, el escaneo de 1.831 páginas tomó 268,5 minutos. Resolver desafíos recurrentes de CAPTCHA (para 15 solicitudes HTTP) llevó a nuestro rastreador DW-GAN 18,6 segundos.

En general, el marco propuesto podría terminar automáticamente el CAPTCHA con no más de tres intentos. Romper todas las imágenes CAPTCHA toma aproximadamente 76 minutos [sic] en total para las 1.831 páginas de productos, un proceso totalmente automatizado.

Por supuesto, estos datos de prueba son para un mercado particular de la web oscura, pero se espera un nivel similar de rendimiento en cualquier sitio que use palabras CAPTCHA, según los investigadores.

Implicaciones potenciales

La inteligencia y los solucionadores de CAPTCHA de alta capacidad como este pueden alterar potencialmente el espacio, al menos en la web oscura, donde se utilizan desafíos menos sofisticados.

Comparación de rendimiento con otros solucionadores basados ​​en ML
Comparación de rendimiento con otros solucionadores basados ​​en ML
Fuente: Arxiv.org

Los autores han publicado la versión final de su solucionador en GitHub, pero no el conjunto de datos de entrenamiento de 50 000 imágenes CAPTCHA.

Presumiblemente, alguien podría trabajar en este modelo para encontrar algo que funcione incluso en implementaciones débiles de CAPTCHA de clearnet.

Como señala el documento con respecto a esta posibilidad: "aunque este estudio se centra principalmente en el CAPTCHA de la web oscura como el problema más desafiante, el método propuesto en este estudio debería ser aplicable a otros tipos de CAPTCHA sin pérdida de generalidad".

Es posible que este nuevo solucionador se haya desarrollado con el noble propósito de abordar el delito cibernético, pero aún tiene el potencial de impactar a quienes usan la web oscura para el anonimato y el intercambio seguro de información.

¿Qué te ha parecido?
Subir
DiarioInforme utiliza cookies    Configurar y más información
Privacidad