{"id":96020,"date":"2018-12-19T01:00:36","date_gmt":"2018-12-19T09:00:36","guid":{"rendered":"https:\/\/www.paloaltonetworks.com\/blog\/?p=96020"},"modified":"2018-12-17T07:49:35","modified_gmt":"2018-12-17T15:49:35","slug":"deteccion-de-campanas-maliciosas-mediante-el-aprendizaje-automatico","status":"publish","type":"post","link":"https:\/\/origin-researchcenter.paloaltonetworks.com\/blog\/2018\/12\/deteccion-de-campanas-maliciosas-mediante-el-aprendizaje-automatico\/?lang=es","title":{"rendered":"Detecci\u00f3n de campa\u00f1as maliciosas mediante el aprendizaje autom\u00e1tico"},"content":{"rendered":"<p>Constantemente buscamos formas nuevas de proteger a los clientes y de evitar que los ataques puedan tener \u00e9xito. Con este fin, recientemente hemos incorporado a nuestro arsenal de recursos de investigaci\u00f3n el uso del aprendizaje autom\u00e1tico no supervisado en grandes conjuntos de datos de informaci\u00f3n de dominios. T\u00e9cnicas como esta, basadas en el aprendizaje autom\u00e1tico, pueden ayudarnos a descubrir nuevas amenazas y bloquearlas antes de que puedan afectar a nuestros clientes. Pueden identificar r\u00e1pidamente dominios maliciosos que formen parte de campa\u00f1as m\u00e1s grandes en cuanto est\u00e9n activos y dar mucha m\u00e1s cobertura a estas campa\u00f1as que los m\u00e9todos tradicionales.<\/p>\n<p>En este blog se ofrece informaci\u00f3n detallada y ejemplos de c\u00f3mo aplicamos el aprendizaje autom\u00e1tico no supervisado. Concretamente, hace poco en una campa\u00f1a de phishing detectamos 333\u00a0dominios activos. El primer d\u00eda en que la campa\u00f1a estuvo activa sin control, solo 87\u00a0dominios eran conocidos para una popular base de datos de malware en l\u00ednea y todos eran totalmente desconocidos para dos conocidas listas de bloqueo. En las dos semanas siguientes, la lista de bloqueo con mejores resultados solo bloque\u00f3 247 de los 333\u00a0dominios y la base de datos de malware solo identific\u00f3 93.<\/p>\n<p>Nuestra tecnolog\u00eda de aprendizaje autom\u00e1tico sin supervisi\u00f3n abarca la totalidad de estas campa\u00f1as y las detecta de forma temprana, antes de que afecten a usuarios vulnerables. En el caso de la campa\u00f1a analizada a continuaci\u00f3n y de otras detectadas con la misma t\u00e9cnica, los clientes de Palo Alto Networks estaban protegidos al d\u00eda siguiente de que los dominios estuvieran activos.<\/p>\n<p>&nbsp;<\/p>\n<p><strong>Antecedentes<\/strong><\/p>\n<p>Un tipo de actividad maliciosa en l\u00ednea conlleva el uso de muchos dominios con el mismo fin y durante un corto per\u00edodo. Con frecuencia, estas campa\u00f1as aprovechan un acontecimiento de actualidad, como el Mundial de f\u00fatbol, y los nombres de dominio suelen ser nombres de dominios leg\u00edtimos, pero mal escritos, o bien nombres que tengan relaci\u00f3n con servicios leg\u00edtimos, como c0mpany.com en lugar de company.com.<\/p>\n<p>Un ejemplo anterior de esta actividad ser\u00eda el lanzamiento de campa\u00f1as maliciosas tras la filtraci\u00f3n de datos de Equifax en 2017. En este caso concreto, la agencia de informes de cr\u00e9dito cre\u00f3 un sitio web leg\u00edtimo, www.equifaxsecurity2017[.]com, para que los usuarios pudieran saber si sus datos se hab\u00edan filtrado. Esto desencaden\u00f3 una o varias campa\u00f1as maliciosas que registraron cientos de dominios que se parec\u00edan mucho a la direcci\u00f3n URL original. Por ejemplo, www.equifaxsecurity3017[.]com.<\/p>\n<p>Por lo general, resulta f\u00e1cil observar detenidamente un solo nombre de dominio y distinguir si es fraudulento, pero, como en una campa\u00f1a pueden crearse cientos de dominios de ese tipo, lo realmente dif\u00edcil es encontrar todos los dominios fraudulentos antes de que empiecen a afectar a muchas personas. Aunque los nombres de estos dominios puedan variar m\u00ednimamente, los dominios maliciosos que forman parte de la misma campa\u00f1a siguen compartiendo muchas caracter\u00edsticas como la subred IP, el n\u00famero de sistema aut\u00f3nomo (ASN), el tiempo de vida (TTL) de DNS, la informaci\u00f3n que figura en el registro Whois y muchos otros atributos. Bas\u00e1ndonos en esta observaci\u00f3n, hemos puesto en marcha un sistema para extraer atributos del tr\u00e1fico DNS y agrupar los dominios en funci\u00f3n de su similitud. Nuestro sistema complementa a los m\u00e9todos existentes y permite identificar dominios de campa\u00f1as que, de otro modo, no ser\u00eda posible detectar.<\/p>\n<p><div style=\"max-width:100%\" data-width=\"660\"><span class=\"ar-custom\" style=\"padding-bottom:72.88%;\"><img loading=\"lazy\" decoding=\"async\"  class=\"alignnone size-full wp-image-95952 aligncenter lozad\"  data-src=\"https:\/\/www.paloaltonetworks.com\/blog\/wp-content\/uploads\/2018\/12\/Blog1.png\" alt=\"\" width=\"660\" height=\"481\" srcset=\"https:\/\/origin-researchcenter.paloaltonetworks.com\/blog\/wp-content\/uploads\/2018\/12\/Blog1.png 660w, https:\/\/origin-researchcenter.paloaltonetworks.com\/blog\/wp-content\/uploads\/2018\/12\/Blog1-230x168.png 230w, https:\/\/origin-researchcenter.paloaltonetworks.com\/blog\/wp-content\/uploads\/2018\/12\/Blog1-500x364.png 500w, https:\/\/origin-researchcenter.paloaltonetworks.com\/blog\/wp-content\/uploads\/2018\/12\/Blog1-412x300.png 412w, https:\/\/origin-researchcenter.paloaltonetworks.com\/blog\/wp-content\/uploads\/2018\/12\/Blog1-55x40.png 55w\" sizes=\"auto, (max-width: 660px) 100vw, 660px\" \/><\/span><\/div><\/p>\n<p style=\"text-align: center;\"><em>Figura\u00a01: Proceso de alto nivel<\/em><\/p>\n<p>&nbsp;<\/p>\n<p><strong>Enfoque<\/strong><\/p>\n<p>Nuestro enfoque (consulte la figura\u00a01) consiste en agrupar los dominios que se han visto en los registros de DNS pasivos, que se trata de un mecanismo para registrar el tr\u00e1fico de consulta\/respuesta de DNS.\u00a0Los datos que figuran en los registros son principalmente la marca de tiempo, el dominio en cuesti\u00f3n y la direcci\u00f3n IP correspondiente, entre otros. Por motivos de privacidad, el tr\u00e1fico DNS de clientes individuales (el bit RD, o \u201crecursividad deseada\u201d est\u00e1 establecido) no se registra y la IP de cliente tambi\u00e9n se elimina.<\/p>\n<p>Los registros de DNS pasivos est\u00e1n disponibles en diversas fuentes y los investigadores suelen usarlos para comprender el tr\u00e1fico en Internet a escala. Generalmente, recibimos m\u00e1s de 6\u00a0terabytes de registros de DNS pasivos a diario para el an\u00e1lisis.<\/p>\n<p>Para agrupar estos dominios, usamos funciones que se han generado a partir de la informaci\u00f3n que figura en los registros de DNS pasivos como la direcci\u00f3n IP, as\u00ed como otras fuentes, como BGP y Whois. De este modo, obtenemos grupos de dominios relacionados entre s\u00ed, aunque en realidad no est\u00e9n etiquetados como benignos o maliciosos.<\/p>\n<p>Como en este punto los datos no est\u00e1n etiquetados, el uso del aprendizaje autom\u00e1tico no supervisado ser\u00eda \u00fatil. Sabemos que los dominios que est\u00e1n agrupados comparten muchas caracter\u00edsticas, pero no si son maliciosos o no. Para encontrar los grupos maliciosos, usamos dominios semilla que parecen formar parte de una nueva campa\u00f1a y que hemos verificado como maliciosos.<\/p>\n<p>&nbsp;<\/p>\n<p><strong>Dominios semilla<\/strong><\/p>\n<p>Los dominios semilla son ejemplos de dominios maliciosos que aparecen para mostrarse en grupos.<\/p>\n<p>Suelen encontrarse de diversas formas y actualmente nos centramos en tres fuentes de informaci\u00f3n para identificar los dominios semilla candidatos: registros de dominios, dominios vistos recientemente y temas populares.<\/p>\n<p>&nbsp;<\/p>\n<p><strong>Registros de dominios<\/strong><\/p>\n<p>Examinamos dominios que se hayan registrado recientemente y buscamos grupos con nombres similares. Si la campa\u00f1a est\u00e1 aprovechando un acontecimiento reciente, entonces es posible que se haya registrado un grupo grande de dominios con un nombre relativo al acontecimiento en cuesti\u00f3n. Comprobamos la existencia de dominios maliciosos conocidos en los grupos e incluimos los resultados en nuestra lista de dominios semilla. Identificamos los dominios maliciosos conocidos seg\u00fan nuestras propias detecciones, adem\u00e1s de usar inteligencia sobre amenazas de terceros como, por ejemplo, una popular base de datos de malware en l\u00ednea. Es posible que haya muchos dominios maliciosos que no sean conocidos o de los que no se tenga informaci\u00f3n, pero solo necesitamos hallar unos cuantos ejemplos para iniciar el proceso.<\/p>\n<p>&nbsp;<\/p>\n<p><strong>Dominios vistos recientemente<\/strong><\/p>\n<p>Tambi\u00e9n buscamos dominios nuevos en los registros de DNS pasivos que no se hayan visto con anterioridad. Puede que se hayan registrado hace tiempo, pero que no se hayan puesto en servicio hasta que no se haya iniciado la campa\u00f1a. Buscamos grupos de nombres similares e identificamos semillas de aquellos que se sabe que son maliciosos.<\/p>\n<p>&nbsp;<\/p>\n<p><strong>Temas populares<\/strong><\/p>\n<p>Tambi\u00e9n buscamos temas populares en las redes sociales. Si tienen lugar acontecimientos a los que se haya hecho mucha publicidad, suelen aparecer en las tendencias diarias de las redes sociales. Cotejamos la aparici\u00f3n de palabras que hayan sido tendencia en Google o Twitter con nombres de dominios que se hayan visto recientemente. Por ejemplo, si vemos una tendencia en Google relativa a un acontecimiento reciente, como un espect\u00e1culo deportivo, comprobamos los dominios vistos recientemente que tambi\u00e9n hagan referencia a dicho acontecimiento. Volvemos a buscar grupos de nombres similares y buscamos aquellos que se sabe que son maliciosos. Con nuestra lista de dominios semilla, ahora estamos listos para buscar grupos de dominios que contengan esas semillas.<\/p>\n<p>&nbsp;<\/p>\n<p><strong>B\u00fasqueda de grupos maliciosos<\/strong><\/p>\n<p>Una vez identificado el grupo de dominios semilla que vamos a usar, los buscamos en los grupos de dominios que hemos calculado anteriormente a partir de los datos de DNS pasivos (consulte la figura\u00a02). Cualquier grupo que tenga un porcentaje importante de dominios semilla se considera que es una campa\u00f1a maliciosa y todos los dominios del grupo se marcar\u00e1n como maliciosos.<\/p>\n<p><div style=\"max-width:100%\" data-width=\"768\"><span class=\"ar-custom\" style=\"padding-bottom:52.73%;\"><img loading=\"lazy\" decoding=\"async\"  class=\"alignnone size-full wp-image-95965 aligncenter lozad\"  data-src=\"https:\/\/www.paloaltonetworks.com\/blog\/wp-content\/uploads\/2018\/12\/Blog2.png\" alt=\"\" width=\"768\" height=\"405\" srcset=\"https:\/\/origin-researchcenter.paloaltonetworks.com\/blog\/wp-content\/uploads\/2018\/12\/Blog2.png 768w, https:\/\/origin-researchcenter.paloaltonetworks.com\/blog\/wp-content\/uploads\/2018\/12\/Blog2-230x121.png 230w, https:\/\/origin-researchcenter.paloaltonetworks.com\/blog\/wp-content\/uploads\/2018\/12\/Blog2-500x264.png 500w, https:\/\/origin-researchcenter.paloaltonetworks.com\/blog\/wp-content\/uploads\/2018\/12\/Blog2-510x269.png 510w, https:\/\/origin-researchcenter.paloaltonetworks.com\/blog\/wp-content\/uploads\/2018\/12\/Blog2-76x40.png 76w, https:\/\/origin-researchcenter.paloaltonetworks.com\/blog\/wp-content\/uploads\/2018\/12\/Blog2-569x300.png 569w\" sizes=\"auto, (max-width: 768px) 100vw, 768px\" \/><\/span><\/div><\/p>\n<p style=\"text-align: center;\"><em>Figura\u00a02: Grupos de dominios<\/em><\/p>\n<p><strong>Resultados<\/strong><\/p>\n<p>Como ejemplo, hemos descubierto recientemente una campa\u00f1a de phishing que usaba dominios maliciosos con nombres como check-box-with-money##[.]loan. Decidimos seleccionar este grupo de dominios porque observamos un grupo de dominios parecidos que se registraron al mismo tiempo. En el primer d\u00eda, observamos 77\u00a0dominios registrados. De ellos, solo 17 eran conocidos para una popular base de datos de malware en l\u00ednea, pero bast\u00f3 para a\u00f1adirlos a nuestro grupo semilla. Mediante el an\u00e1lisis de la agrupaci\u00f3n de dominios observados en los datos de DNS pasivos, nos dimos cuenta inmediatamente de que hab\u00eda 2\u00a0dominios m\u00e1s que no se vieron en el registro.<\/p>\n<p>Al d\u00eda siguiente, detectamos otros 16\u00a0dominios en la campa\u00f1a, luego 58 y despu\u00e9s 88. En las primeras dos semanas de la campa\u00f1a, detectamos 333\u00a0dominios que estaban asociados a esta campa\u00f1a de phishing.<\/p>\n<p>Curiosamente, de esos 333\u00a0dominios, descubrimos que hab\u00eda 247 que una popular base de datos de malware en l\u00ednea no hab\u00eda identificado el primer d\u00eda en que se hab\u00edan visto los dominios activos. En las dos semanas posteriores, solo 7 de esos dominios se marcaron finalmente. Transcurridas dos semanas, hab\u00eda 240\u00a0dominios que no hab\u00edan sido catalogados como phishing <em>por esa base de datos aunque los dominios estaban presentes activamente en Internet y era evidente que formaban parte de la misma campa\u00f1a.<\/em><\/p>\n<p>Tambi\u00e9n contrastamos con dos listas de bloqueo muy conocidas. De estas listas, descubrimos que ninguna hab\u00eda empezado a bloquear los dominios el primer d\u00eda en que aparecieron en Internet. En las dos semanas posteriores, de los 333\u00a0dominios, una bloque\u00f3 solo 80\u00a0dominios y la otra 247.<\/p>\n<p>Estos resultados ponen de manifiesto que, aunque la comunidad encargada de la seguridad detecta algunos dominios de las campa\u00f1as, resulta f\u00e1cil para algunos dominios superar los controles sin que les bloqueen, que es el objetivo fundamental del atacante.<\/p>\n<p>&nbsp;<\/p>\n<p><strong>Conclusi\u00f3n<\/strong><\/p>\n<p>Este es solo un ejemplo. En los dos \u00faltimos meses, hemos descubierto 15\u00a0campa\u00f1as distintas compuestas por m\u00e1s de 1000\u00a0dominios activos. Muchos de estos dominios, aunque activos y parte de las campa\u00f1as, no han sido identificados individualmente por varios servicios populares de terceros. Sin embargo, de los dominios que s\u00ed han sido identificados por el servicio de un tercero, nosotros detectamos los dominios una media de 2,8\u00a0d\u00edas antes que una base de datos de malware en l\u00ednea, 3,9\u00a0d\u00edas antes que una popular lista de bloqueo y 2,4\u00a0d\u00edas antes que la otra lista. Las m\u00e1ximas diferencias que hemos observado hasta la fecha entre los dominios identificados por terceros son 46\u00a0d\u00edas en el caso de la base de datos de malware, 15\u00a0d\u00edas para la primera lista de bloqueo y 32\u00a0d\u00edas para la segunda. En la figura\u00a03 se muestra la comparaci\u00f3n global del tiempo transcurrido hasta la identificaci\u00f3n.<\/p>\n<p><div style=\"max-width:100%\" data-width=\"750\"><span class=\"ar-custom\" style=\"padding-bottom:71.33%;\"><img loading=\"lazy\" decoding=\"async\"  class=\"size-full wp-image-95978 aligncenter lozad\"  data-src=\"https:\/\/www.paloaltonetworks.com\/blog\/wp-content\/uploads\/2018\/12\/Blog3.png\" alt=\"\" width=\"750\" height=\"535\" srcset=\"https:\/\/origin-researchcenter.paloaltonetworks.com\/blog\/wp-content\/uploads\/2018\/12\/Blog3.png 750w, https:\/\/origin-researchcenter.paloaltonetworks.com\/blog\/wp-content\/uploads\/2018\/12\/Blog3-230x164.png 230w, https:\/\/origin-researchcenter.paloaltonetworks.com\/blog\/wp-content\/uploads\/2018\/12\/Blog3-500x357.png 500w, https:\/\/origin-researchcenter.paloaltonetworks.com\/blog\/wp-content\/uploads\/2018\/12\/Blog3-421x300.png 421w, https:\/\/origin-researchcenter.paloaltonetworks.com\/blog\/wp-content\/uploads\/2018\/12\/Blog3-56x40.png 56w\" sizes=\"auto, (max-width: 750px) 100vw, 750px\" \/><\/span><\/div><\/p>\n<p style=\"text-align: center;\"><em>Figura\u00a03: Tiempo hasta la identificaci\u00f3n por parte de terceros<\/em><\/p>\n<p>&nbsp;<\/p>\n<p><strong>Protecci\u00f3n y llamada a la acci\u00f3n<\/strong><\/p>\n<p>Los clientes de Palo Alto Networks est\u00e1n protegidos frente a estos dominios maliciosos y de phishing gracias a la base de datos de filtrado de URL PAN-DB URL Filtering y a las firmas de comando y control DNS que se incluyen en la suscripci\u00f3n a Threat Prevention. Los clientes que cuentan con cortafuegos de Palo Alto Networks contribuyen a nuestra investigaci\u00f3n de DNS pasivos al detectar de forma proactiva dominios maliciosos y de phishing. Para activar el uso compartido de DNS pasivos en PAN-OS versi\u00f3n 8.0 o posterior, seleccione \u201cPassive DNS Monitoring\u201d (Device &gt; Setup &gt; Telemetry) (Supervisi\u00f3n de DNS pasivos [Dispositivo &gt; Configuraci\u00f3n &gt; Telemetr\u00eda). En el caso de PAN-OS\u00ae 7.1 o anterior, el uso compartido de DNS pasivos se activa en el perfil de seguridad Antispyware. Los registros de DNS pasivos incluyen principalmente la marca de tiempo, el dominio en cuesti\u00f3n y la direcci\u00f3n IP correspondiente, entre otros datos. Por motivos de privacidad, el tr\u00e1fico DNS de clientes individuales (el bit RD, o \u201crecursividad deseada\u201d est\u00e1 establecido) no se registra y la IP de cliente tambi\u00e9n se elimina.<\/p>\n<p><div style=\"max-width:100%\" data-width=\"625\"><span class=\"ar-custom\" style=\"padding-bottom:71.52%;\"><img loading=\"lazy\" decoding=\"async\"  class=\"alignnone size-full wp-image-95991 aligncenter lozad\"  data-src=\"https:\/\/www.paloaltonetworks.com\/blog\/wp-content\/uploads\/2018\/12\/Blog4.png\" alt=\"\" width=\"625\" height=\"447\" srcset=\"https:\/\/origin-researchcenter.paloaltonetworks.com\/blog\/wp-content\/uploads\/2018\/12\/Blog4.png 625w, https:\/\/origin-researchcenter.paloaltonetworks.com\/blog\/wp-content\/uploads\/2018\/12\/Blog4-230x164.png 230w, https:\/\/origin-researchcenter.paloaltonetworks.com\/blog\/wp-content\/uploads\/2018\/12\/Blog4-500x358.png 500w, https:\/\/origin-researchcenter.paloaltonetworks.com\/blog\/wp-content\/uploads\/2018\/12\/Blog4-419x300.png 419w, https:\/\/origin-researchcenter.paloaltonetworks.com\/blog\/wp-content\/uploads\/2018\/12\/Blog4-56x40.png 56w\" sizes=\"auto, (max-width: 625px) 100vw, 625px\" \/><\/span><\/div><\/p>\n","protected":false},"excerpt":{"rendered":"<p>Constantemente buscamos formas nuevas de proteger a los clientes y de evitar que los ataques puedan tener \u00e9xito. Con este fin, recientemente hemos incorporado a nuestro arsenal de recursos de investigaci\u00f3n el &hellip;<\/p>\n","protected":false},"author":616,"featured_media":72329,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"_jetpack_memberships_contains_paid_content":false,"footnotes":""},"categories":[1],"tags":[],"coauthors":[6611,6612,4719,1576,913,741],"class_list":["post-96020","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-uncategorized"],"jetpack_featured_media_url":"https:\/\/origin-researchcenter.paloaltonetworks.com\/blog\/wp-content\/uploads\/2018\/04\/unit42-blog-600x300.jpg","jetpack_sharing_enabled":true,"_links":{"self":[{"href":"https:\/\/origin-researchcenter.paloaltonetworks.com\/blog\/wp-json\/wp\/v2\/posts\/96020","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/origin-researchcenter.paloaltonetworks.com\/blog\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/origin-researchcenter.paloaltonetworks.com\/blog\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/origin-researchcenter.paloaltonetworks.com\/blog\/wp-json\/wp\/v2\/users\/616"}],"replies":[{"embeddable":true,"href":"https:\/\/origin-researchcenter.paloaltonetworks.com\/blog\/wp-json\/wp\/v2\/comments?post=96020"}],"version-history":[{"count":1,"href":"https:\/\/origin-researchcenter.paloaltonetworks.com\/blog\/wp-json\/wp\/v2\/posts\/96020\/revisions"}],"predecessor-version":[{"id":96021,"href":"https:\/\/origin-researchcenter.paloaltonetworks.com\/blog\/wp-json\/wp\/v2\/posts\/96020\/revisions\/96021"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/origin-researchcenter.paloaltonetworks.com\/blog\/wp-json\/wp\/v2\/media\/72329"}],"wp:attachment":[{"href":"https:\/\/origin-researchcenter.paloaltonetworks.com\/blog\/wp-json\/wp\/v2\/media?parent=96020"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/origin-researchcenter.paloaltonetworks.com\/blog\/wp-json\/wp\/v2\/categories?post=96020"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/origin-researchcenter.paloaltonetworks.com\/blog\/wp-json\/wp\/v2\/tags?post=96020"},{"taxonomy":"author","embeddable":true,"href":"https:\/\/origin-researchcenter.paloaltonetworks.com\/blog\/wp-json\/wp\/v2\/coauthors?post=96020"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}