Han pasado más de 24 horas desde la caída de los servicios de Facebook, la compañía de Zuckerberg y él mismo han pedido disculpas por lo sucedido y han dado una explicación parca en detalles. Imaginamos que luego se extenderán, pero terceros ya han podido explicar lo que ha sucedido.

Inicialmente se hablaba de un problema de DNS, pero el asunto es más grande que eso y las DNS solo eran un síntoma de lo que realmente sucedía. Todo se debió a una mala configuración de las BGPs.

Los mapas de internet

BGP es “Border Gateway Protocol” y, como casi todos los elementos relacionados con redes e internet, es un mecanismo que intercambia información entre dos o varios entes. Los BGPs suelen llamarse cariñosamente como los mapas del internet, técnicamente son los que guían a los routers para llegar a distintos sitios de internet.

Otra manera de verlos es como cinta adhesiva, BGP permite también que una red (como Facebook) pueda advertir su presencia entre todas las redes del internet. Lo que sucedía ayer es que Facebok (y todos sus servicios) dejaron de estar presentes para el resto del mundo. Sus BGP (propias y manejadas por la propia Facebook) habían dejado de anunciar que FB existe.

De acuerdo con Cloudflare, se puede llevar un registro de todas las actualizaciones de rutas de las BGP. Sin embargo, las de FB son privadas, por lo que no es posible saber qué sucedió exactamente. Lo que se ha podido confirmar, según Facebook, es que hubo un error en una actualización de ruita.

Una actualización de BGP cambia todas las rutas y la manera en que se comunican las distintas redes que maneja esa BGP. Esto implica cambio de prefijos (IPs) y variaciones en otros mecanismos de transición. Básicamente, cambiar algo mal en este punto hará “desaparecer” a Facebook del internet.

Solicitudes de usuarios

Eso fue lo que paso y los efectos colaterales fueron gigantescos. Facebook no solo se conecta con el mundo, también consigo mismo. Por lo tanto, toda su intranet, que no es cualquiera sino una de las más extensas del mundo, se vio afectada. Esto evitó que sus empleados pudieran hacer nada.

Muchos no podían acceder a oficinas y lugares de trabajo o comunicarse entre sí, una sola actualización errónea había derrumbado a un imperio comunicacional.

DNS de Google.

Por si fuera poco, otros servicios se vieron afectados. Principalmente por las DNS, otro mecanismo que usa internet para indicar a cada dispositivo a dónde ir. La mayoría de las DNS son públicas y conocidas, 8.8.8.8. es una de las más uadas, por ejemplo.

Ahora bien, al intentar entrar a una web hacemos una solicitud y si lo hacemos mucho y constantemente las DNS verán demoradas sus tiempos de respuesta. Esto último fue lo que afectó a Google, Microsoft, Telegram y otras redes a las que la gente se volcó con la “muerte” de Facebook.

No solo vimos servidores sobrecargados, sino DNS públicas recibiendo demasiadas solicituded, demorando tiempos de respuesta y retrasando a todo el mundo.

Red de redes

Y es que internet no es una red en vano, todo está efectivamente conectado y la caída de Facebook ha afectado a todas las demás redes, no hubo una que no se resintiera. El internet es un entramado complicado y con menos mecanismos y siglas como BGP, pero se explica más fácil al entender que es una red de redes casi infinita.

Aunque sabemos que exageramos, una actualización defectuosa dio un duro golpe al mundo ayer. Facebook no ha dado detalles sobre quién fue el responsable de la actualización, o si fue un proceso automático, y realmente no sabemos si es peor que haya sido un error humano o artificial.

We keep track of all the BGP updates and announcements we see in our global network. At our scale, the data we collect gives us a view of how the Internet is connected and where the traffic is meant to flow from and to everywhere on the planet.

Escribir un comentario