Caída general de 13 horas durante la madrugada del 23 de septiembre de 2008

Desde anoche a las 22h hasta esta mañana a las 11h hemos tenido todas nuestras webs caídas. Esta caída se ha debido, según primeras informaciones, a una explosión en uno de los dos sistemas de backup de la instalación eléctrica del Carrier House 2, el edificio de Telvent en Alcobendas donde tiene su data center NTT, nuestro proveedor de hosting.

El edificio cuenta con sistemas de backup de suministro eléctrico, tanto de baterías como generadores de gasoil, ambos duplicados. Tras la explosión el primero quedó inutilizado y parte del cableado eléctrico del edificio se vio afectado. Esto hizo que el segundo grupo de emergencia no pudiera con todo el peso del consumo de todos los equipos y del aire acondicionado (imprescindible para que funcionen los equipos). Primero optaron por apagar el aire y al poco tuvieron que apagar ordenadamente el resto de equipos.

La avería ha afectado a todos nuestros blogs, pero también a las páginas web de multitud de empresas alojadas con NTT o con otros proveedores con presencia en el edifico de Telvent. Entre ellas figuran Spanair, Ya.com, Cope.es, Realmadrid.com, Periodista Digital…

Alrededor de las 2h de la mañana han reestablecido el suministro eléctrico al sistema de refrigeración, que ha empezado a trabajar para bajar la temperatura de todas las salas y crear las condiciones para que se pudieran re-encender los equipos. A eso de las 6h Telvent ha ido dando el ok para encender máquinas a sus clientes directos. NTT nos ha devuelto la conectividad en torno a las 9h y ha empezado a encender nuestras máquinas a las 9:45h de esta mañana. Todavía nos falta por recuperar dos máquinas debido a fallos en la conectividad entre máquinas de NTT.

Hemos reestablecido los blogs a las 11h con una copia de las 19h de ayer aproximadamente, por lo que faltarán tanto posts como comentarios hechos entre las 19h y las 22h de ayer. También faltan bastantes hojas de CSS (el formato del blog) e imágenes. Esperamos recuperar los equipos que faltan pronto y poder reestablecer la copia más actualizada.

En primer lugar tenemos que pedir disculpas a nuestros clientes, que han visto repercutidas en sus páginas web los fallos que nosotros mismos hemos sufrido, a nuestros lectores, que no han podido acceder a sus publicaciones favoritas y a nuestros anunciantes, que han visto como no se servían sus campañas durante todas estas horas.

En cuanto esté todo reestablecido y funcionando en condiciones, buscaremos entender con mayor exactitud qué es lo que ha sucedido y por qué han fallado los sistemas de emergencia. Y posteriormente tomaremos medidas de seguridad adicionales para incrementar nuestro nivel de redundancia y evitar en lo posible que se puedan repetir situaciones como esta.

Seguimiento de la situación: WSL Crisis.