뒤늦게 정리하는 AWS 장애 경험기

개발 | 2018/12/09 20:08

지난 달 22일 오전 9시 2분부터 약 1시간 30분 동안 AWS 서울 리전 DNS 장애가 발생했습니다.

직접 서버를 운영하다가 8월 31일에 AWS Lightsail로 블로그와 가볼가를 이전했습니다. 이전 후에 3개월이 채 안 돼서 장애를 경험했습니다. 대부분 더 안정적으로 운영할 수 있지만, 이렇게 장애가 발생하면 직접 해결하기 어렵다는 게 클라우드의 단점인 것 같네요.

AWS 내부 DNS 장애가 발생해 도메인으로 IP 조회가 불가능했습니다. 저 같은 경우는 AWS Lightsail만 사용하고 있기 때문에 외부 API를 호출하는 부분에서만 문제가 생겼지만, 보통 AWS의 다양한 제품을 가지고 서비스를 구성하기 때문에 제품 간의 접근이 어려워지면서 피해가 컸던 것 같습니다.

저는 외부 API 호출을 위해 DNS 주소를 추가하는 것으로 해결했습니다. 다른 서비스는 해결될 때까지 기다리거나, 직접 AWS 제품에 맞는 IP를 hosts 파일에 넣어서 해결하기도 한 듯합니다.

이런 큰 장애가 발생하면 이메일 알림 같은 게 왔으면 좋겠는데, 그렇지가 않아서 좀 아쉬웠습니다. 애초에 이게 일어날 만한 장애인지도 의문이구요. DNS 이중화 했으면 발생하지 않았을 것 같습니다. 클라우드를 100% 믿으면 안 되고, 자체적으로 안정적인 서비스를 위한 노력이 필요하다는 걸 깨닫는 경험이었습니다.

태그 : , , ,

댓글 달기