Question

상태검사 결과에 따라서 자동으로 인스턴스가 재부팅 혹은 로그아웃 되기도 할까요?

인스턴스 상태 검사 실패가 되면 무엇을 살펴보면 좋을지 알려주시면 감사하겠습니다.


Answer

인스턴스 재부팅에 의해 시스템 상태 검사가 실패할 수 있으며, 상태검사 실패에 따른 인스턴스 재부팅의 가능성이 있습니다.

인스턴스가 재부팅이나 재시작 문제가 발생할 수 있는 몇가지 이유는 아래와 같습니다.

  • 인스턴스가 상태 확인 중 하나 또는 둘 다에서 실패한 경우

  • 인스턴스를 호스팅하는 기본 하드웨어에 결함이 있었고 Amazon EC2가 인스턴스를 다시 시작하여 새로운 정상 하드웨어로 이전한 경우

  • 인스턴스에서 재부팅이 필요한 예약된 유지 관리가 발생한 경우

  • 사용자 또는 서버 내부의 애플리케이션이 인스턴스를 재부팅한 경우

  • 커널 버그가 발생한 경우

인스턴스 재부팅 문제에 대한 해결 방법을 아래와 같습니다.

  • 시스템 로그 보기

    • 인스턴스가 상태 확인에 실패하지 않은 경우, 운영 체제 수준의 문제로 인해 인스턴스가 재부팅되었을 수 있습니다.

    • 시스템 로그는 OS 배포에 따라 /var/log/messages 또는 /var/log/syslog에 있습니다.

  • 재부팅 기록 보기
    다음 명령을 사용하여 재부팅을 시작했는지 확인합니다.

    • # grep reboot /home/*/.bash_history

    • # grep reboot /root/.bash_history

    • # history | grep -i reboot

    • # history | grep -i init

    • # last reboot

  • AWS CloudTrail 이벤트 기록 보기
    Amazon EC2 콘솔 또는 AWS CLI를 통해 시작된 인스턴스 재부팅은 CloudTrail 이벤트 기록에 표시됩니다. 

이러한 이벤트를 보는 방법은 다음과 같습니다.

  1. AWS CloudTrail 콘솔을 엽니다.

  2. Event history(이벤트 기록)를 선택합니다.

  3. 필터 드롭다운에서 Event name(이벤트 이름)을 선택한 다음 RebootInstances를 입력합니다.


인스턴스 재부팅이나 로그아웃과 관련된 상태 검사 실패는 주로 시스템 상태 검사와 관련이 있으며, 이는 일반적으로 AWS 측의 이슈로 인해 발생합니다. 따라서 이러한 상황에서는 AWS 측의 개입이 필요하며, 문제를 해결하기 위해 PHD 확인을 하거나 Support Center를 통해서 원인을 확인 해볼 수 있습니다.

[시스템 상태 확인]

시스템 상태 확인은 인스턴스가 실행되는 AWS 시스템을 모니터링합니다. 이러한 확인에서는 복구 시 AWS 개입이 필요한 인스턴스와 관련된 근본적인 문제를 찾아냅니다.

  • 시스템 상태 확인의 실패 원인이 되는 몇 가지 문제는 다음과 같습니다.

    • 네트워크 연결 끊김

    • 시스템 전원 중단

    • 물리적 호스트의 소프트웨어 문제

    • 네트워크 연결성에 영향을 주는 물리적 호스트의 하드웨어 문제

  • 시스템 상태 검사에 실패하면 StatusCheckFailed_System 지표가 증가합니다.
     해당 지표들은 0(통과) 또는 1(실패)이 될 수 있습니다. 기본적으로 이 지표는 1분 주기로 무료로 사용할 수 있습니다.

    • StatusCheckFailed : 인스턴스가 마지막으로 인스턴스 상태 확인 및 시스템 상태 확인을 통과했는지 여부를 보고합니다.

    • StatusCheckFailed_System : 인스턴스가 마지막으로 시스템 상태 확인을 통과했는지 여부를 보고합니다.

[인스턴스 상태 확인]

개별 인스턴스에 대한 소프트웨어 및 네트워크 구성을 모니터링합니다. Amazon EC2는 네트워크 인터페이스(NIC)로 주소 확인 프로토콜(ARP)을 전송하여 인스턴스의 상태를 확인합니다. 이러한 확인에서는 복구 시 사용자의 개입이 필요한 문제를 찾아냅니다. 인스턴스 상태 확인이 실패할 경우에는 일반적으로 사용자가 인스턴스를 재부팅하거나 인스턴스 구성을 변경하는 등의 방법으로 문제를 직접 해결해야 합니다.

  • 인스턴스 상태 확인의 실패 원인이 되는 몇 가지 문제는 다음과 같습니다.

    • 시스템 상태 확인 실패

    • 잘못된 네트워킹 또는 스타트업 구성

    • 메모리가 모두 사용됨

    • 파일 시스템 손상

    • 호환되지 않는 커널

  • 인스턴스 상태 검사에 실패하면 StatusCheckFailed_Instance 지표가 증가합니다.
     해당 지표는 0(통과) 또는 1(실패)이 될 수 있습니다. 기본적으로 이 지표는 1분 주기로 무료로 사용할 수 있습니다.

    • StatusCheckFailed : 인스턴스가 마지막으로 인스턴스 상태 확인 및 시스템 상태 확인을 통과했는지 여부를 보고합니다.

    • StatusCheckFailed_Instance : 인스턴스가 마지막으로 인스턴스 상태 확인을 통과했는지 여부를 보고합니다.

[상태 확인 보기]

  1. Amazon EC2 콘솔을 엽니다.

  2. 탐색 창에서 인스턴스(Instances)를 선택합니다.

  3. 인스턴스(Instances) 페이지의 상태 검사(Status check) 열에는 각 인스턴스의 운영 상태가 목록으로 표시됩니다.