이번 포스팅은 Cisco ACI의 Bug Report (CSCvb42851)에 대한 공유입니다.
ACI 모드의 Spine과 Leaf의 특정 Process(stats_manager)에서의 Memory Leak에 대한 Bug 입니다 .
Memory Leak으로 인한 장비 자체가 Reload되는 Bug 입니다.
일시적인 해결 방법으로는 장비를 재기동하는 것으로 일시적으로 해소되지만,
근본적인 원인 해결은 Memory Leak 문제가 해결된 2.1(2g) 이상으로 OS Upgrade가 필요로 합니다.
현재 메모리 상태를 확인하기 위해서는 다음과 같이 확인이 가능합니다.
ZIGI_leaf1#ps aux| grep stats_manager| grep-v grep |
빨간색으로 표기되는 값이 VSZ(Virtual memory SiZe)이고, 파란색으로 표기된 값이 RSS(Resident Set Size)입니다.
VSZ는 프로세스의 가상 메모리의 크기를 나타내면, RSS를 프로세스가 사용하는 물리 메모리 크기를 나타내게 되는 데,
프로세스에서 메모리가 정상적으로 반환되지 않고 Memory Leak이 발생하는 경우에는 VSZ 값이 증가하게 됩니다.
이 값이 4,194,304에 도달하기 전에 장비가 재기동 되기 때문에 해당 메모리 사이즈 근처로 가기 전에 조치를 취해야 합니다.
실제 GUI의 Inventory에서 확인 가능한 stats_manager의 값은 RSS에 대한 값이기 때문에 정확한 값을 확인하기 위해서는
CLI에서 확인해야 합니다.
그리고, stats_manager의 해당 값으로 가지 않더라도 stats_manager 프로세스에서의 Memory Leak으로 인해서 전체 메모리
사용량이 올라가면서 메모리가 소진되면, Kernel Panic이 발생할 수도 있습니다.
전체 메모리 사용량은 다음과 같이 확인이 가능합니다.
ZIGI_leaf1#show system resources |
참고로 만약에 이 Bug로 장비가 재기동된 경우에 장비의 reset-reason을 확인하면 다음과 같이 나오게 됩니다.
ZIGI_leaf1#show system reset-reason |