'버그'에 해당되는 글 3건

  1. 2018.02.23 [Bug Report] ACI : APIC Stuck 등
  2. 2018.02.09 [Bug Report] ACI : Memory Leak
  3. 2015.01.26 Nexus 7000 6.2(8) Bug Issue 공유

이번 포스팅은 ACI Bug Report 관련 내용입니다.

 

지난 포스팅(http://zigispace.net/957) 에 이어서, ACI OS Upgrade 중에 발생할 수 있는 Bug Report(CSCvb94260)입니다.

2.1미만의 버전에서 발생할 수 있다고 하기 때문에 2.1이상의 버전에서 더 상위 버전으로의 Upgrade에는 발생하지 않을 수 있습니다.

 

이 버그에 대한 증상은

 1. APIC 업그레이드 중에 먼저 진행된 APIC은 정상적으로 Upgrade가 완료되었으나, 이후에 업그레이드 되는 APIC의 상태가 75%에서 멈춰있게 됩니다.  이 경우 75%에서 멈춰있는 APIC에서 확인 할 때, 정상적으로 완료된 APIC의 정보가 기존 버전으로 표기

 

 2. 모든 APIC이 정상적으로 업그레이드가 되고, fully fit 상태까지 되었으나 각 장비에서 acidiag로 확인 시에는 local APIC에 대한 버전만 최신 버전이고 다른 APIC은 기존 버전으로 표기

 

상태를 확인해보면, APIC 2번기가 정상적으로 Upgrade된 상태에서 APIC 3번기가 Stuck이 걸려있을 때,

APIC 2번에서는 2번기 상태를 보면 정상적으로 Upgrade가 되어 있고

APIC 3번기에서 2번기를 상태를 보면, 기존 OS이고 time stamp도 정상적으로 업그레이드 된 시간보다 더 이후 시간으로 체크되어 있음.

 

apic2# acidiag avread | egrep "id=2.*version" | cut -d ' ' -f 7-10,20-21
appliance id=2 version=2.2(2k) lm(t):2(2017-07-25T11:24:01.244+10:00)

apic3# acidiag avread | egrep "id=2.*version" | cut -d ' ' -f 7-10,20-21
appliance id=2 version=2.0(2f) lm(t):2(2017-07-25T11:40:02.248+10:00)

 

2.1 이상에서는 해당 버그가 없기 때문에 2.1 미만의 버전에서만 발생합니다.

 

해당 버그가 발현될 경우에는

위의 예의 APIC 3에서 APIC 2의 정보를 정상적으로 가져오지 못한 상태가 되는 데,

APIC 2에서 "acidiag restart mgmt"를 통해서 APIC에 서비스를 재기동하면

APIC 3에서 APIC 2에 대한 정보가 업데이트 되면서, 정상적으로 Upgrade를 진행 할 수 있습니다.

 

 

 

Posted by 네떡지기

이번 포스팅은 Cisco ACI의 Bug Report (CSCvb42851)에 대한 공유입니다.

 

 

ACI 모드의 Spine과 Leaf의 특정 Process(stats_manager)에서의 Memory Leak에 대한 Bug 입니다 .

Memory Leak으로 인한 장비 자체가 Reload되는 Bug 입니다.

 

일시적인 해결 방법으로는 장비를 재기동하는 것으로 일시적으로 해소되지만,

근본적인 원인 해결은 Memory Leak 문제가 해결된 2.1(2g) 이상으로 OS Upgrade가 필요로 합니다.

 

현재 메모리 상태를 확인하기 위해서는 다음과 같이 확인이 가능합니다.

 

ZIGI_leaf1#ps aux| grep stats_manager| grep-v grep
root 8869 2.3 1.6 1884628 263536?Ss 2017 844:25/isan/bin/stats_manager

 

빨간색으로 표기되는 값이 VSZ(Virtual memory SiZe)이고, 파란색으로 표기된 값이 RSS(Resident Set Size)입니다.

VSZ는 프로세스의 가상 메모리의 크기를 나타내면, RSS를 프로세스가 사용하는 물리 메모리 크기를 나타내게 되는 데,

프로세스에서 메모리가 정상적으로 반환되지 않고 Memory Leak이 발생하는 경우에는 VSZ 값이 증가하게 됩니다.

이 값이 4,194,304에 도달하기 전에 장비가 재기동 되기 때문에 해당 메모리 사이즈 근처로 가기 전에 조치를 취해야 합니다.

 

실제 GUI의 Inventory에서 확인 가능한 stats_manager의 값은 RSS에 대한 값이기 때문에 정확한 값을 확인하기 위해서는

CLI에서 확인해야 합니다.

 

그리고, stats_manager의 해당 값으로 가지 않더라도 stats_manager 프로세스에서의 Memory Leak으로 인해서 전체 메모리

사용량이 올라가면서 메모리가 소진되면, Kernel Panic이 발생할 수도 있습니다.

전체 메모리 사용량은 다음과 같이 확인이 가능합니다.

 

ZIGI_leaf1#show system resources
Load average:1 minute:1.34 5 minutes:1.46 15 minutes:1.51
Processes:608 total, 1 running
CPU states:6.9%user, 3.0%kernel, 90.1%idle
Memory usage:24500980K total, 12353268K used, 12147712K free
Current memory status:OK

 

참고로 만약에 이 Bug로 장비가 재기동된 경우에 장비의 reset-reason을 확인하면 다음과 같이 나오게 됩니다.

ZIGI_leaf1#show system reset-reason
***************module reset reason(1)***********
0)At 2018-02-24T 13:00:00.312+09:00
Reason:reset-triggered-due-to-ha-policy-of-reset
Service:stats_manager hap reset
Version:12.0(2h)

 

Posted by 네떡지기
분류없음2015.01.26 18:39

Nexus 7000 6.2(8) Bug Issue 공유 

 

Nexus 7000 운영 중, 서버쪽에서 Polling Target IP를 중간 중간 놓치는 지속적으로 놓치는 이슈가 있었습니다.

확인해보니, Nexus 7000에서의 Mac-Address Table이 지속적으로 갱신되고 있었습니다.

Mac-Address  Table이 계속 갱신되면서, Mac-Address의 수량도 계속 오르락 내리락을 반복하였습니다.

 

이런 저런 내용들을 확인해보다 보니, 아래와 같이 TCN이 지속적으로 발생하여 Mac-Address Table이 갱신됨을 확인하였습니다.

 

Nexus# sh spanning-tree detail | inc exec|from|occur

VLAN0100 is executing the rstp compatible Spanning Tree protocol
  Number of topology changes 77117 last change occurred 0:00:01 ago
          from port-channel1
 VLAN0101 is executing the rstp compatible Spanning Tree protocol
  Number of topology changes 77203 last change occurred 0:00:01 ago
          from port-channel1
 VLAN0102 is executing the rstp compatible Spanning Tree protocol
  Number of topology changes 12746 last change occurred 0:00:00 ago
          from port-channel1
 VLAN0103 is executing the rstp compatible Spanning Tree protocol
  Number of topology changes 63911 last change occurred 0:00:01 ago
          from port-channel1

 

계속해서 TCN에 의해 지속적으로 Mac-Address Table이 갱신됩니다.

 

결론만 얘기하자면, Nexus 7000시리즈 6.2(8)에서의 OS Bug Issue였습니다.


Bug에 대한 정보는 아래와 같습니다.


DDTS No(s): 

CSCuo80937
Headline: Nexus 7000 Stuck Sending TCNs Every 35 Seconds

 

Maintenance DDTS [These are defects that did not cause this advisory, however fixes are included in the solution]:


100일 이상 Uptime 시에 해당 이슈가 발생 가능한 OS Bug로, 2014년 6월에 확인되었다고 합니다.

해당 버그는 6.2(8)a 버전에서 해결되었다고 합니다. 


동일 버전을 사용하시는 분들은 참고하시면 될 것 같습니다. 

 

 

Posted by 네떡지기

티스토리 툴바