シスコサポートコミュニティ ライブ expert webcast - cisco...ucs...
TRANSCRIPT
-
Cisco Public© 2012 Cisco and/or its affiliates. All rights reserved. 1
シスコサポートコミュニティライブExpert Webcast
Cisco Unified Computing System (UCS) よくある事例とトラブルシューティング
吉田 早希子テクニカルサポート部門カスタマーサポートエンジニア
2012年3月27日
-
© 2012 Cisco and/or its affiliates. All rights reserved. Cisco Public 2
• Cisco Unified Computing System(UCS) についてのご質問をお待ちしています!
吉田早希子(ヨシダサキコ)
保有資格: Cisco Data Center Unified Computing Support Specialist, RHCE,VCP,VCAP,MCITP
シスコプロダクトサポート歴2年
2
-
© 2012 Cisco and/or its affiliates. All rights reserved. Cisco Public 3
• UCSトラブルシューティング はじめに
•UCSは どこからネットワークで、どこまでサーバー?
•なぜshow tech-support必要なのか?
• よくある事例・トラブルシューティング方法初動調査・情報収集
•メモリ障害
•ハードディスク障害
•温度異常
•電源障害
•リンク障害(VIF/CNA)
• Q&A
-
© 2012 Cisco and/or its affiliates. All rights reserved. Cisco Public 4
UCSはどこからがネットワーク、どこまでがサーバー?
-
© 2012 Cisco and/or its affiliates. All rights reserved. Cisco Public 5
メモリ、ハードディスク、RAID コントローラ
CPU, CIMC(BMC), CNA
FAN , Power supply ,
IO Module , SEEPROM,
temperature ,
Fabric Interconnect
FAN , Power supply ,
Expansion module,
ケーブル類 UCS Manager
赤文字:UCSネットワークに関連するコンポーネント
-
© 2012 Cisco and/or its affiliates. All rights reserved. Cisco Public 6
なぜshow tech supportが必要か
-
© 2012 Cisco and/or its affiliates. All rights reserved. Cisco Public 7
• UCSでのトラブルシューティングには必須の情報です。BシリーズUCS、UCS Manager管理化のCシリーズUCSUCS Managerのshow tech support log取得方法: https://supportforums.cisco.com/docs/DOC-16843
スタンドアローン構成CシリーズUCSCIMCのtechnical support file取得方法: GUI(tftp) https://supportforums.cisco.com/docs/DOC-13346
GUI(local) https://supportforums.cisco.com/docs/DOC-23415 ※ ver.1.4(3c)~CUI https://supportforums.cisco.com/docs/DOC-13319
• なぜ、show tech-supportが有用なのか。UCSを構成するコンポーネントのログを一度で収集できる。
UCSに実装された個々のコマンドでは収集できない、Low levelのログを“一度に”収集することができる
• Show tech-supportは事象発生後、できるだけ早く取る!UCS Managerや各コンポーネントで保持できるログ量に上限があり、細かい情報を持つものはかなりの頻度で 過去のものが上書きされてしまいます。そのため、実際に必要な時刻のログが調査時に残っていない事があります。
https://supportforums.cisco.com/docs/DOC-22075https://supportforums.cisco.com/docs/DOC-16843https://supportforums.cisco.com/docs/DOC-16843https://supportforums.cisco.com/docs/DOC-16843https://supportforums.cisco.com/docs/DOC-13346https://supportforums.cisco.com/docs/DOC-13346https://supportforums.cisco.com/docs/DOC-13346https://supportforums.cisco.com/docs/DOC-13346https://supportforums.cisco.com/docs/DOC-23415https://supportforums.cisco.com/docs/DOC-23415https://supportforums.cisco.com/docs/DOC-23415https://supportforums.cisco.com/docs/DOC-13319https://supportforums.cisco.com/docs/DOC-13319https://supportforums.cisco.com/docs/DOC-13319
-
© 2012 Cisco and/or its affiliates. All rights reserved. Cisco Public 8
• UCSM
UCSM_X_TechSupport : Fabric Interconnect X側のTechnical Support file
¥ UCSM_A_TechSupport¥sam_techsupportinfo : active FIから取得できる、UCSM関連の各種ログ・構成を含む、状況を把握するにあたり 最初に見るべきファイル
¥ UCSM_A_TechSupport¥ sw_techsupportinfo : FIのSwitch機能関連のログ(A,B別)
¥UCSM_B_TechSupport¥var¥sysmgr¥sam_logs¥: UCSM内部プロセスごとのログ
• Chassis
CIMCX_TechSupport.tar.gz : ServerXの CIMC Technical Support fileを含む
¥tmp¥CIMCX_TechSupport.txt : 複数のログファイルから抽出された内容
¥obfl¥ : Onboard Failure Logging機能で収集されたログ
IOCardY_TechSupport.tar.gz : IOM 1,2のTechnical Support fileを含む
¥techsupport_detailed_iocardY¥cmc¥ : Chassis Management Controller関連のログ
¥techsupport_detailed_iocardY¥nxos¥ : Forwarding ASIC関連のログ
MEZZXZ_TechSupport.tar.gz : ServerXのMezzanine ZのTechnical Support file
¥MEZZXZ_TechSupport¥obfl.tar.gz : Onboard Failure Logging機能で収集されたログ
-
© 2012 Cisco and/or its affiliates. All rights reserved. Cisco Public 9
メモリ
-
© 2012 Cisco and/or its affiliates. All rights reserved. Cisco Public 10
• 初動調査サーバーの稼動状態を確認(稼働中・PSOD/BSOD発生…)
OS上メモリサイズの認識を確認
UCS Manager GUI上ステータスの確認
•Server > Inventory > Memory > 各メモリ をダブルクリックし表示Generalタブ : Operability , PresenceEventsタブ : メモリごとのイベントStatisticsタブ : Errorsタブ:各時間内ごとでのエラーカウント
•Server > Statistics > Errors ツリー内、Motherboard > Mem Array > Memory X > error-stats (error count)
• 情報収集Show tech-support ucsm/chassis
各OS上メモリサイズ確認コマンド
-
© 2012 Cisco and/or its affiliates. All rights reserved. Cisco Public 11
• トラブルシューティング手順
① 初動調査を実施 OSは全てのメモリを認識出来ているか (OS依存のコマンド・GUI)
どのメモリにエラーが検知されているか(Faultsログ)
エラーはSingle bit errorなのか Multi bit errorなのか(Statistics、Faults)
エラーの発生頻度は増加傾向なのか(Statistics)
② Show tech-support ucsm/chassisを取得する
③ Bug Search Tool(β版)にて関連する不具合がないか確認するソフトウェアアップデートで改善する不具合であれば、アップデートを実施※ご契約形態によっては、ご覧いただけない場合がございます。その場合には、購入元へお問い合わせください。
④ 切り分けを実施する Disassociation/decomission -> reacknowledge/associationで同じエラーが発生するか
Slotを変更し、Slot依存でないかの確認
http://www.cisco.com/cisco/psn/bssprt/bss
-
© 2012 Cisco and/or its affiliates. All rights reserved. Cisco Public 12
Memory controller(Support CPU)の異なるSlotへ変更し、Memory controller依存でないかの確認
Server Installation and Service Guidememory configuration
B200 http://www.cisco.com/en/US/docs/unified_computing/ucs/hw/chassis/install/blade.html#wp1039261B230 http://www.cisco.com/en/US/docs/unified_computing/ucs/hw/chassis/install/B230.html#wp1036583B250 http://www.cisco.com/en/US/docs/unified_computing/ucs/hw/chassis/install/fullblade.html#wp43139B440 http://www.cisco.com/en/US/docs/unified_computing/ucs/hw/chassis/install/quadblade.html#wp1058622C200 http://www.cisco.com/en/US/docs/unified_computing/ucs/c/hw/C200M1/install/replace.html#wp1053467C210 http://www.cisco.com/en/US/docs/unified_computing/ucs/c/hw/C210M1/install/replace.html#wp1073477C240 http://www.cisco.com/en/US/docs/unified_computing/ucs/c/hw/C240/install/replace.html#wp1229713C250 http://www.cisco.com/en/US/docs/unified_computing/ucs/c/hw/C250M1/install/replace.html#wp1073477C260 http://www.cisco.com/en/US/docs/unified_computing/ucs/c/hw/C260/install/replace.html#wp1233864C220 http://www.cisco.com/en/US/docs/unified_computing/ucs/c/hw/C220/install/replace.html#wp1229713C460 http://www.cisco.com/en/US/docs/unified_computing/ucs/c/hw/C460/install/replace.html#wp1160785
切り分けを実施した場合、show tech-supportを再度取得
⑤ ハードウェア障害である可能性が高いと判断されましたら、①④の情報と②④で取得したログを添えて、TACへご連絡ください。
http://www.cisco.com/en/US/docs/unified_computing/ucs/hw/chassis/install/blade.htmlhttp://www.cisco.com/en/US/docs/unified_computing/ucs/hw/chassis/install/B230.htmlhttp://www.cisco.com/en/US/docs/unified_computing/ucs/hw/chassis/install/fullblade.htmlhttp://www.cisco.com/en/US/docs/unified_computing/ucs/hw/chassis/install/quadblade.htmlhttp://www.cisco.com/en/US/docs/unified_computing/ucs/c/hw/C200M1/install/replace.htmlhttp://www.cisco.com/en/US/docs/unified_computing/ucs/c/hw/C210M1/install/replace.htmlhttp://www.cisco.com/en/US/docs/unified_computing/ucs/c/hw/C240/install/replace.htmlhttp://www.cisco.com/en/US/docs/unified_computing/ucs/c/hw/C250M1/install/replace.htmlhttp://www.cisco.com/en/US/docs/unified_computing/ucs/c/hw/C260/install/replace.htmlhttp://www.cisco.com/en/US/docs/unified_computing/ucs/c/hw/C220/install/replace.htmlhttp://www.cisco.com/en/US/docs/unified_computing/ucs/c/hw/C460/install/replace.html
-
© 2012 Cisco and/or its affiliates. All rights reserved. Cisco Public 13
• Field Notice: 63387 - UCS B-Series and C-Series Servers Log Memory Errors due to Intel 5600 Erratum IssueIntel ProcessorのErrataにより、C3/C6 power stateがenableの場合、uncorrectable ECCerrorが検知されることがあるが、メモリ自身が原因ではありません。ver.1.4(1i)~からC3/C6 power stateはDefaultでDisableです。
• Field Notice: 63472 - UCS B250 M2 Voltage Regulator Setting Causes Non-Recoverable Memory Errors - Firmware Upgrade RequiredB250において、voltage regulator settingにより uncorrectable ECC errorが検知されることがある。2.0(1w),1.4(3u),1.3(1y)で改善。
• CSCtq08997 B250 DIMM Failures Uncorrectable ECC errorsB250において、power saving mode/c6 power stateがEnableの場合に、uncorrectable ECC rrorが検知されることがある。1.4(3i)で改善。
• CSCto54541 Faulty Dimm does not generate fault in UCSM1.4(1j)において、UCSM上ではFaultが検知されていないにもかかわらずDIMM不良を示すLEDが点灯する。1.4(2b)で改善。
http://www.cisco.com/en/US/ts/fn/633/fn63387.htmlhttp://www.cisco.com/en/US/ts/fn/633/fn63387.htmlhttp://www.cisco.com/en/US/ts/fn/633/fn63387.htmlhttp://www.cisco.com/en/US/ts/fn/633/fn63387.htmlhttp://www.cisco.com/en/US/ts/fn/633/fn63387.htmlhttp://www.cisco.com/en/US/ts/fn/633/fn63387.htmlhttp://www.cisco.com/en/US/ts/fn/633/fn63387.htmlhttp://www.cisco.com/en/US/ts/fn/633/fn63387.htmlhttp://www.cisco.com/en/US/ts/fn/633/fn63387.htmlhttp://www.cisco.com/en/US/ts/fn/633/fn63387.htmlhttp://www.cisco.com/en/US/ts/fn/633/fn63387.htmlhttp://www.cisco.com/en/US/ts/fn/634/fn63472.htmlhttp://www.cisco.com/en/US/ts/fn/634/fn63472.htmlhttp://www.cisco.com/en/US/ts/fn/634/fn63472.htmlhttp://www.cisco.com/en/US/ts/fn/634/fn63472.htmlhttp://www.cisco.com/en/US/ts/fn/634/fn63472.htmlhttp://www.cisco.com/en/US/ts/fn/634/fn63472.htmlhttp://www.cisco.com/en/US/ts/fn/634/fn63472.htmlhttp://www.cisco.com/en/US/ts/fn/634/fn63472.htmlhttp://www.cisco.com/en/US/ts/fn/634/fn63472.htmlhttp://www.cisco.com/en/US/ts/fn/634/fn63472.htmlhttp://www.cisco.com/en/US/ts/fn/634/fn63472.htmlhttp://www.cisco.com/en/US/ts/fn/634/fn63472.htmlhttp://www.cisco.com/en/US/ts/fn/634/fn63472.htmlhttp://www.cisco.com/en/US/ts/fn/634/fn63472.htmlhttp://www.cisco.com/en/US/ts/fn/634/fn63472.htmlhttp://www.cisco.com/en/US/ts/fn/634/fn63472.htmlhttp://tools.cisco.com/Support/BugToolKit/search/getBugDetails.do?method=fetchBugDetails&bugId=CSCtq08997http://tools.cisco.com/Support/BugToolKit/search/getBugDetails.do?method=fetchBugDetails&bugId=CSCto54541
-
© 2012 Cisco and/or its affiliates. All rights reserved. Cisco Public 14
• CSCtu16549 Disabled DIMMs should not be equipped identity unestablishable in UCSMPOST中にDIMMが無効化された際等に、そのDIMMがUCSM上で“Equipped Identity Unestablishable”として表示される。
• CSCtr13077 Remove 1067 MHz memory speed limit B250において、Bus speedが1067MHzに制限されていたが、その解除1.4(3q),2.0(1m)で改善。
• CSCtl53748 UCSM “Reset Memory Errors” should clear error counters “Reset Memory Errors”ボタンで、累積したエラーカウンタがクリアされないため、
過去の値が残ってしまう。1.4(1m),2.0(1m)で改善。
• CSCtn18663 Various DIMM related issues are also reported as “Uncorrectable Error” メモリ初期化とエラーログレポーティング機能との間のやり取りの問題によりuncorrectable ECC errorと報告される。2.0(1m)で改善。
http://tools.cisco.com/Support/BugToolKit/search/getBugDetails.do?method=fetchBugDetails&bugId=CSCtu16549http://tools.cisco.com/Support/BugToolKit/search/getBugDetails.do?method=fetchBugDetails&bugId=CSCtr13077http://tools.cisco.com/Support/BugToolKit/search/getBugDetails.do?method=fetchBugDetails&bugId=CSCtl53748http://tools.cisco.com/Support/BugToolKit/search/getBugDetails.do?method=fetchBugDetails&bugId=CSCtn18663
-
© 2012 Cisco and/or its affiliates. All rights reserved. Cisco Public 15
ハードディスク
-
© 2012 Cisco and/or its affiliates. All rights reserved. Cisco Public 16
• Version 2.0(1)より、B200/B250において DiskステータスがUCSMで確認できるようになりました。(B/C他機種は未対応)
• この機能を使用するためには、BIOS,CIMCだけではなく、LSI Controllerも対応version 2.0(1) releaseである必要があります。
Operability•Operable
•Inoperable
•N/A
Presence•Missing
•Equipped
電源OFF時はOperability:N/A
Presense:Equipped
-
© 2012 Cisco and/or its affiliates. All rights reserved. Cisco Public 17
• 初動調査OSの稼働状態を確認
LED確認
SELの確認
B200/250: BMC | Drive slot(Bay) SASx_FAULT #0x21 | Predictive Failure asserted | Asserted
C-series : BMC | Drive slot(Bay) HDD_x_STATUS #0xbe | Critical | Drive Fault | Asserted
B200/250の場合は、Disk Status、Faultsイベント確認GUIでは、Inventory>Storage Disks項目states欄CLIでは、/chassis/server/raid-controller # show local-diskLocal Disk:
ID: 1Block Size: 512Blocks: 143374744Size (MB): 70007Operability: OperablePresence: Equipped
LSI製RAID utilityをインストールされている場合、そのステータス確認※WebBIOS等Offline Utilityを使用する際にはシステムを停止する必要があります。
• 情報収集show tech-support ucsm/chassis
-
© 2012 Cisco and/or its affiliates. All rights reserved. Cisco Public 18
• トラブルシューティング手順
① 初動調査を実施 実影響が出ていないか
イベント、LED等でFault状態が出ていないか
事象発生箇所は、どこで 1箇所か,複数箇所か
Hot spare設定がある場合、Rebuild中か
② AssociateしているService ProfileからRAID構成を確認 発生している事象(例:1disk故障)が実稼働に影響が出ないか判定
③ Show tech-support ucsm/chassisを収集する
④ Bug search tool (β版)で既知不具合がないか検索ソフトウェアアップデートで改善する不具合があれば、アップデートを実施※ご契約形態によっては、ご覧いただけない場合がございます。その場合には、購入元へお問い合わせください。
⑤ 切り分けを実施 (optional) ※RAIDが構成されていない場合、抜き差し、Slot変更実施
⑥ ①②⑤の情報と③で取得したログを添えて、TACへご連絡ください。
https://www.cisco.com/cisco/psn/bssprt/bss
-
© 2012 Cisco and/or its affiliates. All rights reserved. Cisco Public 19
• CSCsy80888 After removal-insertion of the Local Disk, its full discovery failsディスクの交換をオンラインで実施すると、UCS Manager Inventory上ディスクの情報サイズやブロック数等がunknown/非表示となる。ディスクとしての動作に影響はない。ハードウェアとCIMCの制限によるもので、今後も修正されない。情報の再取得のためには、LSI2064EがCIMCに情報を渡す事ができる、Re-acknowledgeの実施を必要とする。
• Field Notice: 63442 - LSI RAID Controller Chip Potential Premature Failure -Hardware Replacement RequiredServer搭載されているLSI 1064e RAID controllerのうち一時期に出荷されたものに潜在的な問題を持ったものがあります。対処品であるかは、Field noticeページを参照いただき、ご確認ください。同ページより交換部品の手配が可能です。
• CSCtw65198 The SSD Fault LED and the „Operability‟ status mismatch故障SSDにはFault LEDが点灯するが、OperabilityがOperableとして報告される。次期メジャーリリースの2.0(2) releaseで修正予定。
• CSCts37240 LSI card 9261-8i returns error message for battery backup unit status実際にはBBUが存在しないにもかかわらず、CIMC > Inventory > Storage > Battery Backup Unitを参照すると、Error: required HW is missing ( i.e Alarm or BBU ) が出力される。現状、不具合として報告があるが、修正は完了していない。
http://tools.cisco.com/Support/BugToolKit/search/getBugDetails.do?method=fetchBugDetails&bugId=CSCsy80888http://www.cisco.com/en/US/ts/fn/634/fn63442.htmlhttp://www.cisco.com/en/US/ts/fn/634/fn63442.htmlhttp://www.cisco.com/en/US/ts/fn/634/fn63442.htmlhttp://www.cisco.com/en/US/ts/fn/634/fn63442.htmlhttp://www.cisco.com/en/US/ts/fn/634/fn63442.htmlhttp://www.cisco.com/en/US/ts/fn/634/fn63442.htmlhttp://www.cisco.com/en/US/ts/fn/634/fn63442.htmlhttp://tools.cisco.com/Support/BugToolKit/search/getBugDetails.do?method=fetchBugDetails&bugId=CSCts37240
-
© 2012 Cisco and/or its affiliates. All rights reserved. Cisco Public 20
温度異常
-
© 2012 Cisco and/or its affiliates. All rights reserved. Cisco Public 21
• 初動調査どの箇所で検知されたエラーであるかの把握(Server? Chassis? Fabric interconnect ?)
設置場所室内の温度確認
遮蔽物により、エアフローが遮られていないか
エアフローに問題はないか(他機器の排気を吸う配置でないか)
設置場所周辺機器での検知温度確認(物理的位置が近いUCS内機器や他機器)
UCS Manager:現在の検知温度の確認①Equipment > Thermal
ツリー内、該当箇所はOK?Critical?②Equipment > Chassis > Chassis X > Temperature
ツリー内、該当箇所の検知温度値は?
UCS Manager:Faults、Events
• 情報収集Show tech-support ucsm/chassis
-
© 2012 Cisco and/or its affiliates. All rights reserved. Cisco Public 22
• トラブルシューティング手順
① 初動調査を実施する 設置環境が要因で発生していないか
発生直前に設置環境周辺で物理的な変更は行われていないか
エアフローに問題はないか
特定の箇所だけであるか
今は改善しているか、今も問題が継続しているか
② show tech-support ucsm/chassisを取得
③ Bug search tool (β版)で既知不具合がないか検索ソフトウェアアップデートで改善する不具合であれば、アップデートを実施
※ご契約形態によっては、ご覧いただけない場合がございます。その場合には、購入元へお問い合わせください。
④ 改善策を実施、状況の改善を評価(エアフローの改善、遮蔽物の撤去 等)
⑤ ①④の情報、②で取得したログを添えて、TACへご連絡ください。
https://www.cisco.com/cisco/psn/bssprt/bss
-
© 2012 Cisco and/or its affiliates. All rights reserved. Cisco Public 23
• CSCti08803 Equipment Fan Module Thermal Threshold Critical (Lower Critical) “Lower Critical”レベルの温度異常を検知することがある。1.3(1o),1.4(3m),2.0(1m)で改善。
• CSCtq10987 IOM I2C driver, noisy PSU bus spoils next non-PSU IO operation電源がI2Cバス上の通信へ影響を与え、各コンポーネントのセンサー値が読み取れないために、様々なイベントが検知される。温度異常もそのひとつ。1.4(3i),2.0(1m)で改善。
• CSCtg90611 IOM shows temperature faults even though the temperatures are in limit 温度異常が改善しても、IO Moduleが温度異常を報告し続ける。1.3(1o)で改善
• CSCtg88258 IOM Thermal Fault IOM_TEMP_INLET1IO Moduleでthermal-problemを記録する。1.4(1i) 1.3(1o) で改善。
http://tools.cisco.com/Support/BugToolKit/search/getBugDetails.do?method=fetchBugDetails&bugId=CSCti08803http://tools.cisco.com/Support/BugToolKit/search/getBugDetails.do?method=fetchBugDetails&bugId=CSCtq10987http://tools.cisco.com/Support/BugToolKit/search/getBugDetails.do?method=fetchBugDetails&bugId=CSCtg90611http://tools.cisco.com/Support/BugToolKit/search/getBugDetails.do?method=fetchBugDetails&bugId=CSCtg90611http://tools.cisco.com/Support/BugToolKit/search/getBugDetails.do?method=fetchBugDetails&bugId=CSCtg88258
-
© 2012 Cisco and/or its affiliates. All rights reserved. Cisco Public 24
電源関連
-
© 2012 Cisco and/or its affiliates. All rights reserved. Cisco Public 25
• 初動調査どの電源に異常が発生しているか確認
電源ケーブルが抜けている、電源供給側に問題がないか確認
UCS Manager:
① Chassis:- Equipment > Chassis > Chassis X > PSUsタブ:各PSUのステータス- Equipment > Chassis > Chassis X > PSUs > Psu X > Generalタブ:ステータス- Equipment > Chassis > Chassis X > PSUs > Psu X > Statisticsタブ > Statisticsタブ:各値
Fabric Interconnect:- Equipment > Fabric interconnects > Fabric Interconnect X > PSUsタブ:ステータス- Equipment > Fabric interconnects > Fabric Interconnect X > PSUs :ステータス- Equipment > Fabric interconnects > Fabric Interconnect X > PSUs > Psu X
Statisticsタブ > Statisticsタブ:各値
② Faults、Events
③ Chassis:Power policy (Non Redundancy / N+1 / Grid)設定
情報収集Show tech-support ucsm/chassis
-
© 2012 Cisco and/or its affiliates. All rights reserved. Cisco Public 26
• トラブルシューティング手順
① 初動調査を実施 どのPSUでどのような事象が発生しているか
今は改善しているか、今も継続して発生しているか
電源供給側が要因で発生していないか切り分け
② Show tech-support ucsm/chassisを取得
③ Bug search tool (β版)で既知不具合がないか検索ソフトウェアアップデートで改善する不具合であれば、アップデートを実施
※ご契約形態によっては、ご覧いただけない場合がございます。その場合には、購入元へお問い合わせください。
④ 切り分けを実施する 電源ケーブルのSwapでCable要因を確認
電源SlotのSwapでSlot依存かの確認
電源供給側を変更し、供給側依存ではないかの確認
⑤ ①④の情報、②で取得したログを添えて、TACへご連絡ください。
https://www.cisco.com/cisco/psn/bssprt/bss
-
© 2012 Cisco and/or its affiliates. All rights reserved. Cisco Public 27
• CSCtw99094 DC Power Chassis showed Voltage ProblemDC電源の場合、UCS Managerでoverall statusが”voltage problem”となる。2.0(2)にて改善予定。
• CSCtr29621 [F0408][major]: Power state on chassis 1 is redundancy-failed PSUが故障していなくても、上記Fault Codeのイベントが不定期に検知される。1.4(3m)で改善。
• CSCtl92106 The overall status shows power-problem after upgrade to 1.4iPSUに問題のない状態で1.4(1i)へUpgradeすると、overall statusがpower-problemとなる。ポリシーの変更によるもの。2.0(1m) 1.4(2b)で改善。
• CSCto48803 CMC Work-around to detect latent PSU failures IO Module上プロセスが電源故障を検知しない場合がある。1.4(3i),2.0(1m)で改善。
http://tools.cisco.com/Support/BugToolKit/search/getBugDetails.do?method=fetchBugDetails&bugId=CSCtw99094http://tools.cisco.com/Support/BugToolKit/search/getBugDetails.do?method=fetchBugDetails&bugId=CSCtr29621http://tools.cisco.com/Support/BugToolKit/search/getBugDetails.do?method=fetchBugDetails&bugId=CSCtl92106http://tools.cisco.com/Support/BugToolKit/search/getBugDetails.do?method=fetchBugDetails&bugId=CSCtl92106http://tools.cisco.com/Support/BugToolKit/search/getBugDetails.do?method=fetchBugDetails&bugId=CSCto48803
-
© 2012 Cisco and/or its affiliates. All rights reserved. Cisco Public 28
リンク障害(VIF/CNA)
-
© 2012 Cisco and/or its affiliates. All rights reserved. Cisco Public 29
• 初動調査どの箇所で発生しているか
一時的なものか、継続して発生しているか
Blade上OS側のInterfaceステータスの状態
OS側に影響が出ているかどうか
UCS Manager GUI:現在どのような状況か
upstream switch-Fabric interconnect間Equipment > Fabric Interconnect > Fabric Interconnectタブ:overall / admin stateEquipment > Fabric Interconnect > Fabric Interconnect X > Statisticsタブ > Statisticsタブ:カウンタ値
Equipment > Fabric Interconnect > Fabric Interconnect X > 各Module > 各ports:overall state,カウンタ値
IO Module – Server間Equipment > Chassis > Chassis X > IO Modules > Backplane Ports
Equipment > Chassis > Chassis X > IO Modules > Backplane Ports > 各ポート
Server側 (vNIC/vHBA)Servers タブ AssociationされたService Profile > VIF Paths : VIFと物理ポートの関連、StateServers タブ AssociationされたService Profile配下のvNIC,vHBA
右画面 Statistics タブ> Statisticsタブ: カウンタ値
-
© 2012 Cisco and/or its affiliates. All rights reserved. Cisco Public 30
Fabric interconnect – IO Module間IO Module側Equipment > Chassis > Chassis X > IO Modules
Equipment > Chassis > Chassis X > IO Modules > Front Ports Equipment > Chassis > Chassis X > IO Modules > Front Ports > 各ポート
Fabric Interconnect側Equipment > Fabric Interconnect > Fabric Interconnectタブ:overall / admin stateEquipment > Fabric Interconnect > Fabric Interconnect X > Server Ports : overall / admin stateEquipment > Fabric Interconnect > Fabric Interconnect X > Server Ports > 各 port
Generalタブ:overall / admin stateStatisticsタブ > Statisticsタブ:カウンタ値
Faults, Events
• 情報収集show tech-support ucsm/chassis
upstream switch間とのリンク障害の場合には、upstream switch側のshow tech-support等
-
© 2012 Cisco and/or its affiliates. All rights reserved. Cisco Public 31
• トラブルシューティング手順
① 初動調査を実施 どこで問題が発生しているか、影響範囲はどこか
今は改善しているか、今も継続して発生しているか
リンク障害の原因は両端のどちら側から発生しているか
② show tech-support ucsm/chassisを取得upstream switchとの間のリンクの場合は、そのshow tech-supportも取得
③ ②で取得したログから事象内容を確認・把握する
全体:UCSMのshow tech-support¥ UCSM__TechSupport ¥ sam_techsupportinfoUCS Manager GUIで表示可能な内容のサマリが含まれる
Fabric interconnect:UCSM show tech-support¥ UCSM__TechSupport ¥ sw_techsupportinfo : Fabric Interconnect自身が保持しているログ+IOM(FEX)のログの一部。現在のリンク状況だけでなく、過去のリンクイベントの記録が含まれる。
-
© 2012 Cisco and/or its affiliates. All rights reserved. Cisco Public 32
IO Module: Chassisのshow tech-support¥techsupport_detailed_iocard1¥nxos¥show-tech-support-iom-nxos.outIOMのforwarding関連tech-support ログ、各Processのログを含む
・0起点のため、UCSM上の数字と1つずれます
・HIF: host interface (server側ポート)・NIF: network interface (Fabric Interconnect側ポート)
Chassisのshow tech-support ¥techsupport_detailed_iocard1¥nxos¥show_debug_satctrlIOM上で稼働するsatctrl(satellite controller)のログ、FI(satmgr)と通信する。
Mezzanine(CNA):Chassisのshow tech-support¥MEZZxy_TechSupport (x:server slot# , y:CNA slot#)
¥debugdump:各サーバ上のMezzanine card(CNA)のtech-supportログ¥obfl¥syslog :Mezzanineレベルでのsyslog
④ Bug search tool (β版)で既知不具合がないか検索ソフトウェアアップデートで改善する不具合であれば、アップデートを実施
※ご契約形態によっては、ご覧いただけない場合がございます。その場合には、購入元へお問い合わせください。
https://www.cisco.com/cisco/psn/bssprt/bsshttps://www.cisco.com/cisco/psn/bssprt/bss
-
© 2012 Cisco and/or its affiliates. All rights reserved. Cisco Public 33
⑤ 切り分けを実施
対象リンクに関連する機器に対し、以下のアクションを実施し解消するか
• Fabric interconnect - Uplink switch間Uplink switch側ポートのshutdown / no shutdownFabric interconnect側ポートの disable / enable
• Fabric interconnect – IO Module間Fabric interconnect 該当サーバーポートの disable / enableリンクが関連している対向IO Module の reset
• IO Module – Server 間対象サーバーのRe-acknowledgeリンクが関連しているFabric側のIO ModuleのReset
対象リンクに関連するcableの抜き差しして解消するか
⑥ ①⑤の情報、②で収集したログを添えて、TACへご連絡ください。
-
© 2012 Cisco and/or its affiliates. All rights reserved. Cisco Public 34
• CSCto68535 Blade 3 loses connectivity on one Fabric. I2Cバス問題の影響により、Slot3に入っているBladeにおいて、link failureが検知される。対象はSlot3のみ。1.4(3i),2.0(1m)で改善
• CSCtu30454 UCSM generates false VIF down alerts - waiting for flogiUCS Managerにおいて、reason: waiting for flogのVIF downイベントが誤って検知されることがある。 2.0(2)で改善予定
• CSCtt38889 VIF Down not cleared for standby VNIC despite VETH up standby VNICがUpした時に、F0479 Virtual interface xxx link state is downイベントが記録されることがある。2.0(1t)で改善。
• CSCtw96111 Dynamic VNIC bringup failed and stuck at CRTING state VM-FEX(Dynamic vNIC)port-profileを使用しているVMでネットワーク接続断が発生することがある。2.0(2)で改善予定。
http://tools.cisco.com/Support/BugToolKit/search/getBugDetails.do?method=fetchBugDetails&bugId=CSCto68535http://tools.cisco.com/Support/BugToolKit/search/getBugDetails.do?method=fetchBugDetails&bugId=CSCtu30454http://tools.cisco.com/Support/BugToolKit/search/getBugDetails.do?method=fetchBugDetails&bugId=CSCtt38889http://tools.cisco.com/Support/BugToolKit/search/getBugDetails.do?method=fetchBugDetails&bugId=CSCtw96111http://tools.cisco.com/Support/BugToolKit/search/getBugDetails.do?method=fetchBugDetails&bugId=CSCtw96111
-
© 2012 Cisco and/or its affiliates. All rights reserved. Cisco Public 35
• Cisco UCS Manager B-Series Troubleshooting Guide http://www.cisco.com/en/US/docs/unified_computing/ucs/ts/guide/UCSTroubleshooting.html
• Error and System Messages
•UCS 2.xCisco UCS Faults and Error Messages Referencehttp://www.cisco.com/en/US/docs/unified_computing/ucs/ts/faults/reference/2.0/UCSFaultsErrorsRef_20.htmlCisco UCS Faults Spreadsheethttp://www.cisco.com/en/US/docs/unified_computing/ucs/ts/guide/UCSTroubleshooting.html
•UCS 1.xCisco UCS Faults and Error Messages Referencehttp://www.cisco.com/en/US/docs/unified_computing/ucs/ts/faults/reference/ErrMess.html
http://www.cisco.com/en/US/docs/unified_computing/ucs/ts/guide/UCSTroubleshooting.htmlhttp://www.cisco.com/en/US/docs/unified_computing/ucs/ts/guide/UCSTroubleshooting.htmlhttp://www.cisco.com/en/US/docs/unified_computing/ucs/ts/faults/reference/2.0/UCSFaultsErrorsRef_20.htmlhttp://www.cisco.com/en/US/docs/unified_computing/ucs/ts/faults/reference/2.0/UCSFaultsErrorsRef_20.htmlhttp://www.cisco.com/en/US/docs/unified_computing/ucs/ts/faults/reference/2.0/UCSFaultsErrorsRef_20.htmlhttp://www.cisco.com/en/US/docs/unified_computing/ucs/ts/guide/UCSTroubleshooting.htmlhttp://www.cisco.com/en/US/docs/unified_computing/ucs/ts/guide/UCSTroubleshooting.htmlhttp://www.cisco.com/en/US/docs/unified_computing/ucs/ts/faults/reference/ErrMess.htmlhttp://www.cisco.com/en/US/docs/unified_computing/ucs/ts/faults/reference/ErrMess.html
-
© 2012 Cisco and/or its affiliates. All rights reserved. Cisco Public 36
• Cisco UCS C-Series Servers Troubleshooting Guide http://www.cisco.com/en/US/docs/unified_computing/ucs/c/ts/guide/TS_C-Series.html
• Field Notice
•B-serieshttp://www.cisco.com/en/US/products/ps10280/prod_field_notices_list.html
•C-serieshttp://www.cisco.com/en/US/products/ps10493/prod_field_notices_list.html
• Bug Search Tool(β版)http://www.cisco.com/cisco/psn/bssprt/bss
•Bug search tool紹介:http://www.cisco.com/web/tsweb/lb/bst-tour-jp.html
※CCO ID、パスワードでのログインが必要になる場合がございます。
ご契約形態によっては、ご覧いただけない場合がございます。その場合には、購入元へお問い合わせください。
http://www.cisco.com/en/US/docs/unified_computing/ucs/c/ts/guide/TS_C-Series.htmlhttp://www.cisco.com/en/US/docs/unified_computing/ucs/c/ts/guide/TS_C-Series.htmlhttp://www.cisco.com/en/US/docs/unified_computing/ucs/c/ts/guide/TS_C-Series.htmlhttp://www.cisco.com/en/US/docs/unified_computing/ucs/c/ts/guide/TS_C-Series.htmlhttp://www.cisco.com/en/US/products/ps10280/prod_field_notices_list.htmlhttp://www.cisco.com/en/US/products/ps10493/prod_field_notices_list.htmlhttp://www.cisco.com/en/US/products/ps10493/prod_field_notices_list.htmlhttp://www.cisco.com/cisco/psn/bssprt/bsshttp://www.cisco.com/cisco/psn/bssprt/bsshttp://www.cisco.com/web/tsweb/lb/bst-tour-jp.htmlhttp://www.cisco.com/web/tsweb/lb/bst-tour-jp.htmlhttp://www.cisco.com/web/tsweb/lb/bst-tour-jp.htmlhttp://www.cisco.com/web/tsweb/lb/bst-tour-jp.htmlhttp://www.cisco.com/web/tsweb/lb/bst-tour-jp.htmlhttp://www.cisco.com/web/tsweb/lb/bst-tour-jp.html
-
© 2012 Cisco and/or its affiliates. All rights reserved. Cisco Public 37
トピック: 日程: 6月19日(火)エキスパート:
詳細は決定次第、サポートコミュニティ事務局よりホームページやソーシャルメディアを通じてご連絡いたします。
-
Cisco Public© 2012 Cisco and/or its affiliates. All rights reserved. 38
http://www.youtube.com/user/ciscosupportchannel
http://itunes.apple.com/us/app/cisco-technical-support/id398104252?mt=8
http://www.linkedin.com/groups/CSC-Cisco-Support-Community-3210019
Newsletter Subscription: https://tools.cisco.com/gdrp/coiga/showsurvey.do?surveyCode=589&keyCode=146298_2&P
HYSICAL%20FULFILLMENT%20Y/N=NO&SUBSCRIPTION%20CENTER=YES
http://www.facebook.com/CiscoSupportCommunityJapan
https://twitter.com/cscjapan
-
Cisco Public© 2012 Cisco and/or its affiliates. All rights reserved. 39
評価ポイントはユーザの総合得点として積算
-
Cisco Public© 2012 Cisco and/or its affiliates. All rights reserved. 40
https://supportforums.cisco.com
https://supportforums.cisco.com/
-
Cisco Public© 2012 Cisco and/or its affiliates. All rights reserved. 41
スペシャリゼーション ラーニングパートナー リンク
データセンター NGN-SF http://ngn-sf.co.jp/
データセンター ネットワンシステムズ https://www.netone.co.jp/academy/index.html
コラボレーション グローバルナレッジ http://www.globalknowledge.co.jp/
• シスコ認定ラーニングパートナーでは皆様のソリューションを最適化するために、Ciscoの認定したカリキュラムを使ったトレーニングを提供しております。
• また、シスコ認定ラーニングパートナーの中でも、シスコスペシャライズドパートナーは特にその専門分野においてのスキルを認められたパートナーのみが授与される認定資格となっております。
-
Thank you.