ข่าวไฟดับของศูนย์ข้อมูลหลายแห่งและความไม่สงบในประเ ทศทำให้ประเด็นความมั่นคงของศูนย์ข้อมูลกลายเป็นประเ ด็นสำคัญ ในเชิงเทคนิค Blognone ได้นำเสนอบทความของคุณ icez ถึงประเด็นปัญหาของการรวมศูนย์การเชื่อมต่ออินเทอร์เ น็ตในเมืองไทยไปแล้ว
สำหรับผู้บริหารฝ่ายไอทีของธุรกิจ Blognone จึงขอสัมภาษณ์คุณสุรักษ์ ธรรมรักษ์ วิศวกรอาวุโสของ EMC ประเทศไทย เข้ามาพูดคุยถึงการจัดการระบไอทีภายใต้ภาวะที่มีความ เสี่ยงหลายอย่าง และเราต้องมองถึงอะไรบ้างเพื่อให้ธุรกิจดำเนินไปได้แ ม้จะมีอุปสรรคอยู่รอบด้าน
จากประสบการณ์ทั่วโลก เหตุการณ์น้ำท่วมหรือมีผู้ชุมนุมในไทยตอนนี้เป็นเรื่ องเฉพาะของไทยเองหรือในต่างประเทศก็มีความเสี่ยงคล้า ยกัน?

ทุกประเทศมีปัญหานี้เพราะภัยพิบัติเกิดขึ้นทั่วโลกอย ู่แล้ว ครั้งแรกที่ทำให้คนหันมาสนใจเรื่อง disaster recovery (DR) คือเหตุการณ์ 9/11 ของสหรัฐอเมริกา เพราะตึก World Trade Center มีบริษัทไอทีและองค์กรใหญ่ๆ มากมาย ตอนนั้นมีทั้งบริษัทที่รันงานต่อไปได้ และบริษัทที่ระบบล่มไปเลยเพราะไม่มีระบบสำรอง เหตุการณ์อุทกภัยหรือภัยธรรมชาติเป็นเรื่องที่เกิดขึ ้นได้ทั่วโลก ภัยพิบัติที่ฟิลิปปินส์หรือญี่ปุ่นถือเป็นตัวอย่างที ่ชัดเจนในต่างประเทศ

ที่ผ่านมาลูกค้าในไทยได้รับผลกระทบกันมากไหม ธุรกิจยังเดินหน้าต่อไปได้เต็มรูปแบบรึเปล่า

เหตุการณ์น้ำท่วมใหญ่ปี 2554 มีลูกค้าในเมืองไทยเจอปัญหานี้ค่อนข้างเยอะ บางรายที่ไม่มีศูนย์สำรองข้อมูลใช้วิธีเรียกบริษัทไอ ทีต่างๆ มาช่วย shutdown ระบบก่อนน้ำเข้าตัวอาคาร และย้ายอุปกรณ์หรือ data center ไปที่อื่น เพื่อให้ธุรกิจเดินหน้าต่อไปได้
กรณีที่พบบ่อยว่าไม่มี DR คือตามโรงงานต่างๆ ถือว่าเป็นความท้าทายมาก ส่วนธุรกิจอื่นๆ ก็มีผลกระทบในบางระดับ ไม่ว่าจะเป็น banking หรือ telecom ส่วนเรื่องการชุมนุมก็มีโอกาสเกิดได้ทุกประเทศเช่นกั น กรณีของบ้านเราจะเห็นว่าเกิดการชุมนุมบ่อยหน่อยในช่ว งหลายๆ ปีให้หลัง ดังนั้นด้วยเทคโนโลยีด้าน DR ก็จะเข้ามาช่วยแก้ปัญหาเหล่านี้ได้
เหตุการณ์ล่าสุดที่ปิดศูนย์ราชการแจ้งวัฒนะ ทำให้ลูกค้ามองว่าจำเป็นต้องมีแผนเรื่อง DR เมื่ออาทิตย์ที่แล้ว EMC ก็เข้าไปช่วยลูกค้ารายหนึ่งย้ายศูนย์ข้อมูลไปอยู่ต่า งจังหวัด
ลูกค้าส่วนใหญ่ตอนนี้มีกี่ศูนย์ข้อมูล ที่ผ่านมาเคยเจอเหตุการณ์กระทบทั้งศูนย์หลักและศูนย์ สำรองไหม

จากประสบการณ์ที่ผ่านมา การประท้วงจะใช้วิธีปิดถนนหลายสายหรือเดินทางไปหลายจ ุด ทีนี้หน่วยงานบ้านเราที่มีศูนย์ข้อมูล 2 แห่งก็จริง แต่กลับอยู่ห่างไกลกันไม่มากคือประมาณ 10-20 กิโลเมตร ก็อาจได้รับผลกระทบทั้งคู่
อีกตัวอย่างที่เคยพบคือ มีลูกค้ารายหนึ่งมีศูนย์ข้อมูลห่างกันถึง 70 กิโลเมตร แต่ตอนน้ำท่วมใหญ่กลับโดนทั้งคู่ ทำให้ลูกค้าเริ่มมองถึงศูนย์ข้อมูลสำรองแห่งที่สามเพ ิ่มเติม เพราะโดยทั่วไปแล้ว หน่วยงานบ้านเราอย่างเก่งก็มีแค่สองศูนย์ ยังไม่ค่อยมีกลุ่มที่มี 3-4 ไซต์เท่าไร แต่ตอนนี้ลูกค้าหลายกลุ่มเริ่มคิดเรื่องศูนย์ที่สาม มองไปยังจังหวัดไกลๆ เช่น ชลบุรี ขอนแก่น เชียงใหม่ แล้วแต่โซนว่าลูกค้าสะดวกที่จะไปตรงไหน
ข้อแนะนำเบื้องต้นคือต้องศึกษาที่ตั้งศูนย์ข้อมูลว่า อยู่ห่างไกลกันเพียงพอไหม ตอนนี้ระยะ 30-40 กิโลเมตรอาจไม่พอแล้ว อาจต้องมากกว่า 100 กิโลเมตร ซึ่งเมื่อจะย้ายไปต่างจังหวัดก็ต้องศึกษาว่า network bandwidth หรือ link fiber channel ที่จังหวัดนั้นๆ พร้อมหรือไม่ด้วย
แนวทางของหน่วยงานภาครัฐกับเอกชนไทยมีความแตกต่างกัน หรือไม่

หน่วยงานภาครัฐยังไม่ค่อยเน้นเรื่องศูนย์สำรองข้อมูล เท่าไรนัก ขึ้นกับนโยบายของหน่วยงาน จะต่างไปจากหน่วยงานเอกชนที่พร้อมมากกว่า
หน่วยงานราชการมักมีนโยบายว่าต้องวางศูนย์ข้อมูลอยู่ ในหน่วยราชการ บางแห่งอาจมีศูนย์สำรองก็จริง แต่ห่างไกลกันแค่คนละตึก หรือบางครั้งใช้วิธีวางเครื่องแลกกันระหว่างหน่วยงาน ใต้กระทรวงเดียวกัน พอหน่วยงานราชการโดนปิด ก็แทบจะไม่มีโอกาสรันเลย
การสร้างศูนย์ข้อมูลที่รองรับความเสี่ยงเหล่านี้ได้ ต้องมีแนวทางอย่างไร แนวทางเดิมๆ ที่เป็นมาในไทยต้องปรับอย่างไรบ้าง

ภาครัฐต้องมองยุทธศาสตร์แบบเชิงรุก (proactive) มากกว่านี้ เพราะหลังๆ การประท้วงมักพุ่งเป้าที่หน่วยงานภาครัฐเสียมาก ดังนั้นหน่วยงานภาครัฐก็ต้องเตรียมพร้อมเรื่องนี้ด้ว ย
ภาคเอกชนพยายามใช้เทคโนโลยีเพื่อรองรับปัญหาแบบ proactive อยู่แล้ว แต่ต้องแบ่งเป็น 2 ระดับ
กลุ่มที่เป็นองค์กรขนาดใหญ่ (enterprise) ที่มีคนเป็นหลักพัน โดยส่วนใหญ่เริ่มให้ความสนใจในการทำ BC (business continuity) มากขึ้นจากเหตุการณ์น้ำท่วม แถมกลุ่มนี้เงินหนา มักมีศูนย์ข้อมูล 2 แห่งในรูปแบบ active-standby (ศูนย์สำรอง ปกติจะไม่ทำงานแต่รอสลับทำงานแทนศูนย์หลักถ้ามีปัญหา ) และมีกระบวนการชัดเจนว่าต้องทำอะไรบ้างเมื่อเกิดปัญห าลักษณะนี้
ส่วนบริษัทขนาดกลาง-เล็ก (SMB) ยังไม่ได้ลงทุนเรื่องศูนย์ข้อมูลแห่งที่สองสักเท่าไร แต่จะใช้วิธี backup/recovery โดยฝากเก็บข้อมูลไว้สถานที่อื่น พอต้องการใช้ค่อยเอาเทปกลับมา restore มากกว่า แต่ระยะหลัง หลายหน่วยงานก็เริ่มคิดถึงการทำสำเนา (replication) ของข้อมูลไปยังไซต์งานอื่นๆ (เช่น โรงงานสาขาอื่น) กันบ้างแล้ว บริษัทกลุ่มนี้ยอมรับได้ว่าระบบปัจจุบันเรียกข้อมูลค ืนแบบเรียลไทม์ไม่ได้ แต่ก็จะมองว่าระยะเวลากู้คืนอาจจะสัก 24 ชั่วโมงถือเป็นช่วงที่ยอมรับได้
การปรับตัวจากศูนย์ข้อมูลสำรองแบบ active-standby (ศูนย์สำรองรอสลับงานแทนศูนย์หลัก) เพียงพอไหม ทำไมจึงต้องเตรียมทำศูนย์ข้อมูลสำรองแบบ active-active (มีสองศูนย์ข้อมูลและทำงานพร้อมกันทั้งคู่)

ปัจจุบัน ลูกค้าเจอปัญหาว่าลงทุนทำศูนย์สำรองแบบ standby ไปแล้วแต่กลับใช้ประโยชน์ได้ไม่ค่อยคุ้ม แถมกระบวนการเปลี่ยนศูนย์สำรองแทนศูนย์หลัก ส่วนใหญ่ต้องใช้เวลากันหลายชั่วโมง หรืออาจเป็นวันถึงจะย้ายข้อมูลกันเสร็จ เพราะองค์กรมีขั้นตอนค่อนข้างเยอะ เช่น เช็คว่าอุปกรณ์สตอเรจฝั่ง standby พร้อมแล้ว บูตเซิร์ฟเวอร์เสร็จหมดแล้ว เมาท์ฮาร์ดดิสก์ได้ และสุดท้ายก็ต้องมาลุ้นอยู่ดีกว่าแอพพลิเคชันที่ย้าย ไปแล้ว start ขึ้นหรือไม่ ซึ่งมีโอกาสผิดพลาดสูงและใช้เวลานาน
ดังนั้นถ้าหน่วยงานสามารถย้ายไปทำระบบศูนย์ข้อมูลสำร องแบบ active-active ได้ ก็จะช่วยให้ continuous availability ทำงานได้ต่อเนื่อง ลดเวลา recovery time ได้เยอะ จากเดิม 1 วันอาจลดเหลือศูนย์เลยด้วยซ้ำ เพราะถ้าไซต์หนึ่งถูกปิดลงไป อีกไซต์หนึ่งก็ยังให้บริการต่อได้ทันที ธุรกิจก็จะเดินหน้าได้
เมื่อพูดถึงระบบแบบ active-active ก็มีความเข้าใจผิดๆ อยู่บ้างหลายประการ เพราะผู้ขายระบบบางรายอ้างว่าตัวเองเป็น active-active แต่เอาเข้าจริงแล้ว เวลาเรียกข้อมูลจากสตอเรจกลับต้องเรียกจาก primary storage (ที่อยู่ในศูนย์ใดศูนย์หนึ่ง) เท่านั้น ดังนั้นก็ถือเป็นการอ่านข้อมูลข้ามศูนย์ข้อมูลอยู่ดี
โซลูชันของ EMC เรียกว่าเป็น truly active-active คือเวลาเรียกข้อมูลภายในศูนย์ใด ก็จะเรียกจากสตอเรจของศูนย์ข้อมูลนั้นๆ ทำให้มีข้อดีคือไม่กินแบนด์วิธการเรียกข้อมูลข้ามระห ว่างสองศูนย์

ในกรณีว่าลูกค้ามีศูนย์ข้อมูลสำรองแบบ active-standby อยู่แล้ว จะอัพเกรดมาเป็น active-active ต้องลงทุนเพิ่มอีกเยอะหรือไม่

ค่าใช้จ่ายของการทำศูนย์แบบ active-active ไม่ได้แพงกว่าศูนย์แบบ active-standby เยอะ เพราะความคุ้มค่าหรือ ROI (return on investment) วัดที่ความต่อเนื่องของธุรกิจ
ปกติเวลาผมให้คำปรึกษากับลูกค้าเรื่องนี้ จะให้ลูกค้าลองเลือกว่าระบบไอทีระบบไหนที่มีผลกระทบต ่อธุรกิจเป็นอย่างมากก่อน แล้วมาดูว่าถ้าระบบล่มไป ค่าเสียหายเป็นเท่าไร จากนั้นค่อยนำไปหาความคุ้มค่าของการลงทุน
การเปลี่ยนจากศูนย์ active-standby เป็น active-active จะช่วยให้สิ่งที่ลงทุนไปแล้วในศูนย์แบบ active-standby สามารถใช้ประโยชน์ได้เพิ่มขึ้น โดยลงทุนเพิ่มแค่ในส่วนของ infrastructure ให้สองศูนย์ข้อมูลมองข้อมูลเป็นผืนเดียวกันเท่านั้น แต่สิ่งที่ได้ประโยชนืมากขึ้นคือความต่อเนื่องของการ ให้บริการตาม SLA (service-level agreement) ที่ต่อเนื่องกว่าเดิม
ยุคสมัยนี้เริ่มพูดถึงการใช้ cloud กันเยอะ เป็นไปได้หรือไม่ที่จะทำ cloud backup

กรณีที่จะใช้ public cloud ยังต้องสร้างความมั่นใจเรื่องความปลอดภัยของข้อมูล (information security) เพราะลูกค้าย่อมไม่อยากให้ข้อมูลออกนอกองค์กร ตอนนี้เรื่อง cloud backup ของบ้านเรา ลูกค้ายังอยู่ในช่วงศึกษาและเรียนรู้ว่ามีข้อจำกัดมา กน้อยแค่ไหน เลือกใช้บริการจากค่ายไหนดีที่ไว้ใจได้
ส่วนเรื่องปัญหาเรื่องแบนด์วิธคงไม่มีมากนัก เพราะแบนด์วิธบ้านเราดีขึ้นเยอะแล้ว สามารถใช้งานได้จริงแล้ว
ถ้าหากว่ามีหน่วยงานในไทยที่ได้รับผลกระทบจากการชุมน ุม ณ ขณะนี้ มีคำแนะนำที่สามารถปฏิบัติเบื้องต้นอะไรบ้าง

คำแนะนำที่ให้ได้ในตอนนี้คือต้องสำรองข้อมูลเป็นอย่า งแรก ถึงแม้หน่วยงานยังไม่มีระบบสำรองข้อมูลอัตโนมัติใดๆ ก็ตาม หรืออาจมีศูนย์สำรองแบบ active-standby ก็ตาม สิ่งแรกที่ต้องทำคือสำรองข้อมูลออกมาจากพื้นที่ที่ได ้รับผลกระทบให้ได้ก่อน
ขั้นต่อไป แต่ละหน่วยงานต้องคิดเรื่อง business continuity หรือการมองศูนย์สำรองที่สอง เพื่อให้ระบบสามารถทำงานต่อไป และต้องเริ่มมองไซต์ที่สามที่ไกลออกไปจากโซนกรุงเทพแ ละปริมณฑลที่ได้รับผลกระทบในปัจจุบัน
ในฐานะที่มีความเชี่ยวชาญเรื่องนี้ มีมุมมองอย่างไรบ้างต่อกรณีศูนย์ข้อมูลของ CAT มีปัญหาเรื่องโดนตัดไฟ

สำหรับบริการโฮสติ้งบางรายอาจคิดเรื่องการทำ active-active ที่ศูนย์สำรองด้วย เพื่อเพิ่ม SLA ให้กับกลุ่มธุรกิจลูกค้าบางกลุ่มที่ต้องการความต่อเน ื่องสูง หรืออาจจะเริ่มมองถึงการทำโฮสติ้งบน cloud ก็ได้เช่นกัน
EMC, Storage, Interview
อ่านต่อ...