ปรากฎการณ์ Amazon AWS ล่มเมื่อสัปดาห์ที่ผ่านมา พาให้เว็บขนาดใหญ่จำนวนมากล่มตามไปด้วย สร้างปัญหาต่อความน่าเชื่อถือของการใช้บริการจากกลุ่ มเมฆ ที่แม้จะเป็นบริการจากผู้ให้บริการที่น่าเชื่อถืออย่ างอเมซอนก็ยังมีข่าวล่มหลายครั้ง ตอนนี้ทางอเมซอนก็ออกมาชี้แจงปัญหานี้แล้ว โดยปัญหาหลักจากตัวมอนิเตอร์เซิร์ฟเวอร์เวอร์ชั่นใหม ่ที่เพิ่งติดตั้งลงไป
ตัวซอฟต์แวร์เก็บข้อมูล (data collection agent) ติดตั้งบนเซิร์ฟเวอร์ทุกตัวในบริการ AWS เพื่อมอนิเตอร์ว่าเครื่องใดต้องการการซ่อมบำรุงหรือไ ม่ เมื่อติดตั้งลงไปแล้ว ก็เกิดปัญหาภายในอีกอย่างหนึ่ง คือ เซิร์ฟเวอร์ที่เพิ่งนำมาเปลี่ยนเครื่องที่เสียไปนั้น มีปัญหาการอัพเดต DNS ทำให้เครื่องบางส่วนในวงภายในของอเมซอนไม่สามารถติดต ่อเครื่องใหม่ที่เพิ่งเข้ามาได้ ปรากฎว่าเมื่อซอฟต์แวร์เก็บข้อมูลรุ่นใหม่พยายามติดต ่อเซิร์ฟเวอร์เก็บข้อมูลไม่ได้ มันเกิดการสะสมข้อมูลใที่ต้องรายงานกลับไว้ในหน่วยคว ามจำเพิ่มขึ้นเรื่อยๆ
อเมซอนระบุว่าภายในเซิร์ฟเวอร์มีการมอนิเตอร์หน่วยคว ามจำแล้ว แต่ไม่สามารถตรวจสอบปัญหาบางรูปแบบได้ เพราะการใช้หน่วยความจำที่ซับซ้อนของซอฟต์แวร์ของอเม ซอนเอง ทำให้ซอฟต์แวร์เก็บข้อมูลที่มีบั๊กกินหน่วยความจำไปเ รื่อยๆ จนกระทั่งเครื่องจำนวนมากเริ่มไม่ตอบสนอง และทำให้ AWS ของโซนนั้นๆ ล่มไปในที่สุด
อเมซอนระบุว่าได้แก้ไขทั้งบั๊กในซอฟต์แวร์ และปรับปรุงระบบการมอนิเตอร์ของตัวเองแล้ว เพื่อไม่ให้เกิดปัญหาเช่นนี้ขึ้นอีกในอนาคต และทางอเมซอนขออภัยลูกค้าที่เดือดร้อน
ชื่อเสียไปแบบนี้ ตลาดที่กลัวที่สุดคงเป็นตลาดองค์กรที่คงชะลอแผนการย้ ายบริการมาอยู่บนกลุ่มเมฆออกไปอีกสักหน่อย
ที่มา - Amazon


อ่านต่อ...