Các trung tâm dữ liệu lớn đều có thể gặp sự cố do không bảo dưỡng hệ thống máy phát điện dự phòng, quản trị viên làm sai thao tác.
Hệ thống điện dự phòng không hoạt động hoặc cấu hình sai
Theo Networkcomputing, lý do phổ biến nhất khiến một trung tâm dữ liệu bị hỏng thường là mất điện. Tình trạng mất điện bất ngờ có thể xảy ra ở bất kỳ Data Center nào trên thế giới. Việc chuẩn bị sẵn cho tình huống này sẽ đánh giá mức độ chuyên nghiệp của đội ngũ vận hành. Các trung tâm dữ liệu luôn có một, thậm chí nhiều nguồn năng lượng dự phòng. Nhưng rủi ro sẽ đến khi hệ thống pin dự trữ không được phát hiện thay thế kịp thời khi có hỏng hóc, các máy phát điện không được kiểm tra thường xuyên. Ngoài ra, các quản trị viên không thường xuyên giả định các tình huống mất điện để thao táo xử lý cũng sẽ khiến tình huống đơn giản trở nên phức tạp khi bị mất điện. Ngoại trừ các trường hợp bất khả kháng như thiên tai, cháy nổ bất ngờ, việc cắt điện đối với nơi đặt Data Center của các công ty lớn thường được địa phương thông báo từ trước.
Lỗi do hệ thống làm mát
Hệ thống làm mát luôn đặc biệt quan trọng với các trung tâm dữ liệu. Ở trạng thái bình thường, bạn có thể cảm thấy như ở trong "thùng nước đá" khi bước vào một Data Center. Nhưng chỉ cần hệ thống làm mát ngừng làm việc trong một phút, tất cả sẽ nhanh chóng biến thành một lò thiêu. Ngay cả khi đặt cảm biến nhiệt độ ở mọi ngóc ngách của trung tâm dữ liệu, các quản trị viên luôn phải sẵn sàng ứng phó với các lỗi có thể xảy ra với hệ thống làm mát. Thông thường, một trung tâm dữ liệu sẽ phải dùng nhiều hệ thống làm mát cũng như nhiều nguồn điện để dự phòng trường hợp xấu.
Quy trình chuyển đổi hệ thống tự động không hoạt động
Hầu hết các nhà cung cấp dịch vụ dữ liệu đều có một hoặc nhiều trung tâm dữ liệu dự phòng. Trong trường hợp mất điện tại trung tâm chính, hệ thống sẽ tự động chuyển tất cả lưu lượng truy cập đến cơ sở dự phòng. Nếu được thực hiện đúng cách, người dùng cuối sẽ gần như không cảm nhận được sự chậm trễ và quá trình chuyển đổi này. Các dịch vụ trên lý thuyết vẫn sử dụng bình thường khi một trong các trung tâm dữ liệu gặp sự cố. Tuy nhiên, việc chuyển đổi tự động lưu lượng không phải lúc nào cũng hoạt động chính xác. Lỗi thông thường đến do nguyên nhân chủ quan của con người là thiếu kiểm tra thường xuyên. Ngay cả những thay đổi nhỏ trong hệ thống máy chủ lưu trữ dữ liệu chính cũng có thể tác động lớn đến quá trình chuyển đổi dự phòng tự động.
Thực hiện quá nhiều thay đổi trong thời gian bảo trì
Trong thời gian bảo trì hệ thống, các quản trị viên thường cố gắng thực hiện nhiều thay đổi cùng lúc để tận dụng. Tuy nhiên, việc vội vã vì phải hoàn thành lượng công việc lớn trong một khoảng thời gian ngắn có thể dẫn đến các sai lầm. Ngoài ra, việc thay đổi nhiều cài đặt trong một khung thời gian, các lỗi dây chuyền sẽ càng khiến quản trị viên khó tìm ra nguyên nhân gốc của vấn đề và việc xử lý sau sự cố mất nhiều giờ thậm chí là nhiều ngày để khắc phục hoàn toàn.
Ủy quyền hệ thống không đúng cách
Theo Networkcomputing, số lượng quản trị viên có quyền truy cập đầy đủ đến tất cả hệ thống trong trung tâm dữ liệu phải rất hạn chế. Mỗi lần truy cập hay sửa đổi của các quản trị viên cũng cần được theo dõi và kiểm soát chặt chẽ. Nhiều hậu quả đến với các trung tâm dữ liệu lớn đến chỉ sau vài cú nhấp chuột hay vài dòng nhập code sai của quản trị viên. Năm 2014, một quản trị viên của công ty dữ liệu Joyent sử dụng phần mềm để cập nhật từ xa cho một số máy chủ mới ở trung tâm dữ liệu phía đông Mỹ của công ty. Tuy nhiên, khi cố khởi động lại các máy mới, anh này vô tình khởi động lại toàn bộ các máy có trong trung tâm. Sự cố gây quá tải cho hệ thống và công ty mất nhiều giờ để khắc phục cũng như bồi thường cho khách hàng.
Phần cứng cũ
Mọi thiết bị phần cứng máy tính luôn có tuổi thọ nhất định. Với hệ thống sử dụng nhiều linh kiện như trung tâm dữ liệu, khả năng nhiều máy đồng loạt "chết" tại một thời điểm sau sự cố như mất điện là rất dễ xảy ra. Những người quản lý đều hiểu điều này nhưng việc thay mới thường xuyên đòi hỏi kinh phí lớn và đôi khi bị cho là chưa tận dụng hết giá trị của sản phẩm.
Hệ thống cáp quang cho trung tâm dữ liệu
Một lý do khác khiến trung tâm dữ liệu gặp sự cố là hệ thống cáp quang gặp vấn đề. Thông thường, một Data Center sẽ sử dụng nhiều đường cáp quang khác nhau để cung cấp đường truyền Internet. Trong trường hợp đường cáp chính sử dụng ổn định, các quản trị viên cũng gặp tình huống chủ quan không thường xuyên kiểm tra các đường cáp dự phòng. Điều này dẫn đến khi xảy ra sự cố đứt cáp chính, các cáp phụ không hoạt động hoặc không đủ tải cho hệ thống.
Nguồn: Sohoa.vnexpress.net