Facebook chính thức công bố nguyên nhân gây “đóng băng” toàn cầu nhiều giờ

15:46, 05/10/2021

Facebook cho biết trong một bài đăng trên blog nguyên nhân dẫn đến sự gián đoạn này là bởi những thay đổi cấu hình trên các bộ định tuyến xương sống điều phối lưu lượng mạng giữa các trung tâm dữ liệu của họ.

Loạt dịch vụ của Facebook bắt đầu bị lỗi từ khoảng 22h (giờ Việt Nam) và ảnh hưởng đến người dùng toàn cầu sử dụng dịch vụ. Mãi cho đến sáng ngày 5/10 (theo giờ Việt Nam) loạt dịch vụ của Facebook mới hoạt động trở lại.

Sự việc không thể truy cập vào các dịch vụ của Facebook đã kéo dài trong suốt 6 tiếng đồng hồ ngày 4/10, khiến 3,5 tỉ người dùng ở nhiều quốc gia trên thế giới không thể truy cập vào mạng xã hội lớn nhất này. Facebook Inc vừa có thông báo nguyên nhân dẫn đến “sập nguồn” trên toàn cầu là do việc thay đổi cấu hình bị lỗi trên bộ định tuyến của mình.

Cụ thể, thông báo của Facebook như sau:

“Đối với tất cả những khách hàng gồm người dùng cá nhân và doanh nghiệp trên khắp thế giới phụ thuộc vào dịch vụ, chúng tôi xin lỗi về sự bất tiện do sự cố ngừng hoạt động ngày hôm nay (4/10) trên các nền tảng bao gồm Facebook, Instagram, Whatsapp...

Chúng tôi đã làm việc chăm chỉ nhất có thể để khôi phục quyền truy cập và hệ thống hiện đã hoạt động bình thường trở lại. Nguyên nhân cơ bản của sự cố ngừng hoạt động này cũng ảnh hưởng đến nhiều công cụ và hệ thống nội bộ mà chúng tôi sử dụng trong các hoạt động hàng ngày của mình, làm phức tạp hóa nỗ lực chẩn đoán và giải quyết sự cố nhanh chóng.

Các nhóm kỹ sư đã xác định những thay đổi cấu hình trên các bộ định tuyến đường trục điều phối lưu lượng mạng giữa các trung tâm dữ liệu đã gây ra sự cố làm gián đoạn giao tiếp này. Sự gián đoạn này lên lưu lượng mạng đã ảnh hưởng đến cách các trung tâm dữ liệu của chúng tôi giao tiếp, khiến các dịch vụ phải tạm dừng.

Các dịch vụ hiện đã trực tuyến trở lại và chúng tôi đang tích cực làm việc để đưa chúng trở lại hoạt động bình thường. Chúng tôi tin rằng nguyên nhân gốc rễ của sự cố ngừng hoạt động này là do thay đổi cấu hình bị lỗi và cũng không có bằng chứng cho thấy dữ liệu người dùng bị xâm phạm do thời gian ngừng hoạt động này.

Người dùng và doanh nghiệp trên khắp thế giới dựa vào Facebook hàng ngày để duy trì kết nối. Chúng tôi hiểu những ảnh hưởng của sự cố như thế này đối với cuộc sống của mọi người và trách nhiệm của mình là phải thông báo cho mọi người về những gián đoạn đã xảy ra.

Một lần nữa xin lỗi tất cả những người bị ảnh hưởng và chúng tôi đang làm việc để hiểu thêm về những gì đã xảy ra ngày hôm nay để có thể tiếp tục làm cho cơ sở hạ tầng của mình linh hoạt hơn”.

Bài đăng xin lỗi trên trang cá nhân của ông chủ Facebook.

Các chi tiết kỹ thuật chưa được công bố. Sau khi phân tích, các chuyên gia an ninh mạng từ Cloudflare cho rằng sự cố có thể liên quan đến giao thức định tuyến Internet có tên BGP.

Viết tắt của Border Gateway Protocol, BGP về cơ bản là một trong những hệ thống định tuyến lưu lượng, đưa thiết bị của người dùng đến website cần truy cập càng nhanh càng tốt.

Do có nhiều nhà cung cấp dịch vụ Internet, router và máy chủ, có nhiều "con đường" khác nhau để truyền lưu lượng đến địa chỉ đích. Nhiệm vụ của BGP là tìm kiếm, lựa chọn "con đường" tốt nhất để truy cập vào website cần đến.

Trang The Verge mô tả BGP như người cập nhật "tuyến đường" để vẽ bản đồ, hướng dẫn máy tính truy cập các website như YouTube hay Facebook. Tuy nhiên, giữa các website luôn có nhiều điểm đến như máy chủ nhà mạng, dịch vụ trung gian... BGP sẽ chỉ ra những nơi lưu lượng cần đi qua để đến website đích.

Do Internet luôn thay đổi, bản đồ cần được cập nhật để tránh dẫn nhầm đường. Các hệ thống thường "tham khảo" thông tin từ máy chủ khác để sao chép thông tin mới. Nếu một điểm đến gặp lỗi nhưng không được phát hiện, chúng sẽ ảnh hưởng đến bản đồ, khiến lưu lượng không được truyền đến đúng vị trí.

BGP đóng vai trò quan trọng giúp máy tính điều hướng đến website đích. 

Ví dụ, người dùng cần đến website A, máy chủ website này sử dụng nhà cung cấp mạng B, nhưng máy tính của bạn dùng nhà mạng C. Trong trường hợp này, B và C không thể liên lạc trực tiếp, nhưng nhà mạng C có thể liên lạc với trung gian D, D sau đó liên lạc với E, E có thể liên lạc đến A. Nếu đó là con đường duy nhất, BGP sẽ chọn nó để đưa người dùng đến website A. Nếu cả nhà mạng B và C cùng kết nối đến máy chủ dịch vụ F, BGP sẽ chọn con đường này để tránh đi qua các bên trung gian mà vẫn kết nối người dùng bình thường.

Tuy nhiên, không phải lúc nào tuyến đường ngắn nhất cũng tốt nhất. Có nhiều nguyên nhân BGP chọn con đường dài hơn như chi phí, hoặc chứa máy chủ được yêu cầu truy cập từ trước

Chuyện gì đã xảy ra với Facebook?

Đối với Facebook, công ty này xây dựng hệ thống BGP riêng. Trong thông báo ngày 5/10, Facebook cho biết sự cố xảy ra do "thay đổi cấu hình trên router điều phối lưu lượng mạng giữa các trung tâm dữ liệu... Điều đó ảnh hưởng đến cách giao tiếp của các trung tâm dữ liệu, khiến các dịch vụ ngừng hoạt động".

Dựa trên thông báo, The Verge cho rằng sự cố có thể xảy ra từ nội bộ Facebook. Tuy nhiên, lỗi này ảnh hưởng đến hàng triệu người dùng trên thế giới. Các chuyên gia nhận định Facebook "bị xóa sổ khỏi Internet" khi điểm đến trên bản đồ biến mất.

 Khôi Nguyên (T/h)