Một sự cố nghiêm trọng của Amazon Web Services (AWS) đã khiến một phần lớn Internet rơi vào tình trạng hỗn loạn, khiến vô số ứng dụng, trang web và dịch vụ số không thể truy cập. Từ các gã khổng lồ mạng xã hội như Snapchat và Reddit đến các thiết bị nhà thông minh như Alexa và Ring, và thậm chí là các nền tảng tài chính ngân hàng quan trọng, tác động dây chuyền của sự gián đoạn điện toán đám mây này đã được cảm nhận trên toàn thế giới.
Nguồn gốc của sự cố: Khu vực US-EAST-1 của Bắc Virginia
Vấn đề bắt đầu vào khoảng 2:40 giờ sáng ET / 7:40 giờ sáng BST, với các dịch vụ giám sát như Downdetector ghi nhận một đợt tăng đột biến trong các báo cáo về sự cố với Amazon Web Services. Trung tâm của sự gián đoạn được xác định là một “vấn đề vận hành” trong trung tâm dữ liệu US-EAST-1 của AWS tại Bắc Virginia, một trong những cơ sở hạ tầng lớn nhất và quan trọng nhất của họ.
Các kỹ sư AWS đã nhanh chóng vào cuộc, xác nhận các nỗ lực giảm thiểu vấn đề. Các báo cáo ban đầu cho thấy vấn đề liên quan đến Hệ thống Tên miền (DNS), thay vì một cuộc tấn công mạng, là nguyên nhân cơ bản. Các bản cập nhật sau này từ bảng điều khiển AWS đã làm rõ hơn, trích dẫn “hệ thống con nội chịu trách nhiệm giám sát sức khỏe của bộ cân bằng tải mạng của chúng tôi” là nguyên nhân gốc rễ, dẫn đến “vấn đề kết nối mạng” và “tỷ lệ lỗi và độ trễ tăng cao”.
Dịch vụ phổ biến bị tê liệt: Snapchat, Reddit, Alexa và hơn thế nữa
Tác động xa rộng của sự cố AWS ngay lập tức trở nên rõ ràng trên một loạt các dịch vụ số dựa vào cơ sở hạ tầng đám mây của Amazon:
- Snapchat: Một trong những nền tảng bị ảnh hưởng nặng nề nhất, Snapchat đã trải qua thời gian gián đoạn đáng kể, với hàng nghìn người dùng báo cáo lỗi đăng nhập và thông báo lỗi.
- Reddit: “Trang chủ của Internet” tự xưng cũng bị ảnh hưởng, với người dùng gặp lỗi “quá nhiều yêu cầu” và hiệu suất ứng dụng kém ổn định, bao gồm các vấn đề tải lại câu chuyện mới và không thể tìm thấy các subreddit.
- Alexa & Ring: Hệ sinh thái nhà thông minh của Amazon cũng không miễn nhiễm. Các lệnh thoại Alexa không hoạt động, và camera và chuông cửa an ninh Ring hiển thị “lỗi kết nối”, gây gián đoạn thói quen hàng ngày cho hàng triệu người phụ thuộc vào các thiết bị này để tự động hóa và an ninh nhà.
- Dịch vụ Tài chính & Ngân hàng: Các nền tảng tài chính quan trọng đã đối mặt với sự gián đoạn, bao gồm Venmo ở Mỹ và một số ngân hàng lớn ở Anh như Lloyds Bank, Halifax, và Bank of Scotland, gây lo ngại về việc xử lý thanh toán và truy cập vào quỹ.
- Ứng dụng Xã hội & Hẹn hò: Pinterest đã trải qua sự ngừng hoạt động hoàn toàn, chào đón người dùng bằng các thông báo lỗi kỹ thuật, trong khi ứng dụng hẹn hò Hinge cũng gặp phải các vấn đề phổ biến, dẫn đến một “Thứ Hai yên tĩnh” đối với nhiều người tìm kiếm mối quan hệ.
- Giáo dục & Năng suất: Các nền tảng học tập như Canvas by Instructure, quan trọng đối với sinh viên đại học và học sinh K-12, bị ảnh hưởng nghiêm trọng, cản trở việc tiếp cận tài liệu và bài tập của khóa học. Các công cụ năng suất như Slack và Zoom cũng báo cáo tỷ lệ lỗi gia tăng.
- Trò chơi & Giải trí: Game thủ cũng cảm nhận được tác động, với Roblox, Fortnite và PlayStation Network gặp sự gián đoạn. Ngay cả trò chơi chữ hàng ngày phổ biến Wordle, được lưu trữ trên trang web trò chơi của New York Times, cũng gặp vấn đề đăng nhập, đe dọa chuỗi chiến thắng yêu thích của người chơi.
- Phát trực tuyến & Thể dục: Dịch vụ phát nhạc Tidal đối mặt với các vấn đề đáng kể về ứng dụng và trang web, phá hỏng các danh sách nhạc sáng thứ Hai. Những người đam mê thể dục sử dụng Strava cũng gặp hiệu suất chậm và lỗi tải lên hoạt động của họ.
- Các khác đáng chú ý: Chime (ngân hàng di động) và ứng dụng Starbucks (để đặt trước và thưởng) cũng ghi nhận sự gia tăng đáng kể trong các báo cáo về sự cố.
Làm rõ Nguồn gốc Kỹ thuật: DNS & Hệ thống con Nội bộ
Ban đầu, AWS xác định vấn đề liên quan đến việc phân giải DNS của điểm cuối API DynamoDB trong Khu vực US-EAST-1. DynamoDB là một dịch vụ cơ sở dữ liệu NoSQL quan trọng, được vô số ứng dụng phụ thuộc nặng nề. Sau này, nguyên nhân gốc rễ được thu hẹp lại thành một hệ thống con nội bộ chịu trách nhiệm giám sát bộ cân bằng tải mạng, ảnh hưởng đến việc khởi chạy phiên bản EC2 (Elastic Compute Cloud) và quá trình gọi Lambda. AWS bắt đầu giới hạn tốc độ yêu cầu đối với các phiên bản EC2 mới để hỗ trợ khôi phục, điều này lại góp phần vào các sự gián đoạn dịch vụ đang diễn ra.
Tác động Tài chính Khổng lồ và Những trở ngại Bồi thường
Tác động kinh tế của sự cố này là vô cùng lớn. Các ước tính ban đầu cho thấy chi phí là 75 triệu đô la mỗi giờ đối với các trang web lớn vẫn ngoại tuyến, với Amazon tự chiếm một phần đáng kể trong những tổn thất này. Các doanh nghiệp như Snapchat, Zoom, Roblox và Reddit được dự kiến sẽ mất hàng trăm nghìn đô la mỗi giờ về doanh thu và năng suất.
Tuy nhiên, các chuyên gia pháp lý nhấn mạnh rằng việc bồi thường toàn bộ cho những tổn thất này có thể là một thách thức. Các thỏa thuận cấp dịch vụ AWS tiêu chuẩn thường cung cấp các dịch vụ tín dụng danh nghĩa cho thời gian ngừng hoạt động, thường không đủ để bù đắp thiệt hại về danh tiếng hoặc doanh thu mất đi. Nhiều chính sách bảo hiểm mạng thậm chí có thể không kích hoạt trừ khi sự ngừng hoạt động kéo dài hơn tám giờ, cho thấy một khoảng cách tiềm tàng giữa rủi ro vận hành và phản ứng bảo hiểm.
Các nỗ lực Phục hồi của AWS: Một Tăng trưởng Chậm nhưng Ổn định
Trong suốt cả ngày, các kỹ sư AWS đã làm việc chăm chỉ trên “nhiều đường song song để đẩy nhanh quá trình phục hồi”. Các bản cập nhật từ bảng điều khiển AWS chi tiết việc áp dụng “nhiều biện pháp giảm thiểu trên nhiều Khu vực có sẵn” trong khu vực US-EAST-1. Trong khi các dấu hiệu phục hồi được ghi nhận, đặc biệt là với “những dấu hiệu phục hồi đáng kể” và “hầu hết các yêu cầu giờ đây nên thành công”, quá trình này diễn ra một cách từ từ. Các lỗi gia tăng đối với việc khởi chạy phiên bản EC2 mới và độ trễ khi thăm dò Lambda tiếp tục được báo cáo, cho thấy việc phục hồi hoàn toàn sẽ mất thời gian.
Không phải là Tấn công mạng: Sự trấn an Giữa sự Gián đoạn
Trong những khoảnh khắc của sự gián đoạn Internet trên diện rộng, lo ngại về các cuộc tấn công mạng tự nhiên nảy sinh. Tuy nhiên, AWS và các chuyên gia an ninh nhanh chóng làm rõ rằng sự cố này là do vấn đề cơ sở hạ tầng nội bộ. Rafe Pilling, Giám đốc Trí tuệ Mối đe dọa tại Sophos, bình luận rằng “dường như đây là một vấn đề CNTT ở phía cơ sở dữ liệu và họ sẽ làm việc để khắc phục nó như một ưu tiên tuyệt đối”. Sự phân biệt này đã giúp giảm bớt lo ngại về sự can thiệp độc hại bên ngoài.
Bài học từ Động đất Đám mây: Những lo ngại về Phụ thuộc Quá mức
Quy mô khổng lồ của sự cố AWS, ảnh hưởng đến hơn 1.000 công ty và tạo ra hàng triệu báo cáo về thời gian ngừng hoạt động, nhấn mạnh sự phụ thuộc sâu sắc của Internet hiện đại vào một số ít nhà cung cấp cơ sở hạ tầng đám mây lớn. Như Steve Sandford từ CyXcel đã lưu ý, “tác động đang gia tăng do sự phụ thuộc ngày càng mở rộng vào cơ sở hạ tầng đám mây. Sự yếu điểm này càng trầm trọng hơn do thực tế là thị trường đám mây thống trị bởi một số ít người chơi”. Mặc dù sự tiện lợi và khả năng mở rộng của dịch vụ đám mây là không thể phủ nhận, những sự kiện như vậy chắc chắn đặt ra câu hỏi về khả năng phục hồi và các điểm yếu tiềm tàng trong hệ sinh thái số ngày càng liên kết của chúng ta.
Sau gì? Những Tác động còn Dang dẳng và Phục hồi Hoàn toàn
Khi tình hình dần được cải thiện, nhiều dịch vụ dần khôi phục chức năng, mặc dù các vấn đề gián đoạn và hiệu suất kém vẫn tiếp diễn đối với một số. AWS tiếp tục áp dụng “các bước giảm thiểu” và cung cấp bản cập nhật, cho thấy các nỗ lực đang diễn ra hướng tới việc phục hồi hoàn toàn. Sự kiện này là một lời nhắc nhở rõ ràng về vai trò nền tảng của điện toán đám mây trong cuộc sống hàng ngày của chúng ta và sự mong manh của ngay cả cả những hệ sinh thái số mạnh mẽ nhất.