Sự cố xảy ra vào ngày 20/10 tại dịch vụ đám mây Amazon Web Services (AWS) đã khiến hàng nghìn doanh nghiệp và dịch vụ trực tuyến bị gián đoạn, ảnh hưởng đến người dùng trong nhiều lĩnh vực như y tế và tài chính. Tuy nhiên, đây vẫn chưa phải là sự cố nghiêm trọng nhất trên quy mô Internet mà ngành công nghệ từng chứng kiến. Với sự phát triển nhanh chóng của trí tuệ nhân tạo (AI) và việc ngày càng nhiều tổ chức phụ thuộc vào dịch vụ điện toán đám mây, nguy cơ các hệ thống quan trọng bị tê liệt bởi những sự cố tương tự trong tương lai là điều khó tránh khỏi, tiềm ẩn những hậu quả khôn lường.
Sự cố ngày 20/10 khiến nhiều người không thể thực hiện các thao tác cơ bản như đặt lịch khám bệnh hay truy cập ngân hàng trực tuyến. Nếu tình trạng này xảy ra với các công cụ AI hỗ trợ bác sĩ trong chẩn đoán hoặc các hệ thống tài chính tự động, mức độ thiệt hại sẽ rất lớn. Hiện nay, nhiều doanh nghiệp, trường học, bệnh viện và các tổ chức tài chính đang gia tăng mức độ phụ thuộc vào các “tác nhân AI” – những hệ thống có khả năng thay thế con người thực hiện công việc thông qua nền tảng điện toán đám mây.

Sự cố Amazon Web Services hôm 20/10 làm gián đoạn hoạt động của hơn 2.000 doanh nghiệp
Một khảo sát toàn cầu với gần 1.500 doanh nghiệp do McKinsey & Company thực hiện hồi tháng 5 cho thấy 78% công ty đã áp dụng AI vào ít nhất một lĩnh vực hoạt động, tăng mạnh so với năm trước. Điều này lý giải vì sao một sự cố tại nhà cung cấp dịch vụ đám mây lớn như AWS lại gây tác động rộng rãi đến hoạt động kinh doanh và dịch vụ công cộng. Giáo sư Tim DeStefano từ Đại học Georgetown cảnh báo nếu các hệ thống AI bị gián đoạn thì hiệu suất làm việc và quyết định sẽ chịu ảnh hưởng rõ rệt.
Nguyên nhân sự cố kéo dài do hàng nghìn doanh nghiệp dựa vào hạ tầng đám mây để vận hành máy chủ ảo, lưu trữ dữ liệu hay phát triển ứng dụng. Mô hình điện toán đám mây đem lại hiệu quả kinh tế và tính linh hoạt cao nhưng cũng tạo ra điểm yếu tập trung khi một nhà cung cấp gặp trục trặc. Dù vậy, xét trên quy mô toàn cầu, các nền tảng đám mây vẫn vận hành rất ổn định, chỉ những sự cố hiếm hoi mới làm nổi bật vấn đề về độ tin cậy cần được cải thiện.
AWS hiện chiếm khoảng 37% thị phần dịch vụ điện toán đám mây toàn cầu, phục vụ đa dạng khách hàng từ bán lẻ, nhà hàng cho tới ngân hàng và cơ quan chính phủ. Cùng với Microsoft và Google, ba ông lớn này kiểm soát gần 70% thị trường nền tảng cloud computing. Sự tập trung hóa hạ tầng Internet ngày càng lớn trong bối cảnh AI được ứng dụng rộng rãi hơn nữa khiến rủi ro gián đoạn hệ thống tăng lên đáng kể.
Chuyên gia Jacob Bourne của Emarketer nhận định ba “ông lớn” trên là những nhà cung cấp chủ đạo cho các ứng dụng AI khi nhu cầu thuê máy móc mạnh mẽ để xử lý khối lượng dữ liệu khổng lồ ngày càng tăng cao. Giáo sư DeStefano nhấn mạnh việc sử dụng điện toán đám mây là yêu cầu tất yếu để duy trì sức mạnh cho các hệ thống AI do phần cứng tại chỗ khó có thể mở rộng nhanh chóng theo nhu cầu biến đổi liên tục.
Tuy nhiên, Bourne cảnh báo rằng khi số lượng doanh nghiệp dùng AI tăng mạnh, nguy cơ sự cố trở nên nghiêm trọng hơn bởi mô hình AI tiêu thụ năng lượng rất lớn. Các nhà cung cấp hàng đầu đang đầu tư hàng tỷ đô la xây dựng trung tâm dữ liệu mới để đáp ứng nhu cầu mở rộng không ngừng này. Nếu quá trình giao phó nhiều nhiệm vụ quan trọng cho AI tiếp tục gia tăng mà thiếu phương án dự phòng hiệu quả, nguy cơ sự cố gây hậu quả nghiêm trọng vẫn luôn tồn tại.
Hiện nay, nhiều doanh nghiệp bắt đầu áp dụng chiến lược đa nhà cung cấp đám mây nhằm nâng cao tính an toàn vận hành. Bên cạnh đó, các đối thủ nhỏ như Oracle hay CoreWeave tận dụng thế mạnh về dịch vụ chuyên biệt cho AI để tranh giành thị phần. Một số hãng công nghệ lớn khác như Meta hay OpenAI cũng đang đầu tư xây dựng trung tâm dữ liệu riêng nhằm giảm tải cho hệ thống chung và nâng cao độ ổn định.
Ngoài ra, xu hướng tối ưu mô hình AI để chạy trực tiếp trên thiết bị cá nhân như điện thoại hay máy tính nhằm giảm phụ thuộc hoàn toàn vào điện toán đám mây cũng đang nhận được sự chú ý lớn từ giới chuyên môn. Đặc biệt, AI còn được kỳ vọng trở thành công cụ hỗ trợ phát hiện và khắc phục lỗi bảo mật giúp ngăn chặn những sự cố kỹ thuật giống như vừa xảy ra với AWS nếu ngành công nghệ đầu tư bài bản hơn vào lĩnh vực này thay vì chỉ tập trung phát triển chatbot hay ứng dụng giải trí.
Jacob Bourne nhận xét rằng con đường để làm cho AI phục vụ con người một cách hiệu quả vẫn rõ ràng nhưng chúng ta vẫn chưa hoàn toàn đi đúng hướng về mặt chiến lược và đầu tư thích hợp. Những bài học từ sự cố Amazon Web Services hôm 20/10 là lời cảnh tỉnh cần thiết để ngành công nghệ nâng cao tính bền vững và tin cậy cho hạ tầng Internet trong kỷ nguyên số mới.