7 bài học rút ra từ sự cố CrowdStrike

Thứ năm - 25/07/2024 16:39 1.759 0

Sự cố CrowdStrike xảy ra mới đây là một lời cảnh tỉnh cho các công ty, chính phủ và ngành công nghệ. Và các đội ngũ CNTT có thể học được điều gì từ thảm họa cập nhật phần mềm đã gây chấn động này?

Khi nhà cung cấp an ninh mạng CrowdStrike tung ra bản cập nhật cho dịch vụ Falcon của mình ngày 19/7, nó đã khiến hàng triệu máy tính trên toàn thế giới bị sập và sự cố này được coi là "sự cố CNTT tin lớn nhất lịch sử".

Hệ thống mạng của nhiều tổ chức trên toàn cầu bị sập bất ngờ khiến nhiều người đặt câu hỏi: Tại sao chỉ một bản cập nhật lại khiến nhiều doanh nghiệp (DN) và cơ quan sụp đổ trong khoảng thời gian ngắn như vậy? Và từ sự cố này, đội ngũ CNTT đã rút ra được những bài học gì cho mình?

Dưới đây là 7 bài học rút ra sau thảm họa CrowdStrike theo chia sẻ của ông Steven J. Vaughan-Nichols – một chuyên gia chuyên viết về lĩnh vực công nghệ.

1. “Độc canh” rất nguy hiểm

Theo số liệu thống kê của Microsoft, sự cố này ảnh hưởng chưa đến 1% - tương đương khoảng 8,5 triệu thiết bị sử dụng phần mềm Windows trên toàn thế giới. Nhưng những con số này không nói lên toàn bộ câu chuyện.

Theo số liệu của công ty phân tích dữ liệu kinh doanh 6sense.com, CrowdStrike là công ty bảo mật điểm cuối kinh doanh hàng đầu với hơn 3.500 khách hàng, trong đó có rất nhiều công ty, DN lớn. Do đó, sự cố lần này đã gây gián đoạn hoạt động trên nhiều hệ thống lớn như sân bay, ngân hàng và trên diện rộng tại nhiều quốc gia trên thế giới.

Microsoft cho biết, mặc dù tỷ lệ phần trăm ảnh hưởng còn nhỏ nhưng tác động kinh tế và xã hội lớn, do các DN đã ứng dụng vào nhiều dịch vụ quan trọng của mình.

“Quy mô của sự cố ngừng hoạt động này làm nổi bật những rủi ro liên quan đến việc quá phụ thuộc vào một hệ thống hoặc nhà cung cấp duy nhất”, Mark Boost, CEO công ty điện toán đám mây Civo cho biết trong một chia sẻ với báo chí. “Đây là lời nhắc nhở nghiêm túc rằng quy mô và danh tiếng không đảm bảo khả năng miễn nhiễm với các vấn đề kỹ thuật quan trọng hoặc vi phạm bảo mật. Ngay cả những công ty lớn nhất và lâu đời nhất cũng phải cảnh giác, liên tục cập nhật và bảo mật hệ thống của mình”.

2. Mã xấu là mã nguy hiểm

Theo một nhận định được đề xuất trên X bởi Evis Drenova, CEO của NeoSync, một công ty công cụ dành cho nhà phát triển, nguyên nhân cốt lõi của bản cập nhật bảo mật thảm họa cho chương trình Falcon Sensor là lỗi con trỏ null trong mã C++. Tuy nhiên, CrowdStrike dường như đã phủ nhận điều này.

Tavis Ormandy, nhà nghiên cứu lỗ hổng bảo mật nổi tiếng của Google, cũng không đồng tình với nhận định này thông qua một dòng tweet trên X. Ormandy và Patrick Wardle, người sáng lập trang web bảo mật Mac và bộ công cụ Objective-See nghi ngờ rằng sự cố này thuộc về lỗi logic.

Cuối cùng, chúng ta sẽ tìm ra chính xác điều gì đã xảy ra, nhưng không nghi ngờ gì nữa, đoạn mã tệ hại này lẽ ra không bao giờ được chuyển đến khách hàng.

3. Đảm bảo chất lượng là điều cần thiết

Vấn đề này bắt đầu từ CrowdStrike. Làm thế nào mà nhóm đảm bảo chất lượng (QA) của công ty lại có thể cho ra mắt bản cập nhật này là một câu hỏi có thể sẽ khiến nhiều người sớm bị sa thải. Tuy nhiên, họ không phải là những người duy nhất phải chịu trách nhiệm về bước đi dẫn tới thảm họa này.

Eric O’Neill, cựu nhân viên chống khủng bố và phản gián của FBI, hiện là một chuyên gia an ninh mạng độc lập, cho rằng vấn đề của CrowdStrike là vội triển khai hàng loạt, thay vì thử nghiệm trước trên một nhóm nhỏ.

"Đó không phải ý tưởng hay. Cần có nhiều cấp độ kiểm soát chất lượng mà mỗi phần mềm phải trải qua", O’Neill nhấn mạnh.

Peter Avery, Phó Chủ tịch phụ trách bảo mật của Visual Edge IT, có chung quan điểm tương tự. "Công nghệ này phải được thử nghiệm trong nhiều môi trường trước khi đưa vào sử dụng", Avery nói.

Như Konstantin Klyagin, nhà sáng lập của Redwerk và QAwerk, cả hai đều là các công ty phát triển phần mềm và QA, đã chia sẻ, “Kiểm thử tự động đảm bảo rằng ngay cả những thay đổi nhỏ cũng không gây ra lỗi mới. Điều này đặc biệt quan trọng đối với các bản cập nhật quy mô lớn, như bản cập nhật từ CrowdStrike, khi mà kiểm thử thủ công sẽ là không đủ”.

Có phải nhiều tổ chức thực sự đã thất bại ở bước cơ bản này không? Một số người cho rằng CrowdStrike phải chịu trách nhiệm vì bản vá bảo mật này "là một bản cập nhật bỏ qua các biện pháp kiểm soát của khách hàng và đã được triển khai cho tất cả khách hàng bất kể họ có muốn hay không".

Bằng cách bỏ qua các biện pháp kiểm soát triển khai của khách hàng, nhiều công ty đã bị thiệt hại. Điều này là hoàn toàn có khả năng xảy ra vì rất nhiều DN đã bị ảnh hưởng bởi lỗi này. Một lần nữa, vấn đề đặt ra vẫn là: "Tại sao lại để một bản vá quan trọng như vậy được triển khai mà không có sự kiểm soát chặt chẽ?"

Dù đã nhận trách nhiệm, song đến nay CrowdStrike vẫn chưa công bố cụ thể nguyên nhân sự cố. Nhiều chuyên gia an ninh mạng chỉ ra rằng CrowdStrike và các DN an ninh mạng khác đã bỏ qua những quy định kiểm soát chất lượng cơ bản nhằm rút ngắn thời gian cho ra các bản cập nhật, từ đó tăng uy tín và lợi nhuận cho công ty.

crowstrike — *Sự cố CrowdStrike đã khiến hàng triệu máy tính trên toàn thế giới bị sập và sự cố này được coi là "sự cố CNTT tin lớn nhất lịch sử".*

4. Triển khai theo từng giai đoạn để tránh thảm họa

Một vấn đề liên quan đến sản xuất là nhiều tổ chức đã đồng thời triển khai các bản cập nhật cho tất cả các hệ thống của họ. Đây là một sai lầm cơ bản; điều đó đang lẽ không nên xảy ra, nhưng chúng ta vẫn thường xuyên gặp phải.

Đã có những lập luận phản đối việc triển khai theo giai đoạn - người dùng có thể bị nhầm lẫn khi các nhóm khác nhau làm việc với các phiên bản khác nhau. Nhưng đối với các hệ thống quan trọng mà lỗi là không thể chấp nhận được, bạn cần phải hết sức thận trọng với bất kỳ nâng cấp nào.

Ngoài ra, có nhiều cách để thực hiện triển khai theo từng giai đoạn. Hãy chọn một cách phù hợp nhất với tổ chức, DN của mình, và cần lưu ý là không đặt tất cả các bản nâng cấp vào một giỏ lớn duy nhất.

Bên cạnh đó, các quy trình khôi phục mạnh mẽ là điều cần thiết để quay lại phiên bản ổn định nếu có vấn đề phát sinh. Bạn có muốn chỉ cần nhấn một nút và khôi phục lại hệ thống đang hoạt động không? Chắc hẳn hàng chục nghìn nhân viên công nghệ thông tin (IT) đang mong muốn điều đó ngay bây giờ.

5. Phục hồi và sao lưu sau sự cố là điều cần phải có

Điều này là hiển nhiên, nhưng các tổ chức, DN phải có kế hoạch phục hồi sau thảm họa và các bản sao lưu tin cậy.

“Tôi đã nói chuyện với một số giám đốc bảo mật thông tin (CISO) và giám đốc chiến lược (CSO) đang cân nhắc kích hoạt giao thức khôi phục từ bản sao lưu thay vì khởi động thủ công từng máy tính vào chế độ an toàn, tìm tệp CrowdStrike gây lỗi, xóa tệp đó và khởi động lại vào Windows bình thường”, Eric O'Neill, một diễn giả và chuyên gia bảo mật chia sẻ. “Các công ty chưa đầu tư vào các giải pháp sao lưu nhanh đang mắc kẹt trong tình thế tiến thoái lưỡng nan”.

Đúng vậy, trong thời đại điện toán đám mây, việc khắc phục thảm họa và sao lưu không còn đơn giản như trước nữa. Nhưng chúng cực kỳ quan trọng. Và trong trường hợp này, các phương pháp sao lưu và khắc phục sau thảm họa kiểu cũ sẽ là một trợ giúp lớn.

6. Cần tăng cường giám sát và ứng phó sự cố

Quy mô toàn cầu của sự cố làm nổi bật sự cần thiết của các công cụ giám sát tiên tiến và các kế hoạch ứng phó sự cố mạnh mẽ. Các hệ thống giám sát và cảnh báo theo thời gian thực cần được triển khai để phát hiện vấn đề khi chúng xảy ra. Đội ngũ CNTT nên phát triển các kế hoạch ứng phó sự cố chi tiết với các giao thức rõ ràng để nhận diện, cô lập và giải quyết vấn đề nhanh chóng. Những kế hoạch này nên bao gồm phân tích nguyên nhân gốc rễ và đánh giá sau sự cố để liên tục cải thiện các chiến lược ứng phó.

Spencer Kimball, Giám đốc điều hành kiêm đồng sáng lập của Cockroach Labs, cho biết: “Việc giải quyết những thách thức của kỷ nguyên số ngày nay đòi hỏi các DN phải có các chiến lược chủ động và thiết thực để giảm thiểu sự cố và đảm bảo khả năng phục hồi”.

Ông nói thêm: “Sự cố không phải là vấn đề mà chúng ta sẽ giải quyết triệt để. Môi trường đám mây ngày càng phức tạp và kết nối với nhau hơn. Sự phức tạp về quy mô này sẽ tiếp tục làm tăng rủi ro, đặc biệt là đối với các DN vẫn đang trong giai đoạn đầu áp dụng đám mây. Việc giám sát và cảnh báo liên tục là điều cần thiết để phát hiện và giải quyết các vấn đề trước khi chúng lan rộng”.

Nhận định của Kimball đã được Anthony Falco, Phó Chủ tịch của Hydrolix, một công ty nghiên cứu về hiệu suất truy vấn thời gian thực, đồng tình.

Trong email gửi tới The New Stack, Falco nhấn mạnh: “Sự cố ngừng hoạt động lớn này nhấn mạnh thực tế mới mà các công ty phải đối mặt: Các nền tảng phần mềm được phân phối toàn cầu thúc đẩy hoạt động kinh doanh ngày nay là một mạng lưới phức tạp gồm các mối quan hệ phụ thuộc lẫn nhau,... Một sai lầm nhỏ có thể thực sự làm tê liệt hoạt động kinh doanh toàn cầu”.

“Chúng ta cần một cách tiếp cận mới đối với khả năng quan sát - một cách tiếp cận theo thời gian thực và có thể đơn giản hóa việc quản lý lượng dữ liệu khổng lồ từ nhiều nguồn khác nhau để có thể phát hiện và giảm thiểu các sự cố trước khi chúng lan rộng”, Falco khuyến nghị.

7. Hãy chuẩn bị ngay từ bây giờ cho lần tiếp theo

Sự cố CrowdStrike/Windows là một lời nhắc nhở rõ ràng rằng ngay cả việc bảo trì định kỳ cũng có thể dẫn đến thảm họa nếu không được quản lý đúng cách. Nó nhấn mạnh bản chất kết nối của các hệ thống CNTT hiện đại và hậu quả sâu rộng của lỗi trong phần mềm được sử dụng rộng rãi.

Bằng cách rút kinh nghiệm từ sự cố này và triển khai các chiến lược quản lý rủi ro mạnh mẽ, các nhóm CNTT có thể chuẩn bị tốt hơn và giảm thiểu tác động của các sự cố tương tự trong tương lai./.

Tác giả: Tâm An

Nguồn tin: Tạp chí điện tử Thông tin và Truyền thông

Tags: công nghệ, sự cố, cảnh tỉnh, CrowdStrike