Peristiwa Outage Besar yang Mengganggu Layanan Internet Global
Pada hari Selasa (18/11/2025), Cloudflare, penyedia layanan keamanan dan CDN terkemuka, mengalami gangguan besar yang memengaruhi layanan internet secara global. Gangguan ini menyebabkan beberapa situs besar seperti X.com mengalami penurunan kinerja atau bahkan tidak dapat diakses.
CEO Cloudflare, Matthew Prince, mengungkapkan bahwa penyebab utama dari peristiwa ini adalah perubahan izin pada sistem database. Awalnya, insiden ini disangka sebagai serangan DDoS berskala besar. Namun, setelah investigasi lebih lanjut, ditemukan bahwa perubahan tersebut menyebabkan database menghasilkan entri ganda dalam “feature file” yang digunakan oleh sistem Bot Management Cloudflare.
File ini berisi informasi tentang aktivitas bot berbahaya dan didistribusikan ke infrastruktur routing. Akibatnya, ukuran file tersebut meningkat dua kali lipat melebihi batas yang ditetapkan, sehingga memicu kegagalan perangkat lunak. Insiden ini dimulai sekitar pukul 11:20 UTC ketika Cloudflare sedang melakukan pembaruan manajemen izin pada klaster database ClickHouse.
Perubahan izin ini dimaksudkan untuk memberikan akses ke data dan metadata underlying. Namun, query yang salah mengembalikan informasi tambahan, sehingga membuat file tersebut membengkak. Data buruk hanya dihasilkan jika query berjalan pada bagian klaster yang telah diperbarui, menyebabkan propagasi file baik dan buruk secara bergantian.
Proses Pemulihan dan Tindakan yang Diambil
Kondisi semakin tidak stabil sekitar pukul 13:00 UTC, menyebabkan outage persisten bagi pelanggan. Dampaknya termasuk kesalahan HTTP 5xx, peningkatan latensi pada CDN, serta gangguan pada layanan seperti Workers KV, Cloudflare Access, dan Dashboard. Semua layanan ini sangat bergantung pada proxy inti.
Cloudflare akhirnya berhasil mengidentifikasi sumber masalah dan menghentikan generasi serta propagasi file buruk pada pukul 14:24 UTC. Mereka secara manual memasukkan file baik ke antrian distribusi dan memaksa restart proxy inti agar hanya membaca file yang valid. Trafik kembali normal sekitar pukul 14:30 UTC, meski masih ada masalah downstream pada sistem dependen.
Tanggung Jawab dan Tindakan Perbaikan
Matthew Prince meminta maaf atas insiden yang ia sebut “tidak dapat diterima”, menekankan bahwa outage ini adalah yang terburuk sejak 2019. Perusahaan berencana melakukan empat langkah perbaikan, yaitu:
- Memperkuat ingest file konfigurasi seperti input pengguna
- Mengaktifkan lebih banyak kill switch global
- Menghilangkan kemampuan core dumps yang membanjiri sumber daya
- Meninjau mode kegagalan pada modul proxy inti
Dampak Ekonomi dan Kerugian
Outage besar Cloudflare diperkirakan mencapai miliaran dolar AS secara global. Berdasarkan analisis industri dan sejumlah sumber, potensi kerugian ekonomi akibat gangguan ini diperkirakan antara US$5 miliar hingga US$15 miliar per jam. Hal ini karena Cloudflare melayani ribuan perusahaan besar dan situs kritis di seluruh dunia.
Outage ini berlangsung sekitar 4 jam, sehingga estimasi total kerugian bisa mencapai US$20 miliar hingga US$60 miliar. Selain itu, Cloudflare sendiri mengalami penurunan kapitalisasi pasar sekitar 1,8 miliar dolar AS akibat anjloknya harga saham hingga 3,9 persen setelah insiden ini.
Di tingkat pelanggan, bisnis berskala menengah hingga besar—yang sangat bergantung pada layanan cloud—umumnya menderita kehilangan rata-rata US$300.000 per jam. Hingga hampir setengah dari perusahaan besar melaporkan kerugian lebih dari US$1 juta per jam selama downtime.
