Yapay Sinir Ağları ve Gradyan İniş: Modern Derin Öğrenmenin Matematik Kalbi
ChatGPT, Google Translate, otonom arabalar, yüz tanıma, tıbbi teşhis yardımcıları — son 10 yılda yapay zekânın patlamasının arkasında tek bir matematik fikri var: derin sinir ağları + gradyan iniş ile eğitim. Sade ama olağanüstü güçlü bir matematik.

2010'larda yapay zekâ dünyası bir patlama yaşadı. ImageNet yarışmasında derin sinir ağları görüntü tanımada insan performansını geçti (2015). AlphaGo, dünyanın en iyi Go oyuncusunu yendi (2016). ChatGPT (2022) ve GPT-4 (2023), insan benzeri metin üreten yapay zekâlar haline geldi. Otonom arabalar, yüz tanıma, tıbbi teşhis yardımcıları — hepsi 2010-2024 arası mucize gibi göründü.
Bu patlamanın arkasında tek bir matematik fikri var: derin yapay sinir ağları, gradyan iniş ile eğitilir.
Sade ama olağanüstü güçlü bir matematik.
Bir sinir ağı nedir?
Modern yapay sinir ağı, biyolojik beyin sinirinden esinlenir ama matematiği çok daha sadedir.
Bir tek yapay sinir (perceptron), aldığı giriş sinyallerini ağırlıkla çarpıp toplar, bir aktivasyon fonksiyonundan geçirir:
Burada girişler, ağırlıklar, bias, aktivasyon fonksiyonu (sigmoid, ReLU vb.).
Bir sinir ağı, bu sinirlerin katmanlar halinde birleştirilmesidir: giriş katmanı → gizli katmanlar → çıkış katmanı. Her katmanın çıkışı, bir sonraki katmanın girişidir.
"Derin" kelimesi, birden çok gizli katman olması anlamına gelir. Modern derin ağlar 100'den fazla katmana sahip olabilir.
Eğitim: kalbin matematik atıştırması
Bir sinir ağı öğrenmek demek, doğru ağırlıkları bulmak demektir. Eğitim sırasında ağa pek çok örnek gösterilir (örneğin etiketli görüntüler); ağ, ağırlıklarını çıkışın istenen değere yakın olacak şekilde ayarlar.
Bu ağırlık ayarlama, modern yapay zekânın matematik kalbidir. Süreç şudur:
- Bir örnek girişi ağa ver.
- Ağın çıkışını hesapla (forward pass).
- Çıkışın doğru cevabından ne kadar uzak olduğunu ölç (kayıp fonksiyonu — loss function).
- Kayıpın her ağırlığa göre türevini hesapla (gradyan).
- Her ağırlığı, gradyanın ters yönünde küçük bir adım güncelle.
Bu son adım, gradyan iniş (gradient descent) algoritmasıdır.
Gradyan iniş: bir dağdan iniş
Gradyan iniş için klasik sezgi: dağda kaybolmuş ve aşağı inmek isteyen bir yürüyücü olun. Her adımda en dik aşağı yönüne doğru git. Sonunda bir vadiye (yerel minimuma) ulaşırsın.
Matematiksel olarak: bir fonksiyon verildiğinde, 'nin minimumunu bulmak için:
Burada gradyan (her boyuttaki türev), öğrenme oranı (learning rate).
Yapay sinir ağında bu, her bir ağırlık için kayıp fonksiyonunun türevini hesaplamaya dönüşür.
Backpropagation: gradyan zincir kuralı
Modern derin ağlarda milyonlarca ağırlık vardır. Her birini tek tek elde türetmek imkânsızdır. Backpropagation (geri yayılım) algoritması, kalkülüsün zincir kuralını kullanarak tüm gradyanları verimli biçimde hesaplar.
Zincir kuralı: eğer ise, . Çok katmanlı bir sinir ağında, kayıp fonksiyonunun bir ağırlığa göre türevi, çıkıştan girişe doğru zincir kuralının tekrarlanan uygulamasıdır.
Backpropagation 1986'da David Rumelhart, Geoffrey Hinton, Ronald Williams tarafından yayımlandı. Bu, modern derin öğrenmenin matematik temel taşıdır.
(Hinton, 2018'de Turing Ödülü ve 2024'te Nobel Fizik Ödülü aldı — yapay zekânın matematik gelişimine yaptığı katkılar için.)
Niçin "derin" çalışıyor?
1960'lardan beri sinir ağları bilinir. Ama 2010'lara kadar derin ağlar pratikte çalışmıyordu. 3-4 katmandan sonra eğitim bozuluyordu.
Üç sebep 2010'larda değişti:
- Veri: İnternet, milyonlarca etiketli görüntü, metin, ses sağladı (ImageNet, Wikipedia, YouTube).
- Donanım: GPU'lar (grafik işlemcileri), paralel matris çarpımları için olağanüstü verimli; bir GPU saniyede trilyonlarca çarpma yapar.
- Algoritmik gelişmeler: ReLU aktivasyon fonksiyonu, dropout, batch normalization, Adam optimizer, gibi yenilikler eğitimi stabilleştirdi.
Bu üç şey birleşince, eğitim mümkün hale geldi. 2012'de AlexNet, ImageNet yarışmasında devasa bir üstünlükle birinci oldu; modern derin öğrenme dönemini başlattı.
Modern derin öğrenme mimarileri
Sinir ağı tek tip değil; problem türüne göre farklı mimariler:
CNN (Konvolüsyonel Sinir Ağı)
Görüntü işleme için. Konvolüsyon operasyonu (resim filtreleri gibi), nesneleri tanımak için kullanılır. Yann LeCun öncüsü, 1980'lerden beri var; ama 2012'de AlexNet ile patlama yaşadı.
Uygulamalar: yüz tanıma, otonom araçlar, tıbbi görüntü analizi (tümör tespiti).
RNN ve LSTM (Tekrarlayan Sinir Ağı)
Sıralı veri (metin, ses, zaman serileri) için. Her zaman adımının çıkışı, bir sonraki zaman adımının girişine "bellek" olarak verilir. LSTM (Long Short-Term Memory, 1997, Hochreiter-Schmidhuber), uzun bağlamı hatırlama özelliği ekler.
Uygulamalar: makine çevirisi (eski), konuşma tanıma, sıralı tahmin.
Transformer
2017'de Google'dan "Attention is All You Need" makalesi ile tanıtıldı. Attention (dikkat) mekanizması, bir kelimenin diğer kelimelerle "ilişkisini" hesaplar. Modern dil modelleri (GPT, BERT, Claude) Transformer tabanlıdır.
Uygulamalar: ChatGPT, makine çevirisi, kod üretme, görüntü üretme (DALL-E, Stable Diffusion).
GAN (Üretken Karşıt Ağlar)
2014'te Ian Goodfellow önerdi. İki sinir ağı yarışıyor: biri sahte örnekler üretiyor, diğeri "gerçek mi sahte mi" diye karar veriyor. Sonuçta üretken model çok gerçekçi sahte örnekler üretmeyi öğreniyor.
Uygulamalar: deepfake videolar, sanat üretimi, eski fotoğrafları renklendirme.
Diffusion Modeller
2020'lerin başında öne çıktı. Görüntülere kontrollü gürültü ekleme ve sonra geri çıkarma süreciyle yeni görüntüler üretir. Modern görüntü üretici AI (DALL-E 3, Midjourney, Stable Diffusion) tabanı.
ChatGPT'nin matematiği
Modern büyük dil modelleri (LLM) hakkında basit bir not. GPT-3'ün 175 milyar parametresi (ağırlık ve bias) vardır. GPT-4'ün muhtemelen 1 trilyon. Eğitim için internet boyutunda veri kullanılır (web sayfaları, kitaplar, kod).
Her bir kelime tahmini için, bu trilyonlarca parametre üzerinde matris çarpımı yapılır. Bir cevap üretmek için yüzlerce matris çarpımı.
GPU'lar olmasa, modern LLM'ler imkânsızdı. NVIDIA gibi şirketler, ekonomik olarak 2010'larda makine öğrenmesi devrimi sayesinde trilyon dolar değerinde hale geldi.
Sınırlar ve sorunlar
Modern derin öğrenme olağanüstü güçlü ama mükemmel değil:
- Yorumlanabilirlik: Bir derin ağ "neden" bu cevabı verdiğini açıklamak zordur (kara kutu sorunu).
- Veri gereksinimi: Çok büyük veri setleri gerekir; küçük veri ile zayıf performans.
- Adversarial saldırılar: Bir görüntüye fark edilemeyen küçük değişiklikler eklenirse ağ tamamen yanlış sonuç verebilir.
- Hesaplama maliyeti: GPT-4 eğitimi yüz milyon dolar mertebesinde.
- Halüsinasyon: LLM'ler bazen tamamen yanlış ama emin görünen cevaplar üretir.
- Etik ve yanlılık: Eğitim verisindeki yanlılıklar modele yansır.
Bir hayat dersi
Modern yapay zekânın hikâyesi, "doğru zamanda doğru matematik araç" sezgisinin gücüne dair önemli bir derstir. Sinir ağı fikri 60 yaşında. Gradyan iniş fikri 170 yıllık (Cauchy, 1847). Backpropagation 40 yıllık. Ama bu üçü birlikte, yeterli veri ve hesaplama gücü ile birleşince, 2010'larda dünyayı değiştirdi.
Daha geniş bir hayat dersi: basit matematik fikirleri, doğru bağlamda olağanüstü etkili olabilir. Modern AI bir devrim, sıra dışı yeni matematik buluşları olmadan; uzun zamandır bilinen tekniklerin yeni veri ve donanımla birleşmesi.
Bir sonraki sefer ChatGPT ile konuşurken, ya da Google Translate kullandığınızda, ya da telefonunuzun yüzünüzü tanıdığında, ya da Spotify'ın size yeni bir şarkı önerdiğinde — perde arkasında gradyan iniş ile eğitilmiş trilyonlarca matematiksel ağırlığın çalıştığını hatırlayabilirsiniz. Yapay zekâ, modern matematiğin en görkemli pratik uygulamasıdır.
Etiketler
Kendinizi Test Edin
Cevaplarınız profilinizde istatistik olarak saklanır.
1. Yapay sinir ağı eğitimi temelinde hangi optimizasyon algoritmasını kullanır?
2. Backpropagation algoritması neye dayanır?
3. 2010'larda derin öğrenme patlamasını mümkün kılan üç ana etken nedir?
4. 2017'de tanıtılan ve modern dil modellerinin (GPT, BERT) temelini oluşturan mimari nedir?
5. Modern derin öğrenmenin önemli sınırlamalarından biri nedir?
İlgili Yazılar
Sekreter Problemi: Hayatın En İyi Seçimini Yapmak için "%37 Kuralı"
Bir işe alma görüşmesi, bir ev arama süreci, hatta hayat arkadaşı seçimi… Hepsinin altında aynı klasik matematik problemi yatar. Cevap şaşırtıcı biçimde tek bir sayıya bağlıdır: %37.
MatematikPisagor Teoremi ve Saklı Bir Sır: İrrasyonel Sayılar Nasıl Keşfedildi?
Dik üçgenlerle ilgili o ünlü kural, aynı zamanda matematik tarihinin en sarsıcı keşfine yol açtı: kesir olarak yazılamayan sayılar. Üstelik bu keşif, bir bilim topluluğunu temellerinden sarstı.
MatematikFibonacci Dizisi ve Altın Oran: Tavşanlardan Ayçiçeklerine Uzanan Örüntü
Bir tavşan üretme bilmecesiyle başlayan basit bir sayı dizisi, ayçiçeği tohumlarından çam kozalaklarına, deniz kabuklarından galaksilere kadar doğanın her yerinde nasıl karşımıza çıkıyor?