Yapay sinir ağı eğitimi temelinde hangi optimizasyon algoritmasını kullanır?

Gradyan iniş (backpropagation ile hesaplanan gradyanları kullanarak ağırlıkları küçük adımlarla günceller)

Backpropagation algoritması neye dayanır?

Kalkülüsün zincir kuralı — çıkıştan girişe doğru türev hesaplamalarını verimli biçimde yapar

Asal sayı çarpanlarına ayırma

2010'larda derin öğrenme patlamasını mümkün kılan üç ana etken nedir?

Büyük veri (ImageNet, internet), GPU'lar (paralel hesaplama), algoritmik gelişmeler (ReLU, dropout, Adam)

2017'de tanıtılan ve modern dil modellerinin (GPT, BERT) temelini oluşturan mimari nedir?

Transformer — "attention" (dikkat) mekanizmasına dayalı; "Attention is All You Need" Google makalesi

CNN — sadece görüntü için

GAN — sadece üretken modeller

Modern derin öğrenmenin önemli sınırlamalarından biri nedir?

Yorumlanabilirlik sorunu (kara kutu) — bir ağın "neden" bu cevabı verdiğini açıklamak zordur; ayrıca büyük veri ve hesaplama gücü gereksinimi

Sadece görüntü için çalışır

Tüm yazılar

Matematik7 Aralık 2025

Yapay Sinir Ağları ve Gradyan İniş: Modern Derin Öğrenmenin Matematik Kalbi

ChatGPT, Google Translate, otonom arabalar, yüz tanıma, tıbbi teşhis yardımcıları — son 10 yılda yapay zekânın patlamasının arkasında tek bir matematik fikri var: derin sinir ağları + gradyan iniş ile eğitim. Sade ama olağanüstü güçlü bir matematik.

Matematik Karavanı Editörü 8 dk okuma 5 soru

Sinir hücreleri görüntüsü — yapay sinir ağlarının biyolojik ilhamı

2010'larda yapay zekâ dünyası bir patlama yaşadı. ImageNet yarışmasında derin sinir ağları görüntü tanımada insan performansını geçti (2015). AlphaGo, dünyanın en iyi Go oyuncusunu yendi (2016). ChatGPT (2022) ve GPT-4 (2023), insan benzeri metin üreten yapay zekâlar haline geldi. Otonom arabalar, yüz tanıma, tıbbi teşhis yardımcıları — hepsi 2010-2024 arası mucize gibi göründü.

Bu patlamanın arkasında tek bir matematik fikri var: derin yapay sinir ağları, gradyan iniş ile eğitilir.

Sade ama olağanüstü güçlü bir matematik.

Bir sinir ağı nedir?

Modern yapay sinir ağı, biyolojik beyin sinirinden esinlenir ama matematiği çok daha sadedir.

Bir tek yapay sinir (perceptron), aldığı giriş sinyallerini ağırlıkla çarpıp toplar, bir aktivasyon fonksiyonundan geçirir:

$y = f\left( \sum_{i} w_i x_i + b \right)$

Burada $x_i$ girişler, $w_i$ ağırlıklar, $b$ bias, $f$ aktivasyon fonksiyonu (sigmoid, ReLU vb.).

Bir sinir ağı, bu sinirlerin katmanlar halinde birleştirilmesidir: giriş katmanı → gizli katmanlar → çıkış katmanı. Her katmanın çıkışı, bir sonraki katmanın girişidir.

"Derin" kelimesi, birden çok gizli katman olması anlamına gelir. Modern derin ağlar 100'den fazla katmana sahip olabilir.

Eğitim: kalbin matematik atıştırması

Bir sinir ağı öğrenmek demek, doğru ağırlıkları $w_i$ bulmak demektir. Eğitim sırasında ağa pek çok örnek gösterilir (örneğin etiketli görüntüler); ağ, ağırlıklarını çıkışın istenen değere yakın olacak şekilde ayarlar.

Bu ağırlık ayarlama, modern yapay zekânın matematik kalbidir. Süreç şudur:

Bir örnek girişi ağa ver.
Ağın çıkışını hesapla (forward pass).
Çıkışın doğru cevabından ne kadar uzak olduğunu ölç (kayıp fonksiyonu — loss function).
Kayıpın her ağırlığa göre türevini hesapla (gradyan).
Her ağırlığı, gradyanın ters yönünde küçük bir adım güncelle.

Bu son adım, gradyan iniş (gradient descent) algoritmasıdır.

Gradyan iniş: bir dağdan iniş

Gradyan iniş için klasik sezgi: dağda kaybolmuş ve aşağı inmek isteyen bir yürüyücü olun. Her adımda en dik aşağı yönüne doğru git. Sonunda bir vadiye (yerel minimuma) ulaşırsın.

Matematiksel olarak: bir fonksiyon $L(w)$ verildiğinde, $L$ 'nin minimumunu bulmak için:

$w_{\text{yeni}} = w_{\text{eski}} - \eta \cdot \nabla L(w_{\text{eski}})$

Burada $\nabla L$ gradyan (her boyuttaki türev), $\eta$ öğrenme oranı (learning rate).

Yapay sinir ağında bu, her bir ağırlık için kayıp fonksiyonunun türevini hesaplamaya dönüşür.

Backpropagation: gradyan zincir kuralı

Modern derin ağlarda milyonlarca ağırlık vardır. Her birini tek tek elde türetmek imkânsızdır. Backpropagation (geri yayılım) algoritması, kalkülüsün zincir kuralını kullanarak tüm gradyanları verimli biçimde hesaplar.

Zincir kuralı: eğer $y = f(g(x))$ ise, $\frac{dy}{dx} = f'(g(x)) \cdot g'(x)$ . Çok katmanlı bir sinir ağında, kayıp fonksiyonunun bir ağırlığa göre türevi, çıkıştan girişe doğru zincir kuralının tekrarlanan uygulamasıdır.

Backpropagation 1986'da David Rumelhart, Geoffrey Hinton, Ronald Williams tarafından yayımlandı. Bu, modern derin öğrenmenin matematik temel taşıdır.

(Hinton, 2018'de Turing Ödülü ve 2024'te Nobel Fizik Ödülü aldı — yapay zekânın matematik gelişimine yaptığı katkılar için.)

Niçin "derin" çalışıyor?

1960'lardan beri sinir ağları bilinir. Ama 2010'lara kadar derin ağlar pratikte çalışmıyordu. 3-4 katmandan sonra eğitim bozuluyordu.

Üç sebep 2010'larda değişti:

Veri: İnternet, milyonlarca etiketli görüntü, metin, ses sağladı (ImageNet, Wikipedia, YouTube).
Donanım: GPU'lar (grafik işlemcileri), paralel matris çarpımları için olağanüstü verimli; bir GPU saniyede trilyonlarca çarpma yapar.
Algoritmik gelişmeler: ReLU aktivasyon fonksiyonu, dropout, batch normalization, Adam optimizer, gibi yenilikler eğitimi stabilleştirdi.

Bu üç şey birleşince, eğitim mümkün hale geldi. 2012'de AlexNet, ImageNet yarışmasında devasa bir üstünlükle birinci oldu; modern derin öğrenme dönemini başlattı.

Modern derin öğrenme mimarileri

Sinir ağı tek tip değil; problem türüne göre farklı mimariler:

CNN (Konvolüsyonel Sinir Ağı)

Görüntü işleme için. Konvolüsyon operasyonu (resim filtreleri gibi), nesneleri tanımak için kullanılır. Yann LeCun öncüsü, 1980'lerden beri var; ama 2012'de AlexNet ile patlama yaşadı.

Uygulamalar: yüz tanıma, otonom araçlar, tıbbi görüntü analizi (tümör tespiti).

RNN ve LSTM (Tekrarlayan Sinir Ağı)

Sıralı veri (metin, ses, zaman serileri) için. Her zaman adımının çıkışı, bir sonraki zaman adımının girişine "bellek" olarak verilir. LSTM (Long Short-Term Memory, 1997, Hochreiter-Schmidhuber), uzun bağlamı hatırlama özelliği ekler.

Uygulamalar: makine çevirisi (eski), konuşma tanıma, sıralı tahmin.

Transformer

2017'de Google'dan "Attention is All You Need" makalesi ile tanıtıldı. Attention (dikkat) mekanizması, bir kelimenin diğer kelimelerle "ilişkisini" hesaplar. Modern dil modelleri (GPT, BERT, Claude) Transformer tabanlıdır.

Uygulamalar: ChatGPT, makine çevirisi, kod üretme, görüntü üretme (DALL-E, Stable Diffusion).

GAN (Üretken Karşıt Ağlar)

2014'te Ian Goodfellow önerdi. İki sinir ağı yarışıyor: biri sahte örnekler üretiyor, diğeri "gerçek mi sahte mi" diye karar veriyor. Sonuçta üretken model çok gerçekçi sahte örnekler üretmeyi öğreniyor.

Uygulamalar: deepfake videolar, sanat üretimi, eski fotoğrafları renklendirme.

Diffusion Modeller

2020'lerin başında öne çıktı. Görüntülere kontrollü gürültü ekleme ve sonra geri çıkarma süreciyle yeni görüntüler üretir. Modern görüntü üretici AI (DALL-E 3, Midjourney, Stable Diffusion) tabanı.

ChatGPT'nin matematiği

Modern büyük dil modelleri (LLM) hakkında basit bir not. GPT-3'ün 175 milyar parametresi (ağırlık ve bias) vardır. GPT-4'ün muhtemelen 1 trilyon. Eğitim için internet boyutunda veri kullanılır (web sayfaları, kitaplar, kod).

Her bir kelime tahmini için, bu trilyonlarca parametre üzerinde matris çarpımı yapılır. Bir cevap üretmek için yüzlerce matris çarpımı.

GPU'lar olmasa, modern LLM'ler imkânsızdı. NVIDIA gibi şirketler, ekonomik olarak 2010'larda makine öğrenmesi devrimi sayesinde trilyon dolar değerinde hale geldi.

Sınırlar ve sorunlar

Modern derin öğrenme olağanüstü güçlü ama mükemmel değil:

Yorumlanabilirlik: Bir derin ağ "neden" bu cevabı verdiğini açıklamak zordur (kara kutu sorunu).
Veri gereksinimi: Çok büyük veri setleri gerekir; küçük veri ile zayıf performans.
Adversarial saldırılar: Bir görüntüye fark edilemeyen küçük değişiklikler eklenirse ağ tamamen yanlış sonuç verebilir.
Hesaplama maliyeti: GPT-4 eğitimi yüz milyon dolar mertebesinde.
Halüsinasyon: LLM'ler bazen tamamen yanlış ama emin görünen cevaplar üretir.
Etik ve yanlılık: Eğitim verisindeki yanlılıklar modele yansır.

Bir hayat dersi

Modern yapay zekânın hikâyesi, "doğru zamanda doğru matematik araç" sezgisinin gücüne dair önemli bir derstir. Sinir ağı fikri 60 yaşında. Gradyan iniş fikri 170 yıllık (Cauchy, 1847). Backpropagation 40 yıllık. Ama bu üçü birlikte, yeterli veri ve hesaplama gücü ile birleşince, 2010'larda dünyayı değiştirdi.

Daha geniş bir hayat dersi: basit matematik fikirleri, doğru bağlamda olağanüstü etkili olabilir. Modern AI bir devrim, sıra dışı yeni matematik buluşları olmadan; uzun zamandır bilinen tekniklerin yeni veri ve donanımla birleşmesi.

Bir sonraki sefer ChatGPT ile konuşurken, ya da Google Translate kullandığınızda, ya da telefonunuzun yüzünüzü tanıdığında, ya da Spotify'ın size yeni bir şarkı önerdiğinde — perde arkasında gradyan iniş ile eğitilmiş trilyonlarca matematiksel ağırlığın çalıştığını hatırlayabilirsiniz. Yapay zekâ, modern matematiğin en görkemli pratik uygulamasıdır.

Etiketler

yapay sinir ağlarıderin öğrenmegradyan inişbackpropagation

İlgili Yazılar

Matematik