Engineering

Buluttan Cebe: Cihazda Çalışan AI Mobil Uygulama Mimarisini Nasıl Değiştiriyor

iHux Team

March 9, 20266 min read

Her AI destekli uygulamanız bulut uç noktasına veri gönderdiğinde üç şey gerçekleşir: gecikme artar, gizlilik riski büyür ve altyapı faturanız artar. Birçok uygulama için bu denge mantıklıydı — bulut modelleri yerel olarak çalışabilecek herhangi bir şeyden basitçe daha yetenekliydi. Bu hesap 2026'da temelden değişti.

Cihazda çalışan AI — telefonlar, tabletler, giyilebilir cihazlar ve kenar cihazlarda doğrudan çıkarım çalıştırmak — yalnızca uygulanabilir değil, artan sayıda kullanım durumu için tercih edilir hale geldi. Apple'ın Neural Engine, Qualcomm'un Hexagon NPU ve Google'ın Tensor çipleri artık beş yıl önce bir veri merkezi gerektirmiş olacak performans sunuyor. Mobil mimarlar için soru artık "Cihazda AI çalıştırabiliriz mi?" değil "Cihazda ne çalıştırmalı vs. bulutta ne çalıştırmalıyız?"

Teknik Temeller: Büyük Modeller Nasıl Küçülür

70 milyar parametreli bir modeli akıllı telefonda çalıştırmak sihir değil — mühendislik. Üç temel teknik cihazda çalışan AI'ı pratik hale getirdi.

Model Distilasyonu: Küçük Modellere Büyük Düşünmeyi Öğretmek

Bilgi distilasyonu, daha küçük bir "öğrenci" modelini daha büyük bir "öğretmen" modelinin davranışını taklit etmek için eğitir. Öğrenci ham verilerden öğrenmez — öğretmenin olasılık dağılımlarından öğrenir, sadece verilerle eğitimden ortaya çıkmazdı nuanslı desenleri yakalar. Modern distilasyon teknikleri öğretmen modelinin doğruluğunun %85-95'ini 10-20 kat daha küçük boyutla elde eder. Görev spesifik uygulamalar — duygu analizi, varlık ayıklama, görüntü sınıflandırması — için distile edilmiş modeller genellikle öğretmenleriyle tamamen eşleşir.

Kuantizasyon: Önemli Olan Yerlerde Hassasiyet

Standart sinir ağları 32 bit kayan noktalı sayıları kullanır. Kuantizasyon bunu 8 bit, 4 bit veya hatta 2 bit tamsayılara indirger. Matematik kayıplı olsa da, doğruluk üzerindeki pratik etki genellikle ihmal edilebilir — özellikle en etkili ağırlıklar için hassasiyeti akıllıca koruyan GPTQ ve AWQ gibi tekniklerle. 4 bitlik kuantize edilmiş bir model FP32 eşdeğeri kadar kabaca 8 kat daha az bellek kullanır ve 3-4 kat daha hızlı çalışır. Mobilde bu "imkansız" ile "anlık" arasındaki farktır.

Mimari Optimizasyon: Kenar İçin Özel Olarak Tasarlanmış

MobileLLM, Phi-3-mini ve Gemma 2B gibi modeller sadece daha küçük değil — sınırlı ortamlar için mimarik olarak tasarlanmışlardır. Gruplandırılmış sorgu dikkatı, paylaşılan gömme katmanları ve derinlik-yönlü ayrılabilir konvolüsyonlar gibi teknikler, hesaplama gereksinimlerini orantılı olarak yeteneği azaltmadan azaltır. Apple'ın OpenELM ailesi özellikle Neural Engine'nin paralel işleme yetenekleri için optimize eder.

Bulut vs. Kenar Karar Matrisi

Çıkarımı nerede çalıştıracağınız hakkında karar ikili değildir — çoğu üretim uygulaması hibrit bir yaklaşım kullanır. Bölünmeyi nasıl düşündüğümüz aşağıda.

Cihazda çalıştırın: gecikme kritik olduğunda (gerçek zamanlı kamera işleme, ses komutları, jest tanıma), gizlilik son derece önemli olduğunda (sağlık verileri, finansal bilgiler, kişisel iletişimler), çevrimdışı yetenek gerekli olduğunda (alan işçileri, seyahat, bağlantı sorunları olan bölgeler) veya görev uzmanlaşmış küçük bir model için yeterince iyi tanımlanmış olduğunda.

Bulutta tutun: görev sınır model akıl yürütme gerektirdiğinde (karmaşık analiz, uzun biçim üretimi), büyük bilgi tabanlarına veya gerçek zamanlı harici verilere erişim gerektiğinde, model sık güncelleme gerektirdiğinde hızlı bir şekilde cihazlara itmek için, veya hesaplama gereksinimlerinin cihaz yeteneklerini aştığında.

Hibrit yaklaşım kullanın: cihazda hızlı ilk çıkarım (yazma önerileri, temel sınıflandırma) işledikçe bulut asenkron olarak daha derin analiz sağlar. Bu "hızlı yerel, akıllı uzak" deseni kullanıcılara anında geri bildirim verirken yüksek kaliteli sonuçlar sunuyor.

Gerçek Dünya Mimarileri: İki Vaka Çalışması

Sağlık Giyilebilir Cihazlar: Sıfır Gecikmeli Anormallik Tespiti

Kalp ritmi, kan oksijeni ve hareket desenlerini izleyen sürekli bir sağlık izleme giyilebilir cihazı düşünün. Buluta bağımlı çıkarım okuma başına 200-500ms gecikme sunar — trend analizi için kabul edilebilir, gerçek zamanlı anormallik tespiti için kabul edilemez, milisaniyeler önemli olduğunda.

İşe yarayan mimari: küçük bir kuantize edilmiş anormallik tespit modeli (5MB altında) cihazda sürekli çalışır, sensör verilerini 10ms altında gecikmeyle işler. Olası bir anormallik tespit ettiğinde, ilgili veri penceresini daha büyük bir bulut modeline onay ve ayrıntılı analiz için gönderir. Cihazda çalışan model gerçek anomalilerin %97'sini yakalar; bulut modeli yanlış pozitifleri ortadan kaldırır. Kullanıcı, gerçek endişeler için anlık uyarı alır, sürekli bulut akışının gecikmesi, gizlilik riski veya pil tüketimi olmaksızın.

Lojistik: Çevrimdışı Öncelikli Paket Sınıflandırması

Paket taraması yapan depo işçileri bulut gidiş dönüş bekleyemez — ve depo Wi-Fi'si ünü kötüdür. Cihazda çalışan bir görüntü modeli gerçek zamanlı paket sınıflandırması, hasar tespiti ve barkod okumayı tamamen çevrimdışı işler. Bağlantı kullanılabilir olduğunda, yeni model ağırlıkları ve sınıflandırma güncellemeleri arka planda senkronize olur. Bu mimari tarama süresini %40 azalttı ve bağlantı ile ilgili iş akışı kesintilerini tamamen ortadan kaldırdı.

Gizlilik Argümanı: Neden Düzenleme AI'ı Kenarına İtiyor

Performansın ötesinde, AI hesaplamasını cihazlara iten düzenleyici bir rüzgar var. GDPR, AB AI Yasası ve gelişen ABD eyaleti gizlilik yasaları, kişisel verileri bulut AI hizmetlerine gönderme konusunda sürtüşme yaratır. Cihazda çalışan çıkarım bu endişeleri zarif bir şekilde atlatiyor: veriler kullanıcının cihazından asla ayrılmıyor, bu nedenle onay, depolama veya potansiyel ihlal olacak bir şey yok.

Apple'ın cihazda çalışan zeka stratejisi bu felsefenin ölçekte en açık örneğidir. Onların Private Cloud Compute mimarisi cihazda yapabileceklerini işler ve bulut taşması için güvenli enklav kullanır — Apple'ın kendisinin verilere erişemeyeceğine dair kriptografik garantiler. Bu sadece bir gizlilik özelliği değil; sadece buluta bağımlı AI sağlayıcılarının kolayca çoğaltamayacağı bir rekabet savunmasıdır.

Pratik Uygulama: Başlarken

Mobil uygulamanız için cihazda çalışan AI'ı düşünüyorsanız, burada önerilen araç zinciri ve yaklaşım.

iOS için: Neural Engine ile Core ML en iyi performansı verir. PyTorch/TensorFlow modellerini dönüştürmek için coremltools kullanın. Apple'ın MLX çerçevesi cihazda çalışan ince ayar için mükemmeldir.
Android için: TensorFlow Lite veya NNAPI delegasyonu ile ONNX Runtime. MediaPipe yaygın görevler için mükemmel önceden oluşturulmuş cihazda çalışan ML boru hatları sağlar. Google'ın AI Edge SDK, Gemini Nano entegrasyonunu basitleştirir.
Platformlar arası: ONNX Runtime, platformlar arasında birleşik bir çıkarım motoru sağlar. llama.cpp etkileyici verimliliğe sahip cihazda çalışan LLM çıkarımını güçlendirir. ExecuTorch (PyTorch'tan) platformlar arası kenar dağıtımı için hızlı bir şekilde olgunlaşıyor.

Yoksayamayacağınız Mimari Kaymaya

Cihazda çalışan AI bir niş optimizasyon değil — zeka kullanan herhangi bir mobil uygulama için temel bir mimari göz önünde bulundurma haline geliyor. Sağladığı performans kazanımları, gizlilik faydaları ve çevrimdışı yetenekleri göz ardı etmek için çok önemlidir.

2026 ve sonrasında lider olacak uygulamalar sadece akıllı olmayacak — doğru yerde akıllı olacaklar. Hassas verileri en güvenli olduğu yerde işlerler (cihazda), hızın en önemli olduğu yerlerde anlık sonuçlar sunacaklar (cihazda) ve akıl yürütmenin derinliği bunu talep ettiğinde bulut zekasından yararlanacaklar. Bu bölünmeyi doğru almak, mobil AI mimarisi için yeni temel yetkinliktir.

iHux'da, Core ML ve TensorFlow Lite'ın ilk günlerinden beri hibrit cihazda çalışan ve bulut AI mimarileri oluşturuyoruz. Araçlandırma vizyonu yakaladı. Mobil AI ürünü tasarlıyorsanız, hesaplamayı kenarına taşımanın zamanı bir gün değil — şimdi.

iHux Team

Engineering & Design

All posts