Engineering

من السحابة إلى الجيب: كيف يغيّر الذكاء الاصطناعي على الجهاز معمارية تطبيقات الهاتف الذكي

iHux Team

March 9, 20266 min read

في كل مرة يرسل تطبيقك المدعوم بالذكاء الاصطناعي البيانات إلى نقطة نهاية سحابية، تحدث ثلاثة أشياء: تزداد زمن الاستجابة، وتنمو مخاطر الخصوصية، وترتفع فاتورة البنية التحتية لديك. بالنسبة للعديد من التطبيقات، كان هذا التبادل منطقياً — كانت النماذج السحابية ببساطة أكثر قدرة من أي شيء يمكنك تشغيله محلياً. لقد تغير هذا الحساب بشكل أساسي في عام 2026.

الذكاء الاصطناعي على الجهاز — تشغيل الاستدلال مباشرة على الهواتف الذكية والأجهزة اللوحية والأجهزة القابلة للارتداء وأجهزة الحافة — قد عبر عتبة القدرة حيث لا يكون مجرد قابل للتطبيق فحسب بل مفضلاً لعدد متزايد من حالات الاستخدام. يوفر Apple Neural Engine و Qualcomm Hexagon NPU و Google Tensor chips الآن أداءً كان سيتطلب مركز بيانات قبل خمس سنوات. السؤال بالنسبة لمهندسي الأجهزة المحمولة لم يعد "هل يمكننا تشغيل الذكاء الاصطناعي على الجهاز؟" بل "ما الذي يجب أن نشغله على الجهاز مقابل السحابة؟"

الأسس التقنية: كيف تصبح النماذج الكبيرة صغيرة

تشغيل نموذج بـ 70 مليار معامل على هاتف ذكي ليس سحراً — إنه هندسة. جعلت ثلاث تقنيات رئيسية الذكاء الاصطناعي على الجهاز عملياً.

تقطير النموذج: تعليم النماذج الصغيرة التفكير بشكل كبير

يدرب تقطير المعرفة نموذج "طالب" أصغر على تكرار سلوك نموذج "معلم" أكبر. الطالب لا يتعلم من البيانات الخام — يتعلم من توزيعات احتمالية المعلم، مما يلتقط الأنماط الدقيقة التي لن تظهر من التدريب على البيانات وحدها. تحقق تقنيات التقطير الحديثة 85-95% من دقة نموذج المعلم بحجم أصغر بـ 10-20 مرة. بالنسبة للتطبيقات الخاصة بمهمة معينة — تحليل المشاعر واستخراج الكيانات وتصنيف الصور — غالباً ما تطابق النماذج المقطرة معلميها تماماً.

التكميم: الدقة حيث تهم

تستخدم الشبكات العصبية القياسية أرقام فاصلة عائمة بـ 32 بت. يقلل التكميم هذا إلى أعداد صحيحة بـ 8 بت أو 4 بت أو حتى 2 بت. الرياضيات خسارة، لكن التأثير العملي على الدقة غالباً ما يكون مهملاً — خاصة مع تقنيات مثل GPTQ و AWQ التي تحافظ بذكاء على الدقة للأوزان الأكثر تأثيراً. يستخدم نموذج مكمى بـ 4 بت تقريباً ذاكرة أقل بـ 8 مرات وينفذ أسرع بـ 3-4 مرات من معادله FP32. على الأجهزة المحمولة، هذا هو الفرق بين "مستحيل" و "فوري".

تحسين العمارة: مصممة خصيصاً للحافة

نماذج مثل MobileLLM و Phi-3-mini و Gemma 2B ليست أصغر حجماً فقط — بل هي مصممة معمارياً للبيئات المقيدة. تقنيات مثل الانتباه الاستعلامي المجمع والطبقات المدمجة المشتركة والتحويلات القابلة للفصل بالعمق تقلل متطلبات الحوسبة دون تقليل القدرة بشكل متناسب. عائلة OpenELM من Apple تحسّن بشكل محدد قدرات المعالجة المتوازية للمحرك العصبي.

مصفوفة قرار السحابة مقابل الحافة

القرار بشأن مكان تشغيل الاستدلال ليس ثنائياً — معظم التطبيقات الإنتاجية تستخدم نهجاً هجيناً. إليك كيفية تقسيم الأفكار لدينا.

شغّل على الجهاز عندما يكون: الكمون حرجاً (معالجة الكاميرا في الوقت الفعلي وأوامر الصوت والتعرف على الإيماءات)، والخصوصية بأهمية قصوى (بيانات الصحة والمعلومات المالية والاتصالات الشخصية)، والقدرة على العمل دون الإنترنت مطلوبة (العاملون بالميدان والسفر والمناطق ذات الاتصالية المحدودة)، أو تكون المهمة محددة جيداً بما يكفي لنموذج صغير متخصص.

احتفظ بها في السحابة عندما تتطلب المهمة: استدلال نماذج متقدمة (تحليل معقد وتوليد طويل الشكل)، وتحتاج إلى الوصول إلى قواعد بيانات كبيرة أو بيانات خارجية في الوقت الفعلي، والنموذج يحتاج تحديثات متكررة لا يمكن نشرها على الأجهزة بسرعة، أو متطلبات الحوسبة تتجاوز قدرات الجهاز.

استخدم نهجاً هجيناً عندما تتعامل على الجهاز مع الاستدلال الأولي السريع (اقتراحات الكتابة والتصنيف الأساسي) بينما توفر السحابة تحليلاً أعمق بشكل غير متزامن. هذا النمط "محلي سريع وذكي بعيد" يعطي المستخدمين تعليقاً فورياً مع تقديم نتائج عالية الجودة.

العمارات الحقيقية: حالتا دراسة

أجهزة الرعاية الصحية القابلة للارتداء: كشف الحالات الشاذة بدون تأخير

تأمل في جهاز قابل للارتداء لمراقبة الصحة بشكل مستمر يتتبع إيقاع القلب وتشبع الأكسجين وأنماط الحركة. يؤدي الاستدلال المعتمد على السحابة إلى تأخير بمقدار 200-500 ميلي ثانية لكل قراءة — مقبول لتحليل الاتجاهات، غير مقبول لكشف الحالات الشاذة في الوقت الفعلي حيث تكون الميلي ثواني مهمة.

العمارة التي تعمل: نموذج صغير محدد لكشف الحالات الشاذة (أقل من 5 ميجابايت) يعمل بشكل مستمر على الجهاز، معالجاً بيانات المستشعرات بتأخير أقل من 10 ميلي ثواني. عندما يكتشف حالة شاذة محتملة، يرسل نافذة البيانات ذات الصلة إلى نموذج سحابة أكبر للتأكيد والتحليل التفصيلي. يكتشف النموذج الموجود على الجهاز 97٪ من الحالات الشاذة الحقيقية؛ ينهي نموذج السحابة الإيجابيات الخاطئة. يحصل المستخدم على تنبيهات فورية للمخاوف الحقيقية بدون التأخير أو مخاطر الخصوصية أو استنزاف البطارية من البث المستمر إلى السحابة.

الخدمات اللوجستية: تصنيف الحزم في وضع عدم الاتصال أولاً

عمال المستودعات الذين يقومون بمسح الحزم لا يمكنهم انتظار عمليات الرحلة ذهاباً وإياباً إلى السحابة — وواي فاي المستودع معروف بعدم الموثوقية. يتعامل نموذج الرؤية الموجود على الجهاز مع تصنيف الحزم في الوقت الفعلي وكشف الأضرار وقراءة الرموز الشريطية بالكامل في وضع عدم الاتصال. عند توفر الاتصال، تتم مزامنة أوزان النموذج الجديدة وتحديثات التصنيف في الخلفية. قللت هذه العمارة وقت المسح بنسبة 40٪ وألغت تماماً انقطاعات سير العمل المتعلقة بالاتصال.

حجة الخصوصية: لماذا اللوائح تدفع الذكاء الاصطناعي إلى الحافة

بعيداً عن الأداء، هناك ريح تنظيمية تدفع الحسابات الذكية الاصطناعية إلى الأجهزة. يخلق القانون العام لحماية البيانات والقانون الأوروبي للذكاء الاصطناعي وقوانين الخصوصية الناشئة في الولايات الأمريكية احتكاكاً حول إرسال البيانات الشخصية إلى خدمات الذكاء الاصطناعي السحابية. يتجنب الاستدلال على الجهاز هذه المخاوف بأناقة: البيانات لا تغادر جهاز المستخدم، لذلك لا يوجد شيء للموافقة عليه أو تخزينه أو احتمال اختراقه.

استراتيجية ذكاء الأجهزة على الجهاز من Apple هي أوضح مثال على هذه الفلسفة على نطاق واسع. تعالج بنية Private Cloud Compute الخاصة بهم ما يمكنهم على الجهاز وتستخدم المحافظ الآمنة لتجاوز السحابة — مع ضمانات تشفيرية لا تستطيع حتى Apple نفسها الوصول إلى البيانات. هذا ليس مجرد ميزة خصوصية؛ إنها خندق تنافسي لا يمكن لموفري الذكاء الاصطناعي السحابي فقط تكراره بسهولة.

التطبيق العملي: البدء

إذا كنت تفكر في استخدام الذكاء الاصطناعي على الجهاز للتطبيق المحمول الخاص بك، فإليك سلسلة الأدوات والنهج الذي نوصي به.

لنظام iOS: Core ML مع Neural Engine يوفر أفضل أداء. استخدم coremltools لتحويل نماذج PyTorch وTensorFlow. إطار عمل MLX من Apple ممتاز لضبط النماذج الدقيق على الجهاز.
لنظام Android: TensorFlow Lite أو ONNX Runtime مع تفويض NNAPI. توفر MediaPipe خطوط أنابيب تعلم آلي مدمجة ممتازة للمهام الشائعة. يبسط Google AI Edge SDK تكامل Gemini Nano.
للتطبيقات متعددة الأنظمة الأساسية: يوفر ONNX Runtime محرك استدلال موحد عبر الأنظمة الأساسية. يدعم llama.cpp استدلال نماذج اللغة الكبيرة على الجهاز بكفاءة مثيرة للإعجاب. ExecuTorch (من PyTorch) ينضج بسرعة لنشر الحواف متعدد الأنظمة الأساسية.

التحول المعماري الذي لا يمكنك تجاهله

الذكاء الاصطناعي على الجهاز ليس مجرد تحسين متخصص — إنه يصبح اعتباراً معمارياً أساسياً لأي تطبيق محمول يستخدم الذكاء. مكاسب الأداء وفوائد الخصوصية والقدرات دون اتصال التي يتيحها كبيرة جداً بحيث لا يمكن تجاهلها.

التطبيقات التي ستتصدر في عام 2026 وما بعده لن تكون ذكية فحسب — بل ستكون ذكية في المكان المناسب. ستقوم بمعالجة البيانات الحساسة حيث يكون الأمان أكثر أماناً (على الجهاز)، وتقديم النتائج الفورية حيث تكون السرعة أكثر أهمية (على الجهاز)، والاستفادة من ذكاء السحابة حيث يتطلب عمق التفكير ذلك. يعتبر الحصول على هذا التقسيم بشكل صحيح الكفاءة الأساسية الجديدة لمعمارية الذكاء الاصطناعي للأجهزة المحمولة.

في iHux، كنّا نبني معماريات ذكاء اصطناعي هجينة تجمع بين الجهاز والسحابة منذ الأيام الأولى لـ Core ML و TensorFlow Lite. لقد تطورت الأدوات لتواكب الرؤية. إذا كنت تصمم منتج ذكاء اصطناعي للهاتف المحمول، فإن الوقت لنقل العمليات الحسابية إلى الحافة ليس في المستقبل البعيد — بل هو الآن.

iHux Team

Engineering & Design

All posts