NovaScan: Detección de Objetos en Tiempo Real para Logística de Almacenes
Construimos una aplicación iOS impulsada por CoreML que identifica y rastrea artículos de inventario en tiempo real, reduciendo el tiempo de escaneo manual en un 73% en 12 ubicaciones de almacén.
73%
Escaneo más rápido
99.2%
Precisión del inventario
12
Ubicaciones de almacén
50K+
Identificaciones diarias
El desafío
NovaScan Technologies opera 12 instalaciones de almacén en los Emiratos Árabes Unidos y Arabia Saudita, procesando más de 50,000 artículos de inventario diariamente. Su flujo de trabajo existente requería que los trabajadores escanearan códigos de barras manualmente en cada artículo, un proceso que creaba cuellos de botella significativos durante las horas pico y era propenso a errores humanos.
El problema fundamental tenía tres aspectos: las etiquetas de código de barras a menudo estaban dañadas u oscurecidas, el escaneo requería que los trabajadores manipularan cada artículo individualmente (ralentizando el rendimiento), y el sistema existente no podía identificar artículos sin su código de barras. NovaScan necesitaba una solución que pudiera identificar productos visualmente, por forma, color, embalaje y texto de etiqueta, sin depender de códigos de barras.
Habían hablado con varias agencias y consultorías, pero la mayoría propuso soluciones basadas en la nube que requerirían conectividad a Internet constante, algo imposible en entornos de almacén con WiFi no confiable. Necesitaban inferencia en el dispositivo que funcionara sin conexión, en tiempo real, y en iPads estándar ya implementados en su personal.
Nuestro enfoque
Comenzamos con una fase de descubrimiento de dos semanas. Nuestro equipo visitó dos almacenes de NovaScan, observó el flujo de escaneo existente, fotografió más de 3,000 artículos de producto únicos bajo diversas condiciones de iluminación, y entrevistó al personal del almacén sobre los puntos críticos. Este trabajo de campo informó cada decisión técnica que siguió.
Para el modelo de ML, elegimos YOLOv8 como arquitectura base, optimizado para velocidad sin sacrificar precisión. Lo entrenamos en nuestro conjunto de datos recopilado de imágenes de almacén (aumentado a 15,000 imágenes con rotaciones, variaciones de iluminación y oclusiones parciales), luego convertimos el modelo a formato CoreML para inferencia en el dispositivo en iPad.
La aplicación fue construida nativamente en Swift con SwiftUI. Elegimos nativo sobre multiplataforma específicamente por el rendimiento de CoreML: el modelo se ejecuta en el Apple Neural Engine, procesando fotogramas de cámara a 30 fps con un tiempo de inferencia promedio de 14ms. La canalización de cámara utiliza AVFoundation para acceso directo al hardware, con procesamiento de fotogramas personalizado que omite fotogramas duplicados para reducir el consumo de batería.
En el backend, construimos una API Supabase ligera que sincroniza datos de inventario cuando el iPad tiene conectividad. La aplicación funciona completamente sin conexión — escaneo, identificación y actualizaciones locales de inventario ocurren sin ninguna conexión de red. Cuando WiFi está disponible, sincroniza los cambios pendientes en segundo plano.
Decisiones técnicas clave
Compensación entre tamaño del modelo y precisión: Probamos tres variantes de YOLOv8 (nano, pequeño, mediano). La variante pequeña logró 96.8% mAP en nuestro conjunto de pruebas mientras mantenía el modelo CoreML por debajo de 25MB — crítico para un inicio rápido de la aplicación y una baja huella de memoria en iPads compartidos del almacén.
Umbral de confianza: En lugar de mostrar predicciones inciertas, implementamos un sistema de confianza de tres niveles. Por encima del 90%: coincidencia automática (superposición verde). 70-90%: coincidencia sugerida (superposición amarilla, toca para confirmar). Por debajo del 70%: búsqueda manual solicitada. Esto redujo las identificaciones erróneas a casi cero mientras se mantenía la velocidad para coincidencias claras.
Actualizaciones incrementales del modelo: Construimos un pipeline de actualización de modelo que permite a NovaScan reentrenar el modelo mensualmente a medida que se agregan nuevos productos al inventario. Los modelos actualizados se distribuyen a través de MDM (Mobile Device Management) a todos los iPads del almacén sin requerir actualizaciones de aplicaciones a través de la App Store.
Resultados e impacto
La aplicación se lanzó como piloto en dos almacenes y entregó resultados inmediatos. El tiempo de escaneo manual disminuyó un 73% — los trabajadores ahora podían apuntar el iPad a un estante e identificar múltiples artículos simultáneamente en lugar de escanearlos uno por uno. La precisión del inventario mejoró de 94.1% a 99.2%, eliminando costosas discrepancias de stock.
Después del piloto, NovaScan desplegó la aplicación en las 12 ubicaciones en 60 días. El sistema ahora procesa más de 50,000 identificaciones de artículos diariamente en toda su red. El ROI se logró en el primer trimestre — la reducción en mano de obra de escaneo y errores de inventario cubrió más que la inversión en desarrollo.
NovaScan posteriormente nos contrató para la fase 2: agregar mapeo espacial a nivel de estantería usando LiDAR en iPad Pro, lo que permitirá la detección automatizada de niveles de inventario y alertas de reorden.
Lecciones aprendidas
La investigación de campo es innegociable para proyectos de visión por computadora. Nuestras visitas al almacén revelaron condiciones de iluminación, orientaciones de artículos y casos extremos que habría sido imposible anticipar desde un escritorio. Las dos semanas que pasamos en descubrimiento ahorraron al menos un mes de retrabajo.
Primero sin conexión es la opción predeterminada correcta para aplicaciones empresariales. Incluso en entornos con WiFi, la confiabilidad de la red varía. Construir primero sin conexión y agregar sincronización después es mucho más fácil que adaptar la compatibilidad sin conexión a una aplicación dependiente de la nube.
Services
Tech Stack
“We needed computer vision expertise and iHux delivered. Their CoreML integration runs inference in under 50ms on-device. The technical depth of this team is impressive.”
James Chen
CTO, NovaScan