O AppLab Discovery surgiu de uma necessidade prática: automatizar o ciclo de descoberta, teste e geração de materiais de marketing para aplicativos mobile, usando agentes de IA como interface principal.
Testar um app mobile de ponta a ponta envolve muitos passos manuais: instalar o build, navegar pelos fluxos, capturar screenshots, documentar bugs, gerar previews para as lojas. Quando multipliquei isso por vários projetos em paralelo, ficou claro que precisava de uma camada de automação que um agente de IA pudesse orquestrar.

O servidor implementa o Model Context Protocol, expondo mais de 15 ferramentas via JSON-RPC. Cada tool é atômica e composável: um agente de IA pode chamar uma tool de screenshot, passar o resultado para uma tool de análise visual e encadear com uma tool de criação de bug no Jira, tudo em uma única conversa.
O design das tools segue o princípio de responsabilidade única. Uma tool faz screenshot, outra extrai texto via OCR, outra analisa acessibilidade. Isso permite que o agente componha workflows complexos a partir de peças simples, sem que o servidor precise antecipar todos os casos de uso.
Para web, a automação usa Playwright com suporte a múltiplos navegadores. Para iOS e Android, integrei o Maestro CLI, que permite descrever fluxos de teste em YAML e executá-los em simuladores ou dispositivos reais. O servidor abstrai as diferenças entre plataformas: o agente pede "execute o fluxo de login" e o servidor escolhe o runner correto.
A captura de evidências é automática. Cada passo do fluxo gera screenshots, e a gravação de vídeo pode ser ativada para fluxos críticos. Crashes e ANRs são detectados e reportados com stack traces quando disponíveis.
O pipeline de análise visual combina OCR para extração de texto com a Claude Vision API para interpretação semântica das telas. A IA consegue identificar padrões de UI, detectar problemas de acessibilidade como contraste insuficiente ou touch targets pequenos, e sugerir melhorias baseadas em guidelines de design da Apple e do Google.
Em dispositivos Apple, o servidor também integra o Apple Vision Framework via bridge nativa, conseguindo resultados de OCR mais precisos para texto em interfaces iOS.

Uma das ferramentas mais úteis no dia a dia é a geração automatizada de assets para App Store e Play Store. O servidor usa FFmpeg para compor vídeos promocionais a partir de sequências de screenshots, e Three.js para renderizar mockups 3D de dispositivos com as telas do app inseridas.
Isso reduz drasticamente o tempo de preparação para um lançamento: em vez de criar manualmente cada preview, o agente gera todas as variações de tamanho e formato necessárias a partir de um conjunto base de screenshots.
O servidor tem conectores para Jira, Notion, Figma e GitHub. Cada integração é exposta como uma tool MCP independente. O agente pode, por exemplo, analisar uma tela, identificar um bug de alinhamento, criar um ticket no Jira com screenshot e descrição, e linkar a issue correspondente no GitHub, tudo sem intervenção humana.
Toda a execução acontece na máquina local. Não há telemetria, não há dados enviados para a cloud, não há armazenamento externo. As API keys são lidas de variáveis de ambiente e nunca persistidas em disco. Essa arquitetura é ideal para projetos com requisitos de compliance ou que lidam com dados sensíveis de usuários.