Tuka Video - Gravação de Tela Nativa com IA Local no macOS

App nativo macOS de gravação de tela e edição em segundos. Apple Intelligence local, captura mobile, Code Mode e cold opens com IA pelo Spark.

SwiftUIScreenCaptureKitAVFoundationApple Intelligence

Website

O Tuka Video nasceu de uma frustração simples: gravar uma demo de produto, fazer dois recortes e exportar para o Instagram não deveria virar uma tarde inteira dentro de um editor profissional pesado. Como desenvolvedor mobile sênior que produz conteúdo técnico com regularidade, eu precisava de uma ferramenta desktop que respeitasse meu tempo, rodasse local no Mac e entregasse vídeo curto pronto para redes sociais com qualidade alta e compromisso com simplicidade.

Swift 6, SwiftUI, ScreenCaptureKit, AVFoundation, Apple Intelligence (Foundation Models), Core ML, Metal

Website Beta program

A origem do projeto

Há mais de uma década venho construindo aplicativos mobile e, nos últimos meses, intensifiquei a produção de conteúdo no andersonmelo.com, com posts longos sobre engenharia de IA e desenvolvimento mobile. Em paralelo, comecei a publicar vídeos curtos no Instagram Reels, no TikTok e nos Shorts do YouTube para alcançar uma audiência que prefere absorver ideias técnicas em formato visual e rápido.

Acontece que cada vídeo de um minuto consumia quase uma hora entre gravação, edição, geração de legenda, ajuste de zoom em trechos importantes e exportação. Multiplicado por vários posts por semana, virou um gargalo real de produtividade. Os apps que eu testava ou eram poderosos demais, com curva de aprendizado pesada, ou eram simples demais e me obrigavam a finalizar a edição em outra ferramenta.

Naquele mesmo período, com a maturação dos modelos via linha de comando como o Claude Opus, percebi que dava para juntar minha experiência de desenvolvimento nativo com técnicas avançadas de prompting e engenharia de contexto para construir uma ferramenta sob medida. Foi assim que o Tuka Video começou a tomar forma na minha máquina, primeiro como um experimento pessoal e depois como um produto que faz sentido para qualquer pessoa que precise produzir vídeo curto com agilidade real.

Construído para três perfis que vivem do que mostram

Arquitetura SwiftUI nativa para macOS

O Tuka Video é um app desktop totalmente nativo, escrito em Swift 6 com interface em SwiftUI. Por ser exclusivo para macOS, eu pude tirar proveito real do Apple Silicon, da Unified Memory Architecture e do Neural Engine sem as camadas de tradução que apps multiplataforma costumam carregar.

A escolha por nativo não foi estética e sim arquitetural. Codificação de vídeo, captura de tela em alta resolução e inferência de IA em tempo real são tarefas que dependem de acesso direto ao hardware. Ao usar SwiftUI sobre AppKit, eu consigo entregar uma janela leve, com renderização fluida no editor, e ainda chamar APIs de baixo nível como o ScreenCaptureKit e o AVFoundation sem bridges intermediárias.

Além disso, a camada de interface é organizada em módulos independentes: gravação, edição, exportação, configuração e overlays. Cada módulo é desacoplado por meio de protocolos e injeção de dependência, o que facilita testes automatizados e iteração rápida sobre features experimentais sem desestabilizar o core.

Captura de tela, janelas e dispositivos com ScreenCaptureKit

A engine de captura usa o ScreenCaptureKit, framework introduzido pela Apple para gravação de tela com baixa latência e alta fidelidade. Com ele, o Tuka Video grava telas inteiras, janelas individuais ou áreas customizadas, sempre com áudio do sistema e do microfone em trilhas separadas.

Para dispositivos móveis, o app detecta automaticamente iPhones e iPads conectados via USB, além de aparelhos Android. Em vez de empurrar o usuário para outra ferramenta, a captura mobile vive dentro do mesmo fluxo. Quem grava uma demo de app pode incluir webcam, voz, slides e código na mesma sessão, sem alternar entre softwares e perder contexto.

Por trás disso, a engenharia mais delicada está no gerenciamento de buffers. Gravar tela em 4K com webcam picture-in-picture e duas trilhas de áudio significa coordenar fluxos paralelos sem perder frame. Resolvi isso com filas dedicadas em Swift Concurrency, usando actors para isolar estado mutável e garantindo que a interface continue responsiva mesmo durante exportações pesadas em segundo plano.

Quatro princípios não negociáveis no produto

Edição em segundos sem timeline complexa

Logo após parar a gravação, o editor abre com o vídeo já pronto, sem barra de processamento. Esse comportamento foi uma decisão de produto e de engenharia ao mesmo tempo. Em vez de transcodificar o arquivo para um formato intermediário, o Tuka Video trabalha sobre a referência original e aplica edits de forma não destrutiva, materializando tudo apenas no momento do export.

A interface de edição abandona a metáfora tradicional de timeline multi-camadas. Em vez disso, ela apresenta marcadores de corte simples, controles de zoom para destacar trechos importantes, legendas que aparecem conforme você fala e overlays para slides e snippets de código.

Conforme apontado pela Communications of the ACM em sua análise sobre o que realmente impulsiona produtividade de desenvolvedores, reduzir interrupções e atritos no fluxo é mais determinante do que qualquer ferramenta isolada. Esse princípio guiou cada decisão de UX do editor: menos cliques, menos modais, mais foco no estado de fluxo criativo do usuário.

Apple Intelligence rodando 100% local

Atualmente, a camada de IA do Tuka Video é construída inteiramente sobre o Foundation Models framework da Apple e sobre Core ML. Toda a inferência acontece no Neural Engine do próprio Mac, sem nenhuma chamada para servidores externos.

Esse modelo de processamento on-device não é só uma escolha de privacidade. Como mostra a reportagem do IEEE Spectrum sobre edge AI e a nova geração de modelos pequenos, rodar modelos localmente reduz latência, elimina dependência de conexão e protege dados sensíveis que jamais precisam sair do dispositivo. Para quem grava trabalho de cliente ou código proprietário, isso é decisivo.

Na prática, o Tuka Video usa Apple Intelligence para quatro tarefas centrais. A primeira é geração de legendas em tempo real enquanto você fala, sem upload e sem espera. A segunda é remoção automática de silêncio, que detecta pausas mortas e corta para manter o ritmo apertado. Em seguida, o Smart Slides transforma trechos da gravação em slides de texto limpo. Por fim, o Spark identifica o momento mais cativante perto do final do vídeo e o coloca como cold open no início.

Outra reportagem do IEEE Spectrum sobre assistentes de IA pessoais que rodam localmente em laptops reforça por que essa estratégia faz sentido: quando treinamento e inferência acontecem na máquina do usuário, ganha-se em personalização e em controle sem comprometer privacidade. É exatamente isso que o Tuka Video, gravação de tela nativa com IA local no macOS, entrega na prática.

Code Mode e Smart Slides para devs e educadores

Como desenvolvedor que cria conteúdo educacional, eu queria recursos que respeitassem o vocabulário visual da nossa área. Por isso, o Code Mode permite sobrepor snippets animados de código com syntax highlighting, efeito typewriter e múltiplos temas, ideal para tutoriais técnicos e threads de carrossel.

Em paralelo, o Smart Slides transforma uma fala em slides de texto limpos, gerados pelos modelos rodando no Neural Engine. Em vez de pausar a gravação para alternar com outro app de apresentação, você grava a explicação direto e o app monta os slides em seguida.

Esses dois recursos juntos eliminam o ciclo clássico de gravar, abrir editor de vídeo, importar slides, animar trechos de código e exportar. Tudo acontece dentro do Tuka Video, em uma única janela, em poucos minutos.

Spark, o cold open gerado por IA

O Spark é o recurso que mais me orgulha de ter implementado até agora. A maior parte dos vídeos curtos perde o espectador nos três primeiros segundos. A solução tradicional é editar manualmente para colocar o trecho mais forte no início, o que dá trabalho e exige análise subjetiva sobre o que é forte de fato.

Por isso, o Spark usa um modelo local para varrer a gravação completa, identificar o momento de maior impacto perto do final e prependá-lo como abertura. O resultado é um cold open natural que prende a atenção desde o segundo zero, sem que o criador precise pensar conscientemente sobre estrutura narrativa.

Privacidade local-first como princípio de produto

Nada do que você grava sai do seu Mac. Sem servidores, sem contas observando, sem upload. Para quem trabalha com código de cliente, telas com dados sensíveis ou projetos pessoais ainda não anunciados, essa garantia muda o que é possível gravar com tranquilidade.

Tecnicamente, isso significou abrir mão de várias features de cloud que seriam mais simples de implementar em SaaS, como sincronização entre máquinas e biblioteca remota. Em troca, o Tuka Video oferece algo cada vez mais raro: uma ferramenta que respeita os dados de quem a usa e que nunca depende de internet para funcionar.

Diferenciais competitivos por trás do Tuka Video

O Tuka Video só foi possível porque combinei mais de dez anos de desenvolvimento mobile com prática intensa em engenharia de prompts e contextos avançados em modelos como o Claude Opus. Essa combinação é o que descrevo nos meus outros projetos publicados em andersonmelo.com: apps mobile em produção nas lojas, servidores MCP para automação com agentes e canvas infinitos com IA multimodal.

Na prática, a diferença aparece em decisões pequenas que somadas mudam o produto. Saber que o ScreenCaptureKit tem latência menor que alternativas. Entender por que Foundation Models é melhor que rodar um modelo customizado para legendas neste caso específico. Reconhecer onde Swift Concurrency previne race conditions na exportação paralela. Cada uma dessas decisões vem de anos de prática em desenvolvimento nativo.

Além disso, o Tuka Video é o tipo de produto que só faz sentido sendo construído por uma pessoa só. Um time grande tenderia a empilhar features, criar telas de configuração, oferecer planos por nível. Como solo dev, eu pude defender simplicidade quase agressiva e remover tudo que não servisse ao caso de uso central de quem grava vídeo curto para redes sociais.

Por fim, o domínio sobre as três pontas (mobile, IA aplicada e produto) me permite fechar o ciclo inteiro: identifico a dor, projeto a solução técnica, implemento o app nativo e levo para mercado. Esse é o tipo de execução vertical que eu busco em cada projeto pessoal.

Três habilidades que precisaram coexistir na mesma pessoa

O que vem por aí

Atualmente, o Tuka Video, gravação de tela nativa com IA local no macOS, está em beta privado e a lista de espera está aberta no site oficial. Os próximos passos incluem busca semântica por OCR sobre o conteúdo das gravações, exportação direta para múltiplos formatos verticais e horizontais, e integrações leves com plataformas de publicação. Para acompanhar o desenvolvimento ou conversar sobre parcerias, estou disponível na página de contato em andersonmelo.com.

←Styli App

Voltar para Projetos