Um design marcante pode diferenciar o R1 Pocket AI do Rabbit de um bando de assistentes virtuais?

Alsorsa.News
Créditos da imagem: Devin Coldewey/TechCrunch


Em um mar de gadgets habilitados para IA na CES , o Rabbit R1 (todos em letras minúsculas, eles insistem) se destaca não apenas por sua pintura de alta visibilidade e formato exclusivo, mas por sua dedicação ao trabalho. A empresa espera que você carregue um segundo dispositivo para evitar o trabalho de abrir o telefone – e fez esforços técnicos extraordinários para fazê-lo funcionar.


A ideia por trás do R1 de US$ 200 é simples: ele permite que você mantenha seu telefone no bolso quando precisar realizar alguma tarefa simples, como pedir um carro para sua localização, procurar alguns lugares para comer onde estiver encontrando amigos ou encontrar algum opções de hospedagem para um fim de semana no litoral.


“Não estamos tentando matar o seu telefone”, disse o CEO e fundador Jesse Lyu em uma ligação com a imprensa antes do show de tecnologia de Las Vegas. “O telefone é um dispositivo de entretenimento, mas se você está tentando realizar alguma coisa, ele não é a máquina mais eficiente. Para organizar um jantar com um colega, precisávamos de quatro e cinco aplicativos diferentes para trabalharmos juntos. Grandes modelos de linguagem são uma solução universal para linguagem natural, queremos uma solução universal para esses serviços – eles devem ser capazes de entendê-lo.”


Em vez de pegar seu telefone, desbloqueá-lo, encontrar o aplicativo, abri-lo e percorrer a interface do usuário (tão trabalhoso!), você puxa o R1 e dá um comando em linguagem natural:


“Chame um Uber XL para nos levar ao Museu de Arte Moderna.”


“Dê-me uma lista de cinco restaurantes baratos a 10 minutos a pé de lá.”


“Liste as cabines mais bem avaliadas para seis adultos no Airbnb em um raio de 16 quilômetros de Seaside, nada mais do que US$ 300 por noite.”


O R1 faz o que você oferece e alguns segundos depois fornece a confirmação e qualquer conteúdo que você possa ter solicitado.


Parece familiar, não é? Afinal, é isso que os nossos chamados “assistentes de IA” supostamente têm feito nos últimos cinco ou seis anos. “Siri, faça isso”, “Ei Google, faça aquilo”. Você tem razão! Mas há uma única diferença enorme.


Siri, Google Assistant, Alexa e todo o resto seriam melhor descritos como “interfaces de voz para miniaplicativos personalizados”, nada parecidos com os modelos de linguagem com os quais muitos de nós começamos a conversar no ano passado. Quando você diz ao Google para trazer um Lyft para sua localização atual, ele usa a API oficial do Lyft para enviar as informações relevantes e recebe uma resposta – basicamente são apenas duas máquinas conversando entre si.


Não que haja algo de errado com isso — mas o que você pode fazer via API geralmente é muito limitado. E claro que tem que haver uma relação oficial entre o assistente e o app, uma conexão aprovada e paga. Se um aplicativo que você gosta não funciona com o Siri ou se a API à qual Alexa tem acesso está desatualizada, você está sem sorte. E quanto a algum aplicativo de nicho pequeno demais para conseguir um acordo oficial com o Google?


O que Rabbit projetou é mais parecido com as IAs do tipo “agente” que vimos aparecer no ano passado, modelos de aprendizado de máquina que são treinados em interfaces de usuário comuns, como sites e aplicativos. Como resultado, eles podem pedir uma pizza não por meio de alguma API dedicada do Domino, mas da mesma forma que um ser humano faria: clicando em botões e campos comuns em uma web comum ou em um aplicativo móvel.

Créditos da imagem: Rabbit 

A empresa treinou seu próprio “grande modelo de ação” ou LAM em inúmeras capturas de tela e vídeos de aplicativos comuns e, como resultado, quando você pede para tocar um álbum antigo de Bob Dylan no Spotify, ele não se perde no meio do caminho. Ele sabe ir até a página do artista de Dylan, organizar os álbuns por data de lançamento, rolar para baixo e colocar um dos mais antigos na fila. Ou como você faz isso.


Você pode ver o processo no vídeo do coelho aqui .

Créditos da imagem: Rabbit 

Ele já sabe como trabalhar com vários aplicativos e serviços comuns, mas se você tiver um que ele não conhece, o Rabbit afirma que o R1 pode aprender apenas observando você usar o aplicativo por um tempo - embora esse modo de ensino tenha vencido. não estará disponível no lançamento. (Lyu disse que eles fizeram funcionar no Diablo 4, então provavelmente pode lidar com AllTrails.)


Mas é claro que o R1 não pode pressionar esses botões no aplicativo sozinho – por um lado, ele não tem dedos para pressioná-los e, por outro, não tem uma conta. Para o segundo problema, a Rabbit montou o que chama de “toca do coelho”, uma plataforma onde você ativa serviços com suas credenciais de login, que não são salvas. Depois que eles estão ativos, o servidor opera o aplicativo pressionando botões comuns, como você faria, mas em algum tipo de ambiente emulado (eles não foram muito específicos sobre isso).


“Pense nisso como passar seu telefone para seu assistente”, disse Lyu, presumindo generosamente que todos estamos familiarizados com essa conveniência específica. “Tudo o que fazemos é fazer com que essa coisa aperte botões para você. E tudo o que eles veem no back-end é você tentando fazer coisas. É perfeitamente legal e está dentro dos termos de serviço.”


Menor, mais barato, mais rápido

A empresa claramente trabalhou muito no lado técnico, mas a verdadeira questão é se alguém realmente desejará carregar essa coisa além de um telefone. Custa US $ 200, sem assinatura, mas você precisará fornecer um cartão SIM. É mais barato que os AirPods e traz muitas promessas divertidas.

Créditos da imagem: Rabbit

Uma coisa que claramente tem a seu favor é a aparência. Como se o Playdate tivesse um primo fundador de uma startup que dirigisse um Tesla vermelho brilhante com placas personalizadas (você conhece o tipo). Foi desenhado pela Teenage Engineering, que faz com que tudo valha a pena hoje em dia.


Você pode perguntar: por que há uma tela em algo com quem você deveria conversar? Bem, a tela é necessária para mostrar coisas visuais como os resultados de suas pesquisas ou confirmar sua localização. Estou dividido aqui. Alguém pensa, bem, de que outra forma você vai fazer isso? O outro pensa: se você precisa confirmar tudo isso em primeiro lugar, por que não usar o telefone que está no outro bolso?


Claramente, a equipe da Rabbit pensa que abrir este gadget pequeno (3 ″ x 3 ″ x 0,5 ″) e leve (115 gramas) e dizer o que deseja e, em seguida, usar a roda de rolagem e o botão para navegar pelos resultados é uma experiência mais simples. do que usar o aplicativo em muitos casos. E posso ver como isso pode ser verdade: muitos aplicativos são mal projetados e agora também apresentam o perigo adicional dos anúncios.


Mas por que a câmera? Esse é um recurso sobre o qual não consegui obter uma resposta direta. Ele tem um eixo magnético/flutuante interessante para que ele gire para ficar nivelado e apontando na direção que você quiser. Parece haver alguns recursos que ainda não estão prontos para serem lançados - pense “quantas calorias tem neste saco de doces?” ou “quem projetou este edifício?” e esse tipo de coisa. Videochamadas e mídias sociais podem estar disponíveis.


O dispositivo já está disponível para pré-encomenda e Lyu disse que pretende enviá-lo para os EUA no final de março.


Competição assustadora

A grande questão no final do dia, no entanto, não é se o Rabbit R1 é bem sucedido naquilo que se propõe a fazer – pelo que posso dizer, é verdade – mas se essa abordagem é viável face a ameaças extremamente poderosas. concorrência.


Google, Apple, Microsoft, OpenAI, Anthropic, Amazon, Meta – cada um deles e muitos outros estão trabalhando duro para criar agentes de aprendizado de máquina mais poderosos todos os dias. O maior perigo para o Rabbit não é que ninguém o compre, mas que, em seis meses, uma empresa de cem mil milhões de dólares crie o seu próprio agente de ação que faz 80% do que o Rabbit faz e o torna acessível gratuitamente no seu computador. Smartphone.


Perguntei a Lyu se isso era uma preocupação para ele e sua empresa, que com 17 funcionários não está no mesmo nível.


“É claro que estamos preocupados”, respondeu ele, “somos uma startup. Mas só porque eles podem fazer isso não significa que precisamos parar.”


Ele destacou que, apesar dos vastos recursos, essas empresas também carecem da agilidade de uma startup, que envia hoje o que poderá enviar parte mais tarde, e também os dados. Os modelos de linguagem, ressaltou ele, são “baseados em uma receita aberta – cinco artigos, é isso”. Há poucas oportunidades de criar um fosso lá. Mas o LAM da Rabbit é construído com base em dados proprietários e visa uma experiência de usuário muito específica em um dispositivo muito específico.


Mesmo assim, mesmo que o Rabbit R1 seja melhor ou mais fofo, as pessoas preferem a simplicidade e a comodidade. Por que eles pagariam para carregar um segundo dispositivo quando o primeiro executa a maioria dessas tarefas? No curto prazo, a resposta é sim: Lyu disse que as pré-encomendas estão aumentando. O Rabbit viverá para produzir a próxima geração, presumivelmente o R2? Mesmo que não o façam, este pequeno dispositivo pode viver na nossa memória como um exemplar adequadamente ambicioso do zeitgeist da IA.

*TechCrunch