Transcrever fala livre em português-BR é uma tarefa relativamente resolvida para contextos gerais. Transcrever fala livre de um radiologista ditando achados, com nomes anatômicos, siglas, medidas, duplo-negativos e correções em voz alta — não é a mesma tarefa. Essa é a parte que modelos genéricos erram feio.
Três problemas específicos.
- Vocabulário técnico: 'ateromatose', 'microatelectasias', 'hiperecogenicidade' simplesmente não estão nos corpora gerais.
- Medidas e unidades: '2,5 por 1,8 centímetros' precisa sair como '2,5 x 1,8 cm', não como texto corrido.
- Pontuação ditada implicitamente: 'ponto, próximo campo' versus o que é parte do texto.
O caminho que funcionou.
Em vez de empilhar regras por cima de um modelo genérico, retreinamos a base no domínio — com ditados reais, revisados por radiologistas, em múltiplas modalidades. O modelo resultante não é 'melhor em tudo': é quase igual em conversa casual e muito melhor em fala clínica. Trocamos generalidade onde não importava por precisão onde importava.
A decisão mais difícil em ML aplicado é escolher em que você vai ser pior.
O controle de vocabulário.
Um detalhe que diferencia nosso pipeline é permitir que cada radiologista defina o vocabulário que quer usar. Isso muda a IA de 'criativa' para 'determinística': ela só produz termos autorizados, e quando encontra ambiguidade, pergunta em vez de adivinhar. Previsibilidade é uma feature subestimada em IA clínica.