Transcrever português-BR com jargão: o caminho não óbvio

Transcrever fala livre em português-BR é uma tarefa relativamente resolvida para contextos gerais. Transcrever fala livre de um radiologista ditando achados, com nomes anatômicos, siglas, medidas, duplo-negativos e correções em voz alta — não é a mesma tarefa. Essa é a parte que modelos genéricos erram feio.

Três problemas específicos.

Vocabulário técnico: 'ateromatose', 'microatelectasias', 'hiperecogenicidade' simplesmente não estão nos corpora gerais.
Medidas e unidades: '2,5 por 1,8 centímetros' precisa sair como '2,5 x 1,8 cm', não como texto corrido.
Pontuação ditada implicitamente: 'ponto, próximo campo' versus o que é parte do texto.

O caminho que funcionou.

Em vez de empilhar regras por cima de um modelo genérico, retreinamos a base no domínio — com ditados reais, revisados por radiologistas, em múltiplas modalidades. O modelo resultante não é 'melhor em tudo': é quase igual em conversa casual e muito melhor em fala clínica. Trocamos generalidade onde não importava por precisão onde importava.

A decisão mais difícil em ML aplicado é escolher em que você vai ser pior.

O controle de vocabulário.

Um detalhe que diferencia nosso pipeline é permitir que cada radiologista defina o vocabulário que quer usar. Isso muda a IA de 'criativa' para 'determinística': ela só produz termos autorizados, e quando encontra ambiguidade, pergunta em vez de adivinhar. Previsibilidade é uma feature subestimada em IA clínica.

Transcrever português-BR com jargão: o caminho não óbvio.

Três problemas específicos.

O caminho que funcionou.

O controle de vocabulário.

Todos os artigos, em um só lugar.