Em um mundo ideal todos os tradutores receberiam para traduzir apenas textos corridos em Word, sem muitas imagens nem formatações complicadas.
Infelizmente, a rotina da maioria de nós é bem diferente: os arquivos chegam nos formatos mais variados, isso quando chegam digitalizados. Muitos projetos ainda chegam às nossas mãos em papel.
E o que fazer nesses casos?
Quando o projeto chega em pdf, existem algumas alternativas para a extração do texto:
– Se o pdf for “editável”, ou seja, o pdf foi gerado diretamente do programa que criou/editou o arquivo (Word, InDesign, PageMaker ou qualquer outro), o texto pode ser extraído com programas de OCR ou outros específicos, como o Solid Converter.
– Se for pdf de imagem (cliente escaneou um texto impresso e gerou o pdf, por exemplo), a única alternativa são os programas de OCR.
Eu, pessoalmente, não gosto de programas como o Solid Converter. Eles costumam extrair bem o texto em formato do Word, mantendo até mesmo a formatação original. Mas a diagramação é feita com caixas de texto, que não são nem um pouco amigáveis com as CAT Tools. Wordfast e Trados não trabalham bem com elas. MemoQ e Déjà Vu às vezes importam, às vezes não.
Tanto para os pdfs editáveis como para os de imagem eu prefiro usar os programas de OCR, normalmente Abby Fine Reader ou ReadIris, e exporto o texto como texto simples, sem formatação. Acho mais fácil redefinir uma formatação simples que ficar brigando com caixas e mais caixas de texto do Word.
Se o texto chegar em papel ou em arquivo de imagem (jpg, bmp, tif ou png, por exemplo), o destino é o mesmo: OCR. No caso do papel, scanner seguido de OCR; no caso das imagens apenas o OCR, lendo diretamente os arquivos.
Depois disso é só usar a CAT de sua preferência.
Às vezes, o cliente pede que o texto traduzido seja entregue também em pdf. Se a formatação for simples, é só imprimir ou salvar em pdf. Já falei sobre isso aqui. No caso de uma formatação complexa, a diagramação pode demorar mais que a tradução – e deve ser cobrada, obviamente.
É preciso atentar para esses detalhes quando combinar o preço total, para não ter prejuízo. Em nosso ramo, tempo é dinheiro.