|
|

Conversione di file OCR per la traduzione dall'arabo

Pubblicato il 04/06/2021

Se hai già richiesto un preventivo di traduzione per i tuoi documenti in arabo, probabilmente conosci già la risposta della maggior parte dei gestori di progetti di traduzione.

Non hai il file in un formato editabile?

Anche se può non sembrarlo, sappiamo perfettamente quanto può risultare fastidiosa questa domanda, soprattutto se sei uno di quei clienti che inviano sempre tutti i documenti nel loro formato originale.

Devi però anche capire che per le agenzie di traduzione è molto più facile, veloce ed economico processare e preparare i file inviati in formato editabile.

Ebbene, nonostante tutto, ti capiterà sempre qualche documento che è stato scannerizzato e convertito in PDF. Credo sinceramente che questo sia il peggior formato con cui lavorare, anche se non significa che non sia possibile.

In quest’articolo, confronterò alcuni dei programmi che le agenzie di traduzione utilizzano solitamente per gestire ed elaborare questo tipo di documentazione redatta in arabo. Ho scelto l'arabo perché è una lingua molto tradotta e con cui non tutti i programmi sono in grado di lavorare, quindi è necessario indagare un po' più a fondo nel mondo dei programmi per l’estrazione del testo.

Índice de contenidos

Index of contents

Index du contenu

Inhaltsverzeichnis

Indice dei contenuti

  1. Cosa significa OCR?
  2. Adobe Acrobat Pro DC
  3. OmniPage Ultimate
  4. Readiris 17
  5. ABBYY FineReader
  6. Conclusione

1. Cosa significa OCR?

OCR

Quando lavoriamo con file che, una volta digitalizzati, si trasformano in immagini nelle quali non è possibile selezionare il testo con il mouse, non possiamo utilizzare un semplice programma per l’estrazione del testo come nel caso dei file PDF nei quali il testo è selezionabile. Ecco qui due esempi in cui si può vedere la differenza:

  • PDF in formato editabile

PDF in formato editabile

  • PDF in formato non editabile

PDF in formato non editabile

Il primo tipo di testo può essere selezionato e ciò significa che qualsiasi programma per l’estrazione del testo, gratuito o meno, può estrarre il testo senza alcun problema. Nel secondo caso il file PDF ci permette solo di selezionare un'area del documento, ma non una parte del testo in sé, per cui un programma per l’estrazione del testo non sarà in grado di riconoscere i caratteri presenti nel documento.

Puoi provarci con qualsiasi programma per l’estrazione del testo, tutti ti offriranno risultati simili.

Tra la moltitudine di programmi per l’estrazione del testo disponibili oggi sul mercato, quelli che fanno la differenza nella conversione di file PDF non modificabili sono i programmi di estrazione OCR. OCR è l’acronimo inglese di "Optical Character Recognition", che in italiano si traduce come “riconoscimento ottico dei caratteri". Come suggerisce il nome, questi programmi non solo riconoscono i caratteri modificabili di un documento, ma sanno anche rilevare il testo in un documento scannerizzato, ad esempio.

E qui verrebbe da dire: bene, abbiamo finito. Non così in fretta... per quanto buoni possano essere questi programmi, lasciano ancora molto a desiderare. È vero che possono darti un'idea approssimativa del volume di lavoro, ma non è conveniente lavorare con loro al momento di tradurre.

A continuazione, puoi consultare i risultati ottenuti con diversi programmi per l’estrazione del testo.

2. Adobe Acrobat Pro DC

Adobe Acrobat Pro DC

Il primo programma che mi piacerebbe presentare è Adobe Acrobat Pro DC. Se sei abituato a lavorare con il computer, è un programma che non dovrebbe mancare nella tua lista di strumenti, poiché non solo ti permette di visualizzare, ma anche di creare, modificare, organizzare le pagine, commentare, compilare, firmare e correggere qualsiasi documento in formato PDF.

Inoltre, permette anche di estrarre il testo ed è abbastanza pratico, dato che quando ricevi un documento in formato PDF e lo apri, si apre direttamente in questo programma e servono solo due clic in più per estrarre il testo. Insomma, è sempre il primo con cui provo.

Prendendo come riferimento il documento non modificabile che hai visto nell'esempio sopra, ecco come risulterebbe convertito in Adobe Acrobat DC:

Adobe Acrobat Pro

No, non è uno scherzo. Un programma potente come questo dà risultati pessimi quando si tratta di estrarre testo redatto in arabo.

Credo che uno dei motivi possa essere il fatto che non si possa indicare in quale lingua è redatto il testo, ma che il programma lo "riconosca" automaticamente. Facilitando il lavoro di rilevamento della lingua al programma, quest’ultimo cerca solo nel suo database di caratteri di X lingua invece che nel database in cui si trovano i caratteri di tutte le lingue.

Comunque sia, non raccomando affatto questo programma per l'estrazione di testo redatto in arabo.

3. OmniPage Ultimate

OmniPage Ultimate

La seconda applicazione con cui di solito provo dopo aver fallito nell'estrazione del testo con Adobe è OmniPage Ultimate.

A differenza di Adobe, OmniPage permette di selezionare la lingua del documento con un semplice clic destro sul file. Qual è il problema allora? Che nell'elenco delle lingue non appare l'arabo. Appaiono il wolof e lo zulu ma non l'arabo In questi casi puoi provare a utilizzare l'opzione “Rileva automaticamente la lingua” e otterrai questo risultato:

Traduzione

Come puoi vedere, nemmeno questo è ciò che stiamo cercando, anche se devo ammettere che sia Adobe che OmniPage funzionano meravigliosamente per l'estrazione del testo in altre lingue.

3. Readiris 17

Readiris 17

La terza opzione per estrarre il nostro testo redatto in arabo e convertirlo in un formato modificabile è Readiris 17.

Si tratta di un programma un po' più sofisticato di Adobe e OmniPage per l'estrazione del testo redatto da destra a sinistra, come nel caso dell'arabo. Il programma ti permette di indicare in ogni pagina quale sezione corrisponde a testo, quale a immagini, ecc.

È vero che richiede un po' più di tempo di preparazione in confronto con altri programmi che non offrono quest’opzione di selezione per pagina, ma vedendo il risultato è evidente che lo sforzo ne vale la pena:

Arabo

Offre risultati migliori rispetto ai due programmi precedenti, anche se per documenti più lunghi ancora si rivela insufficiente, poiché inserisce molti salti di sezione che non appaiono nel documento originale e altre inconsistenze nel formato che implicano un significativo lavoro di impaginazione in seguito.

4. ABBYY FineReader

ABBYY FineReader

L'ultimo programma che mi piacerebbe presentare e che, a mio parere, è il miglior programma per estrarre testo non modificabile redatto in arabo è ABBYY Fine Reader.

Si tratta di un programma a pagamento, come tutti gli altri che ho presentato in quest’articolo. Ti permette di indicare pagina per pagina quali sezioni sono testo, quali includono immagini e quali sono tabelle di testo.

A seconda della precisione delle tue indicazioni, il programma genererà un documento più o meno accurato. Io non ho modificato molto e il risultato è stato il seguente:

Arabo

Confrontandolo con il documento originale, possiamo dire che sono quasi identici:

Arabo

Sia nel preparare un preventivo sia nel tradurre questo documento otterremo risultati molto più precisi rispetto a qualsiasi altro programma che hai potuto conoscere in quest’articolo. Per me ABBYY è quindi il chiaro vincitore per quanto riguarda l'estrazione di testo non modificabile redatto in arabo.

5. Conclusione

Conclusione

Come hai potuto vedere, non tutti i programmi che permettono di estrarre il testo da file in formato non modificabile offrono gli stessi risultati, almeno quando si tratta di testi redatti in arabo. Lavoro spesso con tutti questi programmi e, a meno che non si tratti di un formato davvero problematico con una lingua poco comune, di solito non danno alcun tipo di problema. Tutt'altro!

Non raccomando l'uso di estrattori di testo gratuiti, poiché non si può mai sapere dove finiranno i nostri file. Se si tratta di un documento di uso privato non confidenziale non ha molta importanza, ma eviterei di caricare file importanti della tua azienda che contengano informazioni confidenziali su queste pagine di uso gratuito.

Spero di averti mostrato un po' il pane quotidiano dei gestori di progetti di traduzione nella loro instancabile lotta contro i file PDF scannerizzati. La prossima volta che ti invieranno un PDF da tradurre, chiedi prima se l’azienda dispone ancora del formato originale del file; in questo modo non solo ridurrai i costi, ma migliorerai significativamente il formato finale della traduzione. Per non parlare dell'immenso favore che farai ai gestori di progetti!

Forse potrebbero interessarti anche questi altri blog:

Aggiungi un commento