La segmentazione nella traduzione e il formato standard SRX

Dietro una buona segmentazione del testo ci sono molti aspetti che fanno la differenza tra una buona e una cattiva gestione dei progetti. Tra questi, evidenzierei: budget, gestione delle memorie di traduzione e qualità della traduzione.
Affronteremo in questo blog alcune di queste questioni, passando dagli aspetti più generali della segmentazione a questioni più concrete e tecniche.
[TOC]
Che cos'è la segmentazione?
Quando inseriamo un file per la traduzione in uno strumento CAT come Trados Studio o memoQ, questo lo elabora dividendo il testo traducibile in segmenti. Ciascuno di questi segmenti di solito coincide con una frase, identificata dallo strumento grazie ai segni di punteggiatura.
Una volta segmentato il testo, il compito del traduttore sarà fornire una traduzione per ciascun segmento, chiamato anche unità di traduzione. Questo è essenziale per lavorare con memorie di traduzione in quanto permette di identificare corrispondenze, cioè unità di traduzione che sono già nella memoria di traduzione o che si ripetono nel testo, in modo da automatizzare la traduzione di questi segmenti.
Come già menzionato, il criterio base per definire come segmentare un testo è la punteggiatura. In realtà, le regole di segmentazione sono più complesse, e ogni strumento può stabilirle in modo diverso. Ad esempio, SDL Trados Studio le determina a partire dalla memoria di traduzione applicata al progetto, mentre memoQ le applica direttamente al progetto. Inoltre, ogni strumento offre diverse opzioni per modificare queste regole, che descriveremo nel dettaglio più avanti.
In generale, le regole di segmentazione determinano due aspetti: da un lato, i segni di punteggiatura che segnano la fine di un segmento e, dall'altro, le eccezioni a queste regole.
Per fare l'esempio più tipico, se stabiliamo che dopo un punto bisogna effettuare un salto di segmento, possiamo indicare una serie di abbreviazioni seguite da punto affinché, quando appaiono, lo strumento mantenga lo stesso segmento fino al punto successivo.
Infine, va sottolineato che le regole di segmentazione sono una risorsa linguistica. Hanno una serie di elementi comuni a tutte le lingue,ad esempio il punto alla fine di ogni segmento, ma altri sono specifici per ciascuna lingua e devono essere modificati singolarmente.
Standardizzare le regole di segmentazione: il formato SRX
Segmentation Rules eXchange (SRX) è uno standard aperto basato su XML che fornisce un insieme comune di espressioni regolari per definire e condividere le regole di segmentazione. Come il formato TMX, è stato sviluppato dalla Localization Industry Standards Association (LISA) e mantenuto dal 2011 dalla Global and Localization Association (GALA). Nasce dal problema che uno strumento CAT poteva segmentare i testi in modo diverso rispetto alla memoria, impedendone un utilizzo efficace.
Il formato SRX si basa su espressioni regolari, che vengono utilizzate per definire le regole di segmentazione. Le espressioni regolari sono modelli basati sulla codifica Unicode che permettono di determinare e localizzare una serie di caratteri all'interno di un testo. Ad esempio, per quanto riguarda le regole di segmentazione, le espressioni regolari ci permettono di dire al programma di localizzare minuscole, maiuscole, parentesi e virgolette di chiusura, numeri e qualsiasi segno di punteggiatura, e di utilizzarli come criterio per sapere quando effettuare un salto di segmento.
Tuttavia, alcuni programmi dispongono di opzioni semplificate per poter introdurre questi caratteri senza dover ricorrere alle complesse espressioni regolari. Queste potranno sempre essere utilizzate per una configurazione delle regole di segmentazione più avanzata.
Oltre alla possibilità di modificare le regole di segmentazione, l'implementazione dello standard SRX negli strumenti CAT permette di esportare e importare file, per poter applicare le stesse regole di segmentazione in un altro progetto o strumento diverso. Di seguito, vedremo in modo più dettagliato le possibilità che il formato SRX ci offre in due dei principali strumenti: SDL Trados Studio e memoQ.
Implementazione del formato SRX in Trados Studio
Trados Studio non ha implementato lo standard SRX; tuttavia, quando si apre un file da tradurre in SDL Trados Studio, il programma effettua una segmentazione basata sulle regole di segmentazione predefinite.
Per modificare le regole di segmentazione in SDL Trados Studio, facciamo clic destro sulla memoria di traduzione e apriamo il pannello di configurazione. Una volta lì, andiamo alle risorse linguistiche e ci verranno mostrate le opzioni di configurazione per ciascuna di esse. Cerchiamo la colonna delle regole di segmentazione e accediamo all'editor nella lingua per cui vogliamo modificarle.
Successivamente, ci verrà mostrata un'opzione di segmentazione basata su paragrafo, che utilizza i marcatori di paragrafo propri di ogni tipo di file, e un'altra basata su frase, che è quella che possiamo modificare. Le regole di segmentazione predefinite includono il punto, i due punti e i segni di interrogazione ed esclamazione, con l'eccezione che siano seguiti da una lettera minuscola.
In questo pannello, possiamo rimuovere o modificare queste regole, aggiungendo caratteri prima e dopo il salto di segmento, oltre a eccezioni, mediante l'uso di espressioni regolari. Possiamo anche aggiungere nuove regole seguendo lo stesso procedimento.
Pertanto, in Trados Studio le regole di segmentazione sono associate alla memoria di traduzione e non a un tipo di file, quindi non è possibile importarle ed esportarle in un file SRX.
Implementazione del formato SRX in memoQ
In memoQ, le regole di segmentazione sono preimpostate, ma possono essere modificate per ciascun progetto specifico. Per farlo, apriamo il progetto e accediamo alla finestra delle impostazioni. Una volta lì, selezioniamo l'icona delle regole di segmentazione (quella delle forbici) e selezioniamo il set di regole di segmentazione della lingua che desideriamo. Si aprirà un menu che ci permetterà di modificare tali regole. Troveremo una vista semplice, in cui potremo aggiungere segni di punteggiatura, nomi propri che iniziano con minuscola e abbreviazioni seguite da numeri. Nella vista avanzata, troveremo un’opzione che ci permetterà di usare espressioni regolari per una configurazione più complessa delle regole di segmentazione.
Nella stessa finestra vi è un'opzione che permette di esportare e importare un file SRX per poter utilizzare le stesse regole di segmentazione in altri progetti e strumenti. È importante tenere presente che, esportando un file SRX, si potrebbe perdere parte delle informazioni sulle eccezioni alle regole di segmentazione poiché, in memoQ, queste sono più sofisticate che in SRX.
Forse potrebbero interessarti anche questi altri blog:

Graduado en Traducción e Interpretación por la Universidad de Granada, especializado en francés y chino. Ha trabajado en varios proyectos de traducción literaria y traducción web entre España y Francia. Actualmente, es asistente de gestión de proyectos y redactor de contenidos en AbroadLink.
Aggiungi un commento