Ma che cos’è Python?

0
342
Ph: geralt/Pixabay

La tecnologia ha ormai un ruolo centrale nel mondo della traduzione. Nonostante qualche scetticismo, sarebbe impossibile immaginare il lavoro di un’agenzia di traduzione senza l’impiego dei cat tools, i software di traduzione automatica. Quella impiegata oggigiorno è la traduzione automatica neurale, in cui le parole sono associate a vettori e il sistema, che non sa cosa voglia dire nel concreto una parola, va a trovare la parola a cui quella viene associata più spesso. Questo permette di lavorare sulle collocazioni, migliorando sensibilmente la resa dei programmi di traduzione automatica. Certo, si rende ancora necessario (per fortuna) l’intervento di un traduttore professionista, ma in alcuni casi sono degli strumenti molto utili.

Appare quindi ormai superfluo sviluppare nuove tecnologie, o nuovi software, dato che ce ne sono già parecchi che funzionano, anche discretamente. Quello che più di tutti caratterizza il periodo storico in cui ci ritroviamo è la grande mole di dati. Ed è così anche nel mondo della traduzione: le memorie di traduzione che alimentano i cat tools sono enormi, e questa è un’arma a doppio taglio. Sono sempre più numerosi i dati da cui il software può ricavare la traduzione corretta, ma non è detto che sia sempre così, per l’appunto. Inoltre, i documenti gestiti dalle agenzie possono contenere dati sensibili, che non possono finire online per essere elaborati da un software di traduzione automatica come DeepL. Diventa fondamentale il processo di ripulire queste banche di dati traduttivi, per assicurarsi un buon prodotto finale e la tutela delle informazioni sensibili.

In questo contesto, da marzo 2023 a questa parte, assieme alla mia compagna di corso Chiara Ciraolo, e grazie all’entusiasmo trascinante del professor Galati, postosi al nostro livello, ci siamo addentrati nel mondo di Python, un linguaggio di programmazione molto diffuso nel settore dell’analisi dati. Armati di santa pazienza, abbiamo seguito qualche webinar e svolto alcuni esercizi per apprendere le nozioni di base di questo linguaggio. Abbiamo poi cercato di capire quali potessero essere i risvolti pratici. Una domanda ci riportava sempre sulla terra: ma che cosa se ne fa un traduttore, di tutta questa roba?

Così abbiamo giocato, sperimentato, ci siamo dati alla lettura del libro di Serena Sensini Analisi del linguaggio con Python (Apogeo, 2019), a volte fallendo, a volte conseguendo qualche piccolo successo. Nonostante i risultati di errore, e le lunghe stringhe di codice, con l’aiuto di Chat GPT siamo riusciti a muovere i primi passi in questo mondo a noi sconosciuto. E quindi abbiamo cercato di fare alcuni esperimenti sulla sentiment analysis, sull’analisi linguistica attraverso la tokenizzazione e la lemmatizzazione, sulla ricerca di anglismi all’interno di un testo. Siamo ancora lontani da una padronanza totale di questo mezzo, e forse non è nemmeno il nostro obiettivo. Quel che è sufficiente è averne una conoscenza di base, che ci permetta di capire di cosa si parla quando ci si rapporta a esperti informatici e che ci consenta di evitare il senso di disorientamento totale nei confronti di questo linguaggio.

Alla fine di questa prima fase, ci siamo posti l’obiettivo di condurre un esperimento di analisi linguistica. Partiti da un corpus molto sostanzioso di articoli in spagnolo e italiano sul covid, gentilmente prestatici dal nostro compagno di corso Fabrizio Di Malta, abbiamo cercato di estrapolarne gli anglismi. Dopo una serie di problemi tecnici di accesso ai siti, appartenenti tutti a note testate giornalistiche e quindi coperti da paywall (il giornale vuole ovviamente che ci abboniamo per poter leggere i contenuti), abbiamo abbassato l’asticella. Abbiamo creato un corpus, in spagnolo, usando alcuni estratti dal sito della Apple, sempre in spagnolo. Grazie a un modello pre-allenato su un’enorme quantità di dati siamo stati quindi capaci di identificare gli anglismi nel testo: si è reso necessario il controllo dei dati, una sorta di post-editing, ma grazie a questo metodo siamo stati sicuramente più veloci di quanto non sarebbe avvenuto se avessimo dovuti individuarli a mano. E ora, imparato come funziona, ci metteremmo sicuramente molto meno a riproporre questa analisi su un altro corpus.

Source: Emanuele Zambuto, Screenshot del risultato contenente gli anglismi nel corpus di riferimento

Come ci racconta Chiara Ciraolo, la pitonessa, “Il nostro Club dei pitoni è nato quasi per gioco e totalmente a caso: Emanuele ed io avevamo voglia di lanciarci in qualcosa di nuovo, il prof. Galati ci ha dato i mezzi e ci ha aiutati a impostare il lavoro. Non è stato un percorso rettilineo il nostro, ci sono stati alti e bassi, a volte riuscivamo al primo colpo a far funzionare il codice, altre volte invece abbiamo dovuto rinunciare perché magari avevamo puntato troppo in alto. Ciononostante, ci sono state sempre delle costanti: la voglia di imparare qualcosa di nuovo e di smanettare, la curiosità, l’entusiasmo, il sostegno reciproco, il desiderio di migliorarsi e di superare gli ostacoli. Abbiamo già altri mille progetti in mente e non vediamo l’ora di sperimentare qualcosa di nuovo. Uno di questi consiste nella pulizia delle memorie di traduzione per addestrare un sistema di traduzione automatica… sicuramente un progetto ambizioso, ma noi non ci lasciamo spaventare dalle sfide. Stay tuned per vedere se ci riusciremo!”

Quello che mi ha lasciato di più quest’esperienza è sicuramente l’importanza di interessarsi ad argomenti al di fuori delle nostre competenze. Anche se qualcosa appare come una sfida molto ardua, non bisogna lasciarsi scoraggiare; anzi, dev’essere uno stimolo a impegnarsi ancora di più. E ciò che ha reso meno frustrante, addirittura piacevole, questa esperienza sono senza dubbio i miei compagni di viaggio, che mi hanno trasmesso soprattutto il desiderio di imparare e di smanettare. Forse non c’è una risposta alla domanda “Che cosa se ne fa un traduttore di Python?”. Spinti dalla passione per la conoscenza, tra tantissimi errori di codice e qualche gioia per un risultato finalmente riuscito, continueremo a provarci. Come diceva il prof Martinelli, la carogna in Notte prima degli esami: “L’importante non è quello che trovi alla fine di una corsa, l’importante è quello che provi mentre corri”.