Nel Word Embedding c’è del sessismo

 “There have been hundreds or thousands of papers written about word embeddings and their applications, from Web search to parsing Curriculum Vitae. However, none of these papers have recognized how blatantly sexist the embeddings are and hence risk introducing biases of various types into real-world systems”.

“Si trovano centinaia o migliaia di documenti a proposito del word embedding e delle sue applicazioni, dalle ricerche in rete all’analisi dei Curriculum Vitae. Tuttavia, nessuno di questi documenti parla di quanto il word embedding sia palesemente sessista e quanto, di conseguenza, sia alto il rischio che esso insinui pregiudizi nel mondo reale”.

Leggendo le prime righe di questo studio che proverebbe (finalmente) la diffusa tendenza dell’informazione digitale a stereotipi sessisti di vario genere, mi si è composta nella mente l’immagine del team di ricercatrici femministe della Boston University in marcia a pugni levati contro il gender bias di Word2vec.

In visibilio, per prima cosa ho indagato sulla mente dietro lo studio, convinta di trovarvi una fervente attivista per i diritti degli omosessuali e, idealmente, un’amica di penna: Tolga Bolukbasi è in verità uno stagista di Microsoft, con un feticismo verso gli algoritmi dell’intelligenza computazionale e verso il kebab. La scoperta non ha comunque indebolito la mia curiosità rispetto all’argomento. E anzi, mi ha spinta ad interrogarmi, prima di eseguire tutti gli approfondimenti del caso, su come ci si debba sentire a fare caffè e fotocopie in una società da 90 miliardi di dollari.

Non trovando risposta, mi sono messa al lavoro.
Prima che vi parli di word embedding però, è necessario che faccia una premessa.

Nel 2013 un team di Google, sotto l’attenta supervisione di Thomas Mikolov, crea un modello su due livelli di reti neurali istruite per riprodurre contesti di parole, e capaci di ricavare concetti simili partendo da concetti noti, in modo automatico. Associando ad ogni parola un vettore di x dimensionalità, in base al numero di parole nello stesso contesto, il modello definisce automaticamente una metrica, ossia parole simili che corrispondono a punti vicini nello spazio vettoriale. I dati presenti in questo spazio sono dati forniti da Google News e, se interrogati, producono associazioni tra parole simili attraverso semplici equazioni.

Il meccanismo di associazione prende il nome di word embedding, e il modello creato da Mikolov per attivarlo è il Word2vec.

Thomas Mikolov. Non l’asiatico, l’altro.

Per evitare che vi si surriscaldino le meningi, riporterò un esempio. Interrogando la base dati di Google News con l’equazione:

uomo : re = donna : x 

il risultato sarà x = regina.

Tutto qui. Ma a che serve?
Quei bravi ragazzi di Google hanno creato un toolkit da utilizzare ad esempio nei processi di machine transaltion (quelli dei traduttori automatici, per intenderci), dove il word embedding avviene tra corpus di parole appartenenti a linguaggi diversi. Auspicabilmente, questo dovrebbe rendere le traduzioni di Google Translate meno fantasiose e limitare i mostri a cui tutti noi siamo abituati.

Ma, venendo a quanto rilevato dal nostro Tolga, a quanto pare non è tutto oro ciò che è Google.

Interrogando il modello con equazioni come “padre : dottore = madre : x” o “uomo : programmatore = donna : x”, Tolga registrava come risultati rispettivamente “x = infermiera” e “x = casalinga”, che lui ha definito blatantly sexist, palesemente sessisti. E se il nome “programmatore” è più facilmente associato al genere maschile, immaginate allora di eseguire una qualunque ricerca in rete con i termini “programmatore CV”, ad esempio. Di certo non fareste fatica a credere che nel ranking di una ipotetica ricerca di lavoro, siano più favoriti gli uomini rispetto alle donne. Povere casalinghe.

Sottoposto il caso ad Amazon Mechanical Turk, che ha confermato la tendenza del tool a stereotipi sessisti, il team di Microsoft ha elaborato una soluzione, la più ovvia: poiché lo spazio vettoriale è un oggetto della matematica, l’unico modo per intervenirvi è attraverso la matematica. Con la manovra definita hard de-biasing è stato possibile intervenire, piuttosto che sulla singola anomalia, sul meccanismo che genera le combinazioni lui : lei. Invertitane la tendenza, i ricercatori hanno potuto compilare una nuova serie di combinazioni che rispettassero l’uguaglianza tra generi nel processo di word embedding. I risultati ottenuti sono stati più che soddisfacenti.

Io e Tolga Bolukbasi, però, restiamo d’accordo sul fatto che il dilagare di stereotipi sessisti e discriminazioni di genere sia solo in parte (e non per questo meno importante, chiaramente) una questione di tool. Il vero spazio nel quale attivare una inversione di tendenza non è quello virtuale. E probabilmente occorre qualcosa di più di una risposta matematica.

Ciò detto, perché siamo sportivi, scusiamo Google per l’ennesima débâcle.

In copertina: Portraits (1924 – 1937) | Alexander Rodchenko