Page 102 - Rassegna 2022-3
P. 102
DOTTRINA
Inoltre, nonostante i social media siano piattaforme contenenti numerosi
messaggi di hate speech, spesso le policy di utilizzo e distribuzione dei dati ne
impediscono l’utilizzo per terzi fini (tranne Twitter che adotta una politica di uti-
lizzo dei dati più indulgente). Tutto ciò si traduce in un numero davvero esiguo
di dataset disponibili sul fenomeno dell’hate speech. In particolare la maggior parte
dei dataset su hate speech disponibili online sono in lingua inglese, mentre per la lin-
gua italiana manca un dataset di riferimento da poter usare come baseline per
(19)
futuri lavori.
Il sistema di riconoscimento automatico per l’hate speech si occupa di ana-
lizzare dati testuali che sono generalmente costituiti da parole, frasi, paragrafi o
commenti prelevati da diversi social network.
Applicando quanto detto al problema dell’hate speech, quello che si vuole
ottenere è un modello che, dato un testo nuovo come input che chiamiamo T,
questo sia in grado di restituire come output Vero, se T contiene hate speech o
Falso altrimenti.
Chiaramente esistono differenti schemi di annotazione e non esiste sola-
mente quello binario in cui sono presenti solo due valori (Vero e Falso), mutua-
mente esclusivi, per marcare la presenza o l’assenza di un dato fenomeno .
(20)
Il problema principale con gli algoritmi di apprendimento automatico è
che questi non possono lavorare direttamente sui dati grezzi. Abbiamo infatti
bisogno di tecniche che si occupino di convertire i dati (testi, immagini, serie
temporali, ecc.) in caratteristiche numeriche ed elaborabili dalle macchine.
È proprio grazie a questa trasformazione in caratteristiche numeriche
che i modelli di ML possono eseguire tutte le operazioni algebriche necessarie
sui dati. Al centro del ML vi è quindi un algoritmo che apprende i pattern
(21)
presenti nei dati di input, in modo da predire pattern simili in dati che non ha
mai analizzato e visto prima; il tutto chiaramente con una certa percentuale
di precisione.
5. Esempi di applicazioni
In questa sezione riportiamo alcuni tool liberamente disponibili su
Internet per l’individuazione di hate speech nei testi. Dalla nostra ricerca è risul-
tato che quelli liberamente fruibili online e pronti all’uso, sono unicamente due.
(19) Punto di riferimento (dataset di base).
(20) F. POLETTO, V. BASILE, M. SANGUINETTI, C. BOSCO, V. PATTI, Resources and benchmark corpora for
hate speech detection: a systematic review, Lang. Resour. Eval., vol. 55, no. 2, pagg. 477-523, Jun. 2021.
(21) Per pattern si intende un particolare insieme di caratteristiche che si ripete secondo una spe-
cifica struttura.
100