Page 102 - Rassegna 2022-3
P. 102

DOTTRINA




                  Inoltre, nonostante i social media siano piattaforme contenenti numerosi
             messaggi di hate speech, spesso le policy di utilizzo e distribuzione dei dati ne
             impediscono l’utilizzo per terzi fini (tranne Twitter che adotta una politica di uti-
             lizzo dei dati più indulgente). Tutto ciò si traduce in un numero davvero esiguo
             di dataset disponibili sul fenomeno dell’hate speech. In particolare la maggior parte
             dei dataset su hate speech disponibili online sono in lingua inglese, mentre per la lin-
             gua italiana manca un dataset di riferimento da poter usare come baseline  per
                                                                                  (19)
             futuri lavori.
                  Il sistema di riconoscimento automatico per l’hate speech si occupa di ana-
             lizzare dati testuali che sono generalmente costituiti da parole, frasi, paragrafi o
             commenti prelevati da diversi social network.
                  Applicando quanto detto al problema dell’hate speech, quello che si vuole
             ottenere è un modello che, dato un testo nuovo come input che chiamiamo T,
             questo sia in grado di restituire come output Vero, se T contiene hate speech o
             Falso altrimenti.
                  Chiaramente esistono differenti schemi di annotazione e non esiste sola-
             mente quello binario in cui sono presenti solo due valori (Vero e Falso), mutua-
             mente esclusivi, per marcare la presenza o l’assenza di un dato fenomeno .
                                                                                    (20)
                  Il problema principale con gli algoritmi di apprendimento automatico è
             che questi non possono lavorare direttamente sui dati grezzi. Abbiamo infatti
             bisogno di tecniche che si occupino di convertire i dati (testi, immagini, serie
             temporali, ecc.) in caratteristiche numeriche ed elaborabili dalle macchine.
                  È proprio grazie a questa trasformazione in caratteristiche numeriche
             che i modelli di ML possono eseguire tutte le operazioni algebriche necessarie
             sui dati. Al centro del ML vi è quindi un algoritmo che apprende i pattern
                                                                                      (21)
             presenti nei dati di input, in modo da predire pattern simili in dati che non ha
             mai analizzato e visto prima; il tutto chiaramente con una certa percentuale
             di precisione.


             5.  Esempi di applicazioni
                  In  questa  sezione  riportiamo  alcuni  tool  liberamente  disponibili  su
             Internet per l’individuazione di hate speech nei testi. Dalla nostra ricerca è risul-
             tato che quelli liberamente fruibili online e pronti all’uso, sono unicamente due.

             (19)  Punto di riferimento (dataset di base).
             (20)  F. POLETTO, V. BASILE, M. SANGUINETTI, C. BOSCO, V. PATTI, Resources and benchmark corpora for
                  hate speech detection: a systematic review, Lang. Resour. Eval., vol. 55, no. 2, pagg. 477-523, Jun. 2021.
             (21)  Per pattern si intende un particolare insieme di caratteristiche che si ripete secondo una spe-
                  cifica struttura.

             100
   97   98   99   100   101   102   103   104   105   106   107