Page 104 - Rassegna 2022-3
P. 104

DOTTRINA




                  Il dataset  adoperato dagli autori per addestrare il modello di ML è repe-
                          (32)
             ribile al seguente indirizzo . Questo contiene testi prelevati da 25.000 tweet di
                                      (33)
             Twitter e annotati manualmente secondo le tre categorie sopra riportate.


             6.  Conclusioni
                  Come presentato in questo articolo, l’esigenza di adoperare sistemi capaci
             di individuare e di classificare l’hate speech nei testi fornirebbe un importante
             contributo per la lotta online di questo fenomeno. I problemi principali riscon-
             trati in questo ambito spaziano dalla mancanza di una definizione precisa per il
             termine hate speech, fino all’assenza di dataset in lingua italiana, condivisi pubbli-
             camente  e  largamente  adoperati  nell’ambito  scientifico  per  poter  progettare
             sistemi in grado di offrire una certa percentuale di affidabilità nel riconoscimen-
             to dei messaggi d’odio nei testi. Inoltre, alcuni dei migliori sistemi attualmente
             presenti sono significativamente sovrastimati a causa di problemi sperimenta-
             li . I problemi riscontrati in tali sistemi sono per lo più legati all’overfitting e al
              (34)
             campionamento dei dati: le distribuzioni delle categorie sui dataset di hate speech
             hanno infatti un notevole impatto sui risultati finali di classificazione dei siste-
             mi; così come l’inclusione dei dati di test durante la fase di addestramento del
             modello di ML.
                  Tutto ciò a dimostrazione del fatto che sia la presenza di dataset ben strut-
             turati che la modellazione corretta del problema, sono aspetti essenziali in que-
             sto ambito di ricerca.
                  Quanto riportato in questo articolo, però, non vuole avere carattere esau-
             stivo per il contrasto dell’hate speech online perchè oltre alle misure di controllo,
             monitoraggio e punizione delle condotte che alimentano l’odio online bisogne-
             rebbe  condurre  anche  un  paziente  lavoro  educativo,  formativo  e  culturale
             soprattutto per gli utenti più giovani.


             (32)  T. DAVIDSON, D. WARMSLEY, M. MACY, I. WEBER, Automated hate speech detection and the problem
                  of  offensive language, 2017, doi: 10.48550/ARXIV.1703.04009.
             (33)  https://github.com/t-davidson/hate-speech-and-offensive-language.
             (34)  S.  AGRAWAL,  A.  AWEKAR,  Deep  Learning  for  Detecting  Cyberbullying  Across  Multiple  Social
                  Media Platforms, Lecture Notes in Computer Science, pagg. 141-153, 2018, doi: 10.1007/978-
                  3-319-76941-7_11; P. BADJATIYA, S. GUPTA, M. GUPTA, V. VARMA, Deep Learning for Hate
                  Speech Detection in Tweets, Proceedings of  the 26th International Conference on World Wide Web
                  Companion (WWW ’17 Companion), 2017, doi: 10.1145/3041021.3054223; Z. WASEEM, D.
                  HOVY, Hateful Symbols or Hateful People? Predictive Features for Hate Speech Detection on Twitter,
                  Proceedings of  the NAACL Student Research Workshop, 2016, doi: 10.18653/v1/n16-2013;
                  A. ARANGO, J. PÉREZ, B. POBLETE, Hate speech detection is not as easy as you may think: A clo-
                  ser look at model validation (extended version), Inf. Syst., vol. 105, no. 101584, pag. 101584,
                  Mar. 2022.

             102
   99   100   101   102   103   104   105   106   107   108   109