Page 104 - Rassegna 2022-3
P. 104
DOTTRINA
Il dataset adoperato dagli autori per addestrare il modello di ML è repe-
(32)
ribile al seguente indirizzo . Questo contiene testi prelevati da 25.000 tweet di
(33)
Twitter e annotati manualmente secondo le tre categorie sopra riportate.
6. Conclusioni
Come presentato in questo articolo, l’esigenza di adoperare sistemi capaci
di individuare e di classificare l’hate speech nei testi fornirebbe un importante
contributo per la lotta online di questo fenomeno. I problemi principali riscon-
trati in questo ambito spaziano dalla mancanza di una definizione precisa per il
termine hate speech, fino all’assenza di dataset in lingua italiana, condivisi pubbli-
camente e largamente adoperati nell’ambito scientifico per poter progettare
sistemi in grado di offrire una certa percentuale di affidabilità nel riconoscimen-
to dei messaggi d’odio nei testi. Inoltre, alcuni dei migliori sistemi attualmente
presenti sono significativamente sovrastimati a causa di problemi sperimenta-
li . I problemi riscontrati in tali sistemi sono per lo più legati all’overfitting e al
(34)
campionamento dei dati: le distribuzioni delle categorie sui dataset di hate speech
hanno infatti un notevole impatto sui risultati finali di classificazione dei siste-
mi; così come l’inclusione dei dati di test durante la fase di addestramento del
modello di ML.
Tutto ciò a dimostrazione del fatto che sia la presenza di dataset ben strut-
turati che la modellazione corretta del problema, sono aspetti essenziali in que-
sto ambito di ricerca.
Quanto riportato in questo articolo, però, non vuole avere carattere esau-
stivo per il contrasto dell’hate speech online perchè oltre alle misure di controllo,
monitoraggio e punizione delle condotte che alimentano l’odio online bisogne-
rebbe condurre anche un paziente lavoro educativo, formativo e culturale
soprattutto per gli utenti più giovani.
(32) T. DAVIDSON, D. WARMSLEY, M. MACY, I. WEBER, Automated hate speech detection and the problem
of offensive language, 2017, doi: 10.48550/ARXIV.1703.04009.
(33) https://github.com/t-davidson/hate-speech-and-offensive-language.
(34) S. AGRAWAL, A. AWEKAR, Deep Learning for Detecting Cyberbullying Across Multiple Social
Media Platforms, Lecture Notes in Computer Science, pagg. 141-153, 2018, doi: 10.1007/978-
3-319-76941-7_11; P. BADJATIYA, S. GUPTA, M. GUPTA, V. VARMA, Deep Learning for Hate
Speech Detection in Tweets, Proceedings of the 26th International Conference on World Wide Web
Companion (WWW ’17 Companion), 2017, doi: 10.1145/3041021.3054223; Z. WASEEM, D.
HOVY, Hateful Symbols or Hateful People? Predictive Features for Hate Speech Detection on Twitter,
Proceedings of the NAACL Student Research Workshop, 2016, doi: 10.18653/v1/n16-2013;
A. ARANGO, J. PÉREZ, B. POBLETE, Hate speech detection is not as easy as you may think: A clo-
ser look at model validation (extended version), Inf. Syst., vol. 105, no. 101584, pag. 101584,
Mar. 2022.
102