L’ambiente digitale dà accesso a una miriade di informazioni e linguaggi di ogni genere. Risulta, pertanto, fondamentale saper analizzare un testo, verificandone l’attendibilità e l’appropriatezza lessicale.
Matteo di Cristofaro e Giulia Berardinelli, i linguisti del FEM, hanno preparato “Comprensione del testo. Come la lingua cambia le idee” e “Stile Ostile. Riconoscere la violenza verbale nel mondo digitale”. Si tratta di due sfide di linguistica computazionale per indentificare, da un lato, le componenti linguistiche alla base della comprensione del testo e, dall’altro, i fenomeni di violenza verbale in contesti digitali.
Per poter svolgere le attività è necessario accedere a Doccano.
Che cos’è.
Doccano è uno strumento open-source per la classificazione e l’annotazione di testi di qualunque tipo, che permette di lavorare su un testo intero, su singole frasi o porzioni di testo. Per utilizzare la piattaforma è necessario registrarsi e, successivamente, caricare il testo in formato .txt o .json.
La classificazione e l’annotazione avvengono tramite le “etichette”. Si tratta di targhette colorate utili a descrivere caratteristiche linguistiche: ad ogni colore corrisponde una diversa caratteristica, come nell’immagine sottostante: in rosso le date, in azzurro le persone e così via. È sempre l’utente a scegliere le etichette in base agli aspetti del testo che desidera approfondire o mettere in risalto.
Le tre funzionalità.
- Text Classification, ovvero classificazione e annotazione di testi. Questa funzione permette di determinare la tipologia di un testo in base ai criteri linguistici scelti precedentemente dall’utente. Se, ad esempio, su venti testi interessa distinguere quali trattano di fantascienza e quali di storia, sarà necessario creare le etichette “fantascienza” e “storia” e poi classificare i testi in base a queste;
- Sequence Labeling, ovvero annotazioni di parti di testo. Grazie a questa funzione si può decidere di “etichettare” anche singole parole. Facciamo un esempio: si desidera distinguere gli aggettivi positivi da quelli negativi, si creano dunque le apposite etichette e poi si procede alla classificazione;
- Sequence to Sequence, ovvero sezionare e annotare porzioni di testo più lunghe. È utile per svolgere esercizi di scelta multipla.
Come ve la cavate con l’inglese? Nonostante non presenti grandi difficoltà di utilizzo, l’interfaccia di Doccano è solamente in lingua inglese. Una buona maniera per rispolverare la lingua!
In alternativa, in questo video, Matteo vi mostra come accedere alla piattaforma e come muovere i primi passi, in italiano: https://www.youtube.com/watch?v=tzLIxXLdHDI&t=325s
L’utilizzo di Doccano nella didattica.
Superato lo scoglio linguistico, ci troviamo di fronte un programma intuitivo e versatile. La facilità d’uso deriva soprattutto dal livello di personalizzazione offerto dallo strumento e dunque dalla possibilità di caricare qualunque tipologia di testo e creare categorie di analisi di volta in volta diverse in base alle proprie esigenze di studio. Per i ragazzi delle scuole secondarie di secondo grado può risultare uno strumento utile perché consente di compiere analisi testuali in maniera digitale e di poter approcciare in maniera chiara ad aspetti dell’analisi linguistica che generalmente non sono insegnati in classe, ma che vengono usati nel Machine Learning, quindi in linguistica computazionale.
Una curiosità.
Con Doccano si può anche lavorare in gruppi, grazie alla possibilità di effettuare annotazioni collaborative. Mettetevi alla prova con le challenge ideate da Matteo e Giulia. Per accedere alle due attività:
- https://www.fem.digital/scuola/stileostile/
- https://www.fem.digital/scuola/comprensione-del-testo-come-la-lingua-cambia-le-idee-sfide-di-linguistica-computazionale/