parolescritte
interroga:  scripta  ·  bsu  ·  civita

il corpus scripta


esplorazioni verbali


invenzioni verbali


Quattro ragioni per apparire

Varietà e quantità

Ho mostrato nella pagina precedente che scripta tratta le parole come semplici sequenze di lettere, ignorando qualsiasi altra informazione di carattere morfologico, sintattico e semantico ricavabile dai testi registrati. Si tratta di una notevole limitazione, che tuttavia apre la strada ad un approccio più astratto verso i dati. Se le parole ‒ prima di tutto ‒ sono sequenze di lettere, allora può essere interessante studiarle anzitutto sotto questo aspetto.

Ho cercato di condurre questo studio seguendo due direzioni fondamentali: la varietà e la quantità.

Ragionando sulla varietà ho tentato di dare corpo a una mia vecchia idea sul rapporto fra prosa e musica seriale e l'ho applicata anzitutto alle tre stesure de I promessi sposi di Alessandro Manzoni, in vista di analisi più ampie ed esaurienti. Sempre in quest'ambito, ho cercato di attribuire un indice di varietà alle parole della lingua italiana, che ho chiamato sapore.

Alla quantità, invece, ho dedicato un ragionamento sulle parole senza significato, del quale, però, non sono abbastanza soddisfatto. L'ho pubblicato come primo e difettoso avvicinamento a questo tema che mi suscita grande interesse, sperando di trovare più avanti argomenti migliori per trattarlo.

Classificazione dei testi

Va detto con chiarezza che il valore del corpus scripta consiste principalmente nella possibilità di ricercare parole contenute in testi che sono in grande misura numerosi, eterogenei e cronologicamente vari. Va da sé, quindi, che la ricerca di una parola comune come passato (un verbo? un aggettivo? un sostantivo?) non può che dare risultati poco significativi. Invece, come già osservato, una parola come stritolio ‒ di sicuro un sostantivo ‒ può riservare delle interessanti sorprese.

La triplice caratteristica del corpus mi ha comunque indotto ad avviare una riflessione autonoma sulla tipologia dei testi scritti, abbastanza indipendente dalla volontà di dare conto della sua pubblicazione.

Questa riflessione mi ha condotto a classificare i testi in maniera parzialmente diversa da quelle oggi accreditate. Ne parlo diffusamente in altre pagine, dove ho cercato di spiegare che questa classificazione migliora la qualità dei risultati che è possibile ottenere interrogando scripta.

Analisi del rango lessicale

Un'ulteriore miglioria di questa qualità dovrebbe derivare dall'incorporazione nella base di dati del lemmario e del formario di Morph-it! e del Vocabolario di base di Tullio De Mauro.

Queste due risorse costituiscono un'annotazione esterna a scripta, in quanto consentono di valutare il livello di semplicità dei testi contenuti nel corpus in base a un criterio di prossimità al Vocabolario di base.

Chi desidera informazioni più dettagliate su questo discorso può leggere le pagine dedicate al rango delle parole. Per averne un'idea istantanea si può interrogare scripta, per esempio, a proposito del romanzo Una storia semplice di Leonardo Sciascia.

Un'attività di annotazione

Nonostante abbia dichiarato in vari punti del discorso che scripta non è un corpus annotato, devo infine aggiungere che questa dichiarazione non è del tutto vera. Lo è stata in principio e continua ampiamente ad esserlo, tuttavia va detto che da qualche tempo ho avviato anche un'attività di annotazione parziale.

Dal 2015 è disponibile spaCy, una risorsa gratuita ‒ come Morph-it! e come il Vocabolario di base ‒ dedicata all'elaborazione automatica del linguaggio naturale. Si tratta di un'applicazione di intelligenza artificiale orientata in prevalenza a scopi pratici, estranei dunque alle ambizioni di scripta, che non manca tuttavia di offrire strumenti che ho ritenuto utili per il corpus.

Uno di questi strumenti è isdt, un corpus annotato prodotta da Cristina Bosco, Alessandro Lenci, Simonetta Montemagni e Maria Simi, tutti studiosi di estrazione accademica. Il corpus può essere impiegato a sua volta per annotare in automatico ‒ tramite spaCy ‒ altri corpora, seguendo lo standard Universal Dependencies, ormai largamente condiviso a livello internazionale.

Questo è proprio quello che ho fatto con scripta, limitatamente ai romanzi pubblicati nella seconda metà del Novecento (1951-2000). Qui di seguito riporto, a titolo di esempio, l'incipit del già citato romanzo Una storia semplice di Leonardo Sciascia, annotato con spaCy.

NFORMLEMMAUPOSTAGXPOSTAGFEATSDEPREL
1LailDETRDDefinite=Def|Gender=Fem|Number=Sing|PronType=Artdet
2telefonatatelefonataNOUNSGender=Fem|Number=Singnsubj
3arrivòarrivareVERBVMood=Ind|Number=Sing|Person=3|Tense=Past|VerbForm=FinROOT
4alleallaADPE_RDDefinite=Def|Gender=Fem|Number=Plur|PronType=Artcase
599NUMNNumType=Cardobl
6eeCCONJCC_cc
73737NUMNNumType=Cardconj
8delladellaADPE_RDDefinite=Def|Gender=Fem|Number=Sing|PronType=Artcase
9seraseraNOUNSGender=Fem|Number=Singobl
10deldelADPE_RDDefinite=Def|Gender=Masc|Number=Sing|PronType=Artcase
111818NUMNNumType=Cardnmod
12marzomarzoNOUNSGender=Masc|Number=Singflat
13,,PUNCTFF_punct
14sabatosabatoNOUNSGender=Masc|Number=Singobl
15,,PUNCTFF_punct
16vigiliavigiliaNOUNSGender=Fem|Number=Singconj
17delladellaADPE_RDDefinite=Def|Gender=Fem|Number=Sing|PronType=Artcase
18rutilanterutilanteADJANumber=Singnmod
19eeCCONJCC_cc
20rombanterombanteADJANumber=Singconj
21festafestaNOUNSGender=Fem|Number=Singnmod
22chechePRONPRPronType=Relobj
23lailDETRDDefinite=Def|Gender=Fem|Number=Sing|PronType=Artdet
24cittàcittàNOUNSGender=Femnsubj
25dedicavadedicareVERBVMood=Ind|Number=Sing|Person=3|Tense=Imp|VerbForm=Finacl:relcl
26aaADPE_case
27sansanPROPNSP_obl
28GiuseppeGiuseppePROPNSP_flat:name
29falegnamefalegnameNOUNSGender=Masc|Number=Singflat:name
30::PUNCTFC_punct

Non entro nel merito di questa ricca annotazione, che andrebbe comunque validata manualmente per correggere gli eventuali errori che sono sfuggiti alla macchina ‒ un lavoro che va ben oltre le mie forze ‒ ma aggiungo solo che il corpus isdt viene aggiornato periodicamente e che gli aggiornamenti vengono incorporati in spaCy.