Quattro ragioni per apparire

Varietà e quantità

Ho mostrato nella pagina precedente che scripta tratta le parole come semplici sequenze di lettere, ignorando qualsiasi altra informazione di carattere morfologico, sintattico e semantico ricavabile dai testi registrati. Si tratta di una notevole limitazione, che tuttavia apre la strada ad un approccio più astratto verso i dati. Se le parole ‒ prima di tutto ‒ sono sequenze di lettere, allora può essere interessante studiarle anzitutto sotto questo aspetto.

Ho cercato di condurre questo studio seguendo due direzioni fondamentali: la varietà e la quantità.

Ragionando sulla varietà ho tentato di dare corpo a una mia vecchia idea sul rapporto fra prosa e musica seriale e l'ho applicata anzitutto alle tre stesure de I promessi sposi di Alessandro Manzoni, in vista di analisi più ampie ed esaurienti. Sempre in quest'ambito, ho cercato di attribuire un indice di varietà alle parole della lingua italiana, che ho chiamato sapore.

Alla quantità, invece, ho dedicato un ragionamento sulle parole senza significato, del quale, però, non sono abbastanza soddisfatto. L'ho pubblicato come primo e difettoso avvicinamento a questo tema che mi suscita grande interesse, sperando di trovare più avanti argomenti migliori per trattarlo.

Classificazione dei testi

Va detto con chiarezza che il valore del corpus scripta consiste principalmente nella possibilità di ricercare parole contenute in testi che sono in grande misura numerosi, eterogenei e cronologicamente vari. Va da sé, quindi, che la ricerca di una parola comune come passato (un verbo? un aggettivo? un sostantivo?) non può che dare risultati poco significativi. Invece, come già osservato, una parola come stritolio ‒ di sicuro un sostantivo ‒ può riservare delle interessanti sorprese.

La triplice caratteristica del corpus mi ha comunque indotto ad avviare una riflessione autonoma sulla tipologia dei testi scritti, abbastanza indipendente dalla volontà di dare conto della sua pubblicazione.

Questa riflessione mi ha condotto a classificare i testi in maniera parzialmente diversa da quelle oggi accreditate. Ne parlo diffusamente in altre pagine, dove ho cercato di spiegare che questa classificazione migliora la qualità dei risultati che è possibile ottenere interrogando scripta.

Analisi del rango lessicale

Un'ulteriore miglioria di questa qualità dovrebbe derivare dall'incorporazione nella base di dati del lemmario e del formario di Morph-it! e del Vocabolario di base di Tullio De Mauro.

Queste due risorse costituiscono un'annotazione esterna a scripta, in quanto consentono di valutare il livello di semplicità dei testi contenuti nel corpus in base a un criterio di prossimità al Vocabolario di base.

Chi desidera informazioni più dettagliate su questo discorso può leggere le pagine dedicate al rango delle parole. Per averne un'idea istantanea si può interrogare scripta, per esempio, a proposito del romanzo Una storia semplice di Leonardo Sciascia.

Un'attività di annotazione

Nonostante abbia dichiarato in vari punti del discorso che scripta non è un corpus annotato, devo infine aggiungere che questa dichiarazione non è del tutto vera. Lo è stata in principio e continua ampiamente ad esserlo, tuttavia va detto che da qualche tempo ho avviato anche un'attività di annotazione parziale.

Dal 2015 è disponibile spaCy, una risorsa gratuita ‒ come Morph-it! e come il Vocabolario di base ‒ dedicata all'elaborazione automatica del linguaggio naturale. Si tratta di un'applicazione di intelligenza artificiale orientata in prevalenza a scopi pratici, estranei dunque alle ambizioni di scripta, che non manca tuttavia di offrire strumenti che ho ritenuto utili per il corpus.

Uno di questi strumenti è isdt, un corpus annotato prodotta da Cristina Bosco, Alessandro Lenci, Simonetta Montemagni e Maria Simi, tutti studiosi di estrazione accademica. Il corpus può essere impiegato a sua volta per annotare in automatico ‒ tramite spaCy ‒ altri corpora, seguendo lo standard Universal Dependencies, ormai largamente condiviso a livello internazionale.

Questo è proprio quello che ho fatto con scripta, limitatamente ai romanzi pubblicati nella seconda metà del Novecento (1951-2000). Qui di seguito riporto, a titolo di esempio, l'incipit del già citato romanzo Una storia semplice di Leonardo Sciascia, annotato con spaCy.

N	FORM	LEMMA	UPOSTAG	XPOSTAG	FEATS	DEPREL
1	La	il	DET	RD	Definite=Def\|Gender=Fem\|Number=Sing\|PronType=Art	det
2	telefonata	telefonata	NOUN	S	Gender=Fem\|Number=Sing	nsubj
3	arrivò	arrivare	VERB	V	Mood=Ind\|Number=Sing\|Person=3\|Tense=Past\|VerbForm=Fin	ROOT
4	alle	alla	ADP	E_RD	Definite=Def\|Gender=Fem\|Number=Plur\|PronType=Art	case
5	9	9	NUM	N	NumType=Card	obl
6	e	e	CCONJ	CC	_	cc
7	37	37	NUM	N	NumType=Card	conj
8	della	della	ADP	E_RD	Definite=Def\|Gender=Fem\|Number=Sing\|PronType=Art	case
9	sera	sera	NOUN	S	Gender=Fem\|Number=Sing	obl
10	del	del	ADP	E_RD	Definite=Def\|Gender=Masc\|Number=Sing\|PronType=Art	case
11	18	18	NUM	N	NumType=Card	nmod
12	marzo	marzo	NOUN	S	Gender=Masc\|Number=Sing	flat
13	,	,	PUNCT	FF	_	punct
14	sabato	sabato	NOUN	S	Gender=Masc\|Number=Sing	obl
15	,	,	PUNCT	FF	_	punct
16	vigilia	vigilia	NOUN	S	Gender=Fem\|Number=Sing	conj
17	della	della	ADP	E_RD	Definite=Def\|Gender=Fem\|Number=Sing\|PronType=Art	case
18	rutilante	rutilante	ADJ	A	Number=Sing	nmod
19	e	e	CCONJ	CC	_	cc
20	rombante	rombante	ADJ	A	Number=Sing	conj
21	festa	festa	NOUN	S	Gender=Fem\|Number=Sing	nmod
22	che	che	PRON	PR	PronType=Rel	obj
23	la	il	DET	RD	Definite=Def\|Gender=Fem\|Number=Sing\|PronType=Art	det
24	città	città	NOUN	S	Gender=Fem	nsubj
25	dedicava	dedicare	VERB	V	Mood=Ind\|Number=Sing\|Person=3\|Tense=Imp\|VerbForm=Fin	acl:relcl
26	a	a	ADP	E	_	case
27	san	san	PROPN	SP	_	obl
28	Giuseppe	Giuseppe	PROPN	SP	_	flat:name
29	falegname	falegname	NOUN	S	Gender=Masc\|Number=Sing	flat:name
30	:	:	PUNCT	FC	_	punct

Non entro nel merito di questa ricca annotazione, che andrebbe comunque validata manualmente per correggere gli eventuali errori che sono sfuggiti alla macchina ‒ un lavoro che va ben oltre le mie forze ‒ ma aggiungo solo che il corpus isdt viene aggiornato periodicamente e che gli aggiornamenti vengono incorporati in spaCy.