Il corpus linguistico scripta

Rimanenti incertezze

Avevo trovato una ragione per dare visibilità alla base di dati scripta, che contava ormai 30 milioni di parole, tuttavia faticavo a definire adeguatamente il progetto, perché nel frattempo mi ero fatto un'idea più chiara di che cosa mi ritrovavo ormai tra le mani ‒ un corpus linguistico ‒ ma non sapevo bene come collocarlo nell'ambito della disciplina fondata su questo genere di collezioni, ovvero la linguistica dei corpora.

In poche parole, qual era il carattere distintivo del corpus scripta?

Linguistica dei corpora (una doverosa parentesi)

Se si vuole risalire il più possibile alle origini di questo indirizzo di studi, occorre rifarsi ai lavori di Leonard Bloomfield e dei suoi continuatori, che diedero origine, a partire dagli anni Venti del secolo scorso, al cosiddetto distribuzionalismo, scuola tipicamente americana che si fondava, con schietto spirito empirista, sullo studio di collezioni di testi (corpora), ricavati in gran parte dalle parlate delle popolazioni native locali, per ricavarne gli schemi grammaticali sottostanti.

Si può comprendere quanto fosse gravoso il lavoro di quei pionieri in epoca preinformatica, e dunque si può anche immaginare il favore con cui essi accolsero la comparsa dei primi elaboratori elettronici, negli anni Cinquanta, che semplificavano gli aspetti più ripetitivi della ricerca, e permettevano di trattare corpora più massicci.

Sfortunatamente, quel periodo coincise con la prepotente affermazione di un nuovo indirizzo di ricerca, del tutto opposto al distribuzionalismo, vale a dire il trasformazionalismo, il cui indiscusso e influentissimo caposcuola è stato Noam Chomsky, che criticava senza appello l'orientamento empirista dei linguisti che si rifacevano a Bloomfield, proponendo invece un approccio del tutto razionalista.

Secondo Chomsky, la sterminata varietà di espressioni dei parlanti di qualsiasi lingua, che è possibile osservare nella pratica, non andava studiata sottoponendo ad analisi una parte anche assai considerevole di quelle innumerevoli espressioni, bensì ricercando poche regole formali, presenti in maniera innata nella mente dei parlanti, in grado di trasformare le strutture sintattiche elementari che risiedono nelle profondità della mente umana per generare ogni varietà di espressione. Il linguaggio, in altre parole, secondo il trasformazionalismo sarebbe un organo mentale che ogni essere umano possiede dalla nascita e che si sviluppa e agisce al pari di altri organi materiali.

Non si può negare la seducenza razionale di questa concezione, in confronto all'umile pratica artigianale dei linguisti che si rifacevano alla tradizione empirista, e non sembra improbabile che ciò abbia avuto un ruolo importante nella travolgente affermazione delle idee di Chomsky fra i linguisti di tutto il mondo. Sta di fatto, comunque, che queste idee decretarono il declino del distribuzionalismo a favore del trasformazionalismo.

La diffusione dell'informatica, a partire dagli anni anni Cinquanta, diede comunque slancio, come si è detto, all'approccio empirista. Nonostante la sua progressiva marginalizzazione, infatti, è proprio in questo periodo che iniziò ad affermarsi esplicitamente la linguistica dei corpora, cordialmente disprezzata dal trasformazionalismo. Parallelamente, sempre con il diffondersi dell'informatica in quegli stessi anni, nascevano le prime ricerche sull'intelligenza artificiale, e non sorprende che quelle rivolte alla linguistica adottassero le idee di Chomsky, imbottendo gli elaboratori non di corpora bensì di regole formali che potessero rendere conto della struttura e dei meccanismi del linguaggio naturale.

Sfortunatamente ‒ ma questa volta per l'approccio razionalistico di Chomsky ‒ quelle ricerche ottennero risultati assai deludenti e vennero gradualmente abbandonate. Lo stesso trasformazionalismo, del resto, cominciò a trovarsi in qualche affanno nel mondo accademico, di cui non è certo qui il caso di parlare. Fu la linguistica dei corpora, piuttosto, che puntigliosamente riconquistò terreno sia in ambito teorico che applicato.

Nei primi tempi, ai testi contenuti nei corpora non veniva aggiunta alcuna risorsa accessoria ma in seguito, per accrescerne il valore ai fini della ricerca, si iniziò spesso ad annotarli, ovvero ad associare ad ogni parola registrata varie informazioni di servizio. Oggi l'annotazione può riguardare la grammatica, la sintassi, il lessico e la semantica. È proprio questa grande varietà di approcci incrociati che ha permesso di giungere ad una ragionevole comprensione e produzione automatiche del linguaggio naturale con i metodi di una rivisitata intelligenza artificiale in chiave empirista, alla quale la linguistica dei corpora ha fornito un contributo notevole, sicché oggi sono in pochi a criticarne severamente i metodi e i risultati.

Struttura del corpus

Ora posso tornare alla domanda di apertura: se scripta era un corpus, qual era il suo caratterre distintivo? Ovvero: a quale aspetto della linguistica dei corpora poteva sensatamente richiamarsi?

Per rispondere a questa domanda è necessario dettagliare la struttura di scripta. Anzitutto avevo sminuzzato i vari testi in unità minime (token in inglese, ma io lo scopersi parecchio tempo dopo) adottando un procedimento schematico, che si può riassumere così: da un lato le lettere, dall'altro lato tutto il resto.

progressivo	id_opera	vocabolo	separatore	ammesso
1	2	Canto	S1P1P	N
2	2	Le	S	S
3	2	donne	,S	S
4	2	i	S	S
5	2	cavallier	,S	S
6	2	l	'	S
7	2	arme	,S	S
8	2	gli	S	S
9	2	amori	,P	S
10	2	le	S	S
11	2	cortesie	,S	S
12	2	l	'	S
13	2	audaci	S	S
14	2	imprese	S	S
15	2	io	S	S
16	2	canto	,P	S

Ho riportato qui sopra un frammento del risultato, che si riferisce all'incipit del Furioso di Ariosto. Come si può notare, le due colonne principali della tabella contengono i vocaboli del testo ‒ ridotti a pure sequenze di lettere dell'alfabeto ‒ e i separatori, che contengono qualsiasi altro carattere (spazi [S], accapo [P], cifre, punteggiatura, ecc.) che si interpone fra queste sequenze. La colonna ammesso permette di escludere, volendo, alcuni vocaboli dalla ricerca.

Devo aggiungere che esistono metodi molto più sofisticati per segmentare un testo, che rendono ben conto, per esempio, della punteggiatura, tuttavia fra i numerosi limiti di quello che avevo adottato io c'era almeno il vantaggio della reversibilità: dalla tabella si poteva ricostruire perfettamente il testo sottoposto alla segmentazione, una caratteristica non così ovvia come potrebbe sembrare a prima vista.

Canto 1

Le donne, i cavalier, l'arme, gli amori,

le cortesie, l'audaci imprese io canto,

Un corpus non annotato

Come si può notare, dunque, scripta non è un corpus annotato. Il lavoro di annotazione, d'altro canto, è gravosissimo ed esorbita dalle possibilità di un singolo, se questi ha l'ambizione è produrre un corpus contenente decine di milioni di parole, come desideravo io.

Sulla necessità assoluta di annotare un corpus, d'altra parte, i pareri non sono del tutto concordi. "Non bisogna enfatizzare la contrapposizione fra testo grezzo e testo annotato.", si legge per esempio in Testo e computer di Alessandro Lenci, Simonetta Montemagni e Vito Pirrelli (Carocci, 2005, p. 187). "Esiste piuttosto una cascata incrementale di livelli di analisi linguistica sempre più astratti, che possiamo attraversare in diversi modi, anche partendo dal testo nudo e crudo, se disponiamo di strumenti di esplorazione testuale adeguati".

Questa dichiarazione mi ha confortato mentre riflettevo sulla possibilità di impiegare scripta come base di conoscenza per delle ricerche utili nell'ambito della linguistica dei corpora. Quali potevano essere, allora, queste ricerche da svolgere con "strumenti di esplorazione testuale adeguati"?