Che cosa si può trovare?
Se c'è premura...
Chi vuole avere subito una risposta alla domanda del titolo non deve fare altro che saltare alla pagina delle interrogazioni, evitando di leggere quello che segue.
Chi invece preferisce avere qualche ragguaglio preliminare sulle ricerche che si possono condurre nel corpus linguistico scripta sappia che vi sono tre linee di ricerca (per autori, per testi e per parole o espressioni) che possono intrecciarsi e ritornare su se stesse.
Ricerca per autori
Gli autori presenti nel corpus appartengono tutti alla letteratura italiana, intesa nel senso più ampio di questa espressione, che va dal xiii secolo fino ad oggi.
Il testi prodotti da questi autori, pertanto, sono in buona parte opere di natura artistica, ma numerosi sono quelli di carattere scientifico, tecnico, filosofico, storico, religioso, politico, economico e giornalistico.
La tabella che segue è un esempio di quanto appena detto: comprende le collezioni più numerose di testi prodotti da un singolo autore (almeno 25 elementi) raggruppati per genere.
n | autore | genere | testi |
---|---|---|---|
1 | Guia Soncini | articolo di costume | 1000 |
2 | Benito Mussolini | discorso | 985 |
3 | Ercole Patti | recensione | 898 |
4 | Eugenio Scalfari | articolo di fondo | 429 |
5 | Italo Calvino | epistola | 307 |
6 | Fulvio Abbate | articolo di costume | 281 |
7 | Giuseppe Pontiggia | parere di lettura | 187 |
8 | Umberto Eco | bustina di Minerva | 148 |
9 | Alberto Moravia | novella o racconto | 124 |
10 | Carlo Goldoni | commedia | 116 |
11 | Filippo Pananti | epigramma | 116 |
12 | Federico Caffè | articolo di fondo | 110 |
13 | Giovanni Papini | novella o racconto | 105 |
14 | Dino Buzzati | articolo culturale | 100 |
15 | Vitaliano Brancati | novella o racconto | 86 |
16 | Giacomo Matteotti | epistola | 84 |
17 | Emilio Salgari | romanzo | 84 |
18 | Giuliano Gramigna | recensione | 79 |
19 | Fernanda Pivano | articolo di costume | 76 |
20 | Carlo Emilio Gadda | epistola | 72 |
21 | Roberto Saviano | articolo di fondo | 66 |
22 | Pietro Metastasio | libretto d'opera | 61 |
23 | Pietro Citati | articolo culturale | 57 |
24 | Sebastiano Timpanaro | saggio divulgativo | 51 |
25 | Tommaso Landolfi | elzeviro | 50 |
26 | Anna Banti | novella o racconto | 46 |
27 | [autore collettivo] | costituzione | 44 |
28 | Eugenio Pacelli | enciclica | 41 |
29 | Giorgio Scerbanenco | novella o racconto | 40 |
30 | Cesare Pavese | novella o racconto | 36 |
31 | Luigi Pirandello | commedia | 35 |
32 | Andrea Vitali | romanzo | 35 |
33 | Felice Andreasi | monologo | 33 |
34 | Grazia Deledda | romanzo | 32 |
35 | Mario Appelius | discorso | 31 |
36 | Achille Ratti | enciclica | 31 |
37 | Pier Paolo Pasolini | articolo di costume | 30 |
38 | Gioacchino Pecci | enciclica | 30 |
39 | Alessandro Volta | epistola | 28 |
40 | Anton Giulio Barrili | romanzo | 27 |
41 | Vincenzo Spinoso | novella o racconto | 25 |
Ricerca per testi
Il numero dei testi contenuti in scripta cresce di continuo, grazie ai sistematici versamenti. Non è possibile, però, ottenerne un elenco completo perché risulterebbe troppo lungo. Ho preferito perciò raggrupparli prima di tutto per genere, e solo in subordine mostrarli sotto ciascuna delle corrispondenti classificazioni. È anche possibile, comunque, cercare un testo in base a un frammento del suo titolo.
Al momento, il testo più lungo è rappresentato dagli Annali d'Italia dal principio dell'era volgare sino al 1749 di Ludovico Antonio Muratori, costituiti di ben 2 462 029 parole. Due sono i testi più brevi, entrambi di sole sette parole: un lapidario discorso di Benito Mussolini, al quale mancano naturalmente le proverbiali pause e smorfie con le quali allungava la durata delle sue parole, e un epigramma di Filippo Pananti, sicuramente più immortale: Un epitaffio corto: / Pietro viveva. È morto.
Ogni testo, comunque, può essere esaminato singolarmente, per ricavare:
1. la percentuale delle parole in funzione delle rispettive lunghezze;
2. la percentuale dei periodi in funzione delle rispettive lunghezze;
3. la lista delle 100 occorrenze più numerose (sia completa, sia filtrata);
4. la percentuale delle parole comuni contenute nel Vocabolario di base.
Ricerca per parole o espressioni
Le parole contenute attualmente in scripta sono 305 186 606, distribuite su base cronologica secondo il grafico che segue:
La rappresentazione lineare è riportata in rosso (scala a sinistra: milioni). Siccome a prima vista può apparire ben poca cosa, le ho sovrapposto una rappresentazione logaritmica in verde (scala a destra: unità). In effetti, la rappresentazione lineare può lasciar credere che vi siano ampie lacune in diversi intervalli cronologici. In realtà non è così: per quanto modesto, per esempio, il venticinquennio 1251-1275 conta un numero di parole compreso fra diecimila (104) e centomila (105).
Può risultare interessante anche conoscere come sono distribuite le parole in base alla classificazione dei testi. Una prima distinzione di massima è rappresentata nel grafico che segue.
Per testi letterari bisogna intendere poemi, romanzi, lirica e, in generale, i testi di invenzione. Ovviamente, per testi non letterari bisogna intendere i rimanenti.
Ci si può fare un'idea più precisa di questa suddivisione in base alla tabella che segue, la quale esplicita, in maniera quantitativa, una tabella più dettagliata.
n | tipo di testo | numero di parole | percentuale |
---|---|---|---|
1 | testo inclassificabile | 666 087 | 0,2 |
2 | testo espressivo | 6 952 090 | 2,3 |
3 | testo riferitivo con patto finzionale | 174 686 021 | 57,2 |
4 | testo riferitivo senza patto finzionale | 66 586 188 | 21,8 |
5 | testo dichiarativo | 1 414 774 | 0,5 |
6 | testo argomentativo debole | 18 070 701 | 5,9 |
7 | testo argomentativo forte | 30 837 949 | 10,1 |
8 | testo normativo condizionato | 4 364 970 | 1,4 |
9 | testo normativo non condizionato | 1 607 826 | 0,5 |
Si può interrogare il corpus sottoponendo vocaboli interi o frammenti iniziali di essi purché, in entrambi i casi, siano lunghi almeno quattro lettere.
Ho introdotto questa limitazione per evitare ricerche troppo gravose per la macchina. Esistono tuttavia delle parole brevi e assai comuni, come vita, per esempio, che produrrebbero egualmente una massa mostruosa, e tutto sommato inutile, di risultati. Per questa ragione va anche detto che si possono ottenere solo i primi mille risultati di una ricerca e, siccome essi vengono presentati cronologicamente, questo significa che, volendo cercare la parola vita senza condizioni, si può venire a sapere quante volte Dante la impiega nella Vita nuova ma non quante volte la impiega Aldo Busi nel suo romanzo Vita standard di un venditore provvisorio di collant che è stato pubblicato nel 1985. Ciò non vuol dire che è impossibile ottenere questo risultato; per averlo è sufficiente condizionare la ricerca a un autore, a un genere letterario, oppure ad entrambi.
Si possono eseguire le ricerche sulle parole sia in forma compatta, ottenendo solo il numero di occorrenze, per un determinato criterio di ricerca, sia in forma verbosa, ricavando le cosiddette concordanze in contesto, ovvero tutte le occorrenze del caso inserite in un breve frammento del testo (cinque parole prima e cinque dopo) che le contiene. Anche in questo caso la ricerca incondizionata è ristretta ai primi mille risultati, ma è sempre possibile restringere la ricerca a un autore, a un genere letterario, oppure ad entrambi.
Nei limiti di quaranta caratteri è anche possibile eseguire una ricerca per le espressioni. Va segnalato il fatto che la ricerca è tanto più veloce quanto meno le parole che compongono le espressioni sono numerose, brevi o comuni. Una ricerca per «io non vedo l'ora», perciò, potrebbe essere molto lunga, mentre la risposta per «arzigogoli stiracchiati» dovrebbe essere pressoché istantanea.
Infine, va tenuto presente che per le espressioni non è possibile ottenere le concordanze in contesto, bensì solo il numero di volte che esse compaiono in un determinato testo.