6

Sono alla ricerca di un database di tutte le parole italiane, in particolare di tutte le forme che le parole possono assumere in italiano (cioè tutte le possibili flessioni in base a maschile/femminile, singolare/plurale, coniugazione, ecc.). Si trovano diverse risorse in rete (ad esempio uno degli archivi più completi mi sembra https://github.com/napolux/paroleitaliane), ma nessuna di quelle che ho trovato comprende vocaboli che ritengo assolutamente comprensibili ed utilizzabili, come, ad esempio, "sfogliabile" o "apparecchiabile".

Qualcuno conosce qualche risorsa più completa?

mmj
  • 163
  • 1
  • 5
  • Benvenuto/a su Italian.SE! – Charo Jul 25 '20 at 17:30
  • @FedericoPoloni, il corpus che avevi usato per questa risposta può forse rispondere alla domanda? – DaG Jul 25 '20 at 17:38
  • Sarebbe utile, in effetti, se fosse fatto bene. Non sono particolarmente ferrato su questo tipo di database, ma l'italiano (come le altre lingue naturali, quale più quale meno) è molto fecondo: dato un verbo e un suffisso come “-bile”, potenzialmente “esistono” tutte le parole che si possono generare in questo modo, ma è difficile che un dizionario o un corpus le contempli tutte (a meno appunto che non possa appunto generare anche parole “nuove” a partire da prefissi e suffissi). – DaG Jul 25 '20 at 17:44
  • @DaG Non credo che quel database (che, per inciso, è disponibile per esempio su https://packages.debian.org/sid/witalian) sia migliore di quelli che l'OP ha già a disposizione. Ha 116758 parole, e non contiene "sfogliabile" né "apparecchiabile". – Federico Poloni Jul 27 '20 at 08:31
  • Grazie, @FedericoPoloni. – DaG Jul 27 '20 at 10:10
  • @mmj, continuando a pensarci, direi che un database completo come quello che dici si potrebbe ottenere o collazionando una quantità enorme di testi (ma anche così non comprenderebbe tutte le parole “comprensibili ed utilizzabili” ma solo quelle effettivamente utilizzate) oppure generando tutte le possibili parole ottenibili con prefissi e suffissi: per esempio, per ogni verbo transitivo il corrispondente ipotetico aggettivo in “-abile”, viceversa dagli aggettivi i verbi in “-izzare” e così via: svedese, svedesizzare, svedesizzabile, insvedesizzabile... – DaG Jul 27 '20 at 10:15
  • @DaG Un simile lavoro è già stato fatto, per lo meno in parte, dato che alcuni degli archivi che si trovano in rete derivano da collezioni di testi, però non è stato sufficiente ad ottenere un database di buon livello, dato che guardando l'elenco delle parole saltano subito in mente parole "mancanti". Tra l'altro il traduttore di Google conosce il vocabolo "sfogliabile" e lo traduce correttamente (quindi archivi più completi esistono), ma, ad esempio non conosce "apparecchiabile". L'altra possibilità, di "generare" il database, è naturalmente un'opzione, ma ci vuole tempo. – mmj Jul 27 '20 at 17:37
  • 2
    "Google translate è in grado di tradurre sfogliabile, quindi ha un database più completo": questo non è detto. I traduttori moderni sono basati su tecniche di machine learning, non su vocabolari e traduzioni parola per parola; in teoria potrebbero essere in grado di tradurre il vocabolo pur senza averlo visto su una lista di parole preesistente, esattamente come fa un essere umano. – Federico Poloni Jul 28 '20 at 06:44

1 Answers1

4

Di recente ho avuto anch'io la stessa necessità e ho provato a generarne uno a partire da alcuni già noti, fra cui quello che hai menzionato, e usando lo spell-checker di MS Word come "filtro"; lo si può trovare qui.

Il file si chiama dictionary.txt e contiene sui 4 milioni di parole, anche se molte sono forme verbali flesse. Per inciso, fra quelle generate ci sono anche le parole sfogliabile e apparecchiabile. In ogni caso, sicuramente non è completo per diverse ragioni. La risposta arriva in ritardo ma spero aiuterà lo stesso qualcuno.

giofrida
  • 148
  • 8
  • 2
    grazie, utile! usato per creare una versione italiana di Wordle: https://pietroppeter.github.io/wordle-it/wordle.html – pietroppeter Jan 04 '22 at 01:07
  • Gran bel lavoro, complimenti. Avevo chiesto anche alla Crusca (senza ottenere risposta) ma non so se avrebbero potuto fare di meglio. – mmj Jan 05 '22 at 10:55