In the previous articleNel precedente articolo ci siamo concentrati sull'infrastruttura IA privata e su come far girare un modello privato su larga scala. In questo post mostriamo cosa può fare concretamente quell'infrastruttura: costruire una pipeline di classificazione dei documenti pronta per la produzione, senza bisogno di fine-tuning o dati di addestramento.

L'approccio Naive

L'errore più comune quando si sviluppa con gli LLM è la "trappola del tentativo unico" (one-shot trap): prendi un file, definisci un elenco di categorie e fai al modello una domanda diretta come questa:

Classify this file into one of these categories:
- driver license
- identity card
- passport
- other
Return only the category name.


Su un set di demo pulito, il risultato può sembrare sorprendentemente buono. Un moderno Vision-Language Model spesso riesce a dedurre abbastanza informazioni dalla prima pagina da produrre un'etichetta plausibile. Di solito è a questo punto che i team iniziano a credere di avere un classificatore pronto.

In produzione, però, questa illusione dura molto poco. I flussi di documenti reali sono caotici: un singolo file può contenere più pagine, più documenti, scansioni ruotate, pagine vuote e così via. In queste condizioni, la domanda "di quale categoria è questo file?" è troppo ampia. Costringe il modello a risolvere molti piccoli problemi tutti in una volta.

Questo crea immediatamente tre colli di bottiglia: