Recogniform - Tecnologie di riconoscimento ottico

 

Go to the International website

Recogniform Desktop Reader                   

Recogniform Reader    Versione Workgroup   download brochure in formato.pdf    richiedi informazioni     

1. Descrizione
Recogniform Reader è la soluzione innovativa per la lettura ottica da documenti cartacei, sia strutturati (campi in posizione fissa) che non struttrati o semi-strutturati (campi in posizione variabile). Spesso infatti l'inserimento manuale dei dati rappresenta il collo di bottiglia nei processi di elaborazione dei moduli e di archiviazione dei documenti: paragonato all'inserimento manuale dei dati, infatti, il nostro sistema di data-capture consente di usare un ridotto numero di risorse umane, migliorando efficienza e prestazioni, riducendo altresì gli errori causati dall'affaticamento del personale. Quindi meno costi, più velocità, più qualità costante nel tempo.


1.1 Ambiti di applicazione
Grazie alla sua flessibilità, Recogniform Reader si presta ad infinite possibilità di utilizzo. Eccone alcune:

  • Lettura ottica questionari di ogni tipo
  • Lettura ottica test d'ingresso
  • Lettura ottica schede di valutazione
  • Lettura ottica moduli richiesta carta fedeltà
  • Lettura ottica cartoline di registrazione
  • Lettura ottica certificati di garanzia
  • Lettura ottica questionari customer satisfaction
  • Lettura ottica form selezione del personale
  • Lettura ottica ricette farmaceutiche SSN
  • Lettura ottica bollettini
  • Lettura ottica fatture e bolle (vedi Recogniform INVOICES)
  • Lettura ottica di qualsiasi documento strutturato e semi-strutturato

  • 1.2 Tecnologia

    Recogniform Reader integra le più avanzate tecnologie:

    • Tecnologia OMR: Caselle di marchiatura (check box);
    • Tecnologia ICR: Dati alfabetici, numerici ed alfanumerici manoscritti in stampatello, sia incasellati che non;
    • Tecnologia BCR: Qualsiasi tipo di codice a barre;
    • Tecnologia OCR: Testo stampato con caratteri tipografici di qualsiasi dimensione e font;
    • Tecnologia OCR-A: Codeline standard con numeri e simboli stampati con font OCR-A;
    • Tecnologia OCR-B: Codeline standard con numeri e simboli stampati con font OCR-B;
    • Tecnologia CHR:Campi alfabetici, numerici e alfanumerici scritti a mano in corsivo;
    • Tecnologia FREE-FORM e ANALISI del LAYOUT: Identificazione dinamica dei campi su documenti semi-strutturati o non strutturati;
    • Tecnologia FORM IDENTIFICATION: Identificazione grafica del documento, ordinamento pagine, etc.;

    Inoltre consente di:

  • tagliare ed estrapolare intere pagine o parti di esse ed archiviarle come immagini in formato digitale: IDE
  • rendere operativo l'inserimento manuale assisito (da immagine) di dati: AMK

  • 1.3 Fasi di lavorazione

    Le operazioni di lettura ottica ed estrazione dei dati possono essere distinte in quattro fasi principali:


    1. Acquisizione
    2. Riconoscimento
    3. Validazione / correzione
    4. Output

     

    Una quinta fase, propedeutica alle quattro fasi di "produzione" in senso stretto appena indicate, è relativa alla definizione del template. Cos'è un template? Un "template" è l'insieme delle "regole" necessarie ad indicare al sistema cosa leggere e dove (ad esempio: codice a barre di tipo Code39 nell'area del modulo in alto a destra).
    Definire un template è molto semplice: grazie alla pratica interfaccia visuale del modulo Recogniform Application Designer (incluso in Recogniform Reader), è sufficiente disegnare i campi sul modulo vuoto ed indicare la natura del dato da estrarre. Inoltre, mediante un potente e flessibile linguaggio di scripting interno, è possibile implementare funzioni e procedure estremamente personalizzate, in grado di soddisfare anche i "tecnici" ed i clienti più esigenti.

    Recogniform Desktop Reader consente di lavorare su una singola postazione o in configurazione client-server: in entrambi i casi usa un approccio job-oriented, raggruppando i documenti per lotti.

    Un batch può contenere un numero qualsiasi di documenti (da 1 a "n") ed il lavoro in ogni batch si articola nelle seguenti fasi:

    • acquisizione delle immagini (da scanner o da file);
    • pre-processing (deskew,despeckle, form removal, etc.)
    • lettura automatica (CHR, OCR, ICR, BCR, OMR, etc.)
    • verifica dei caratteri sospetti (Eye Blow Verification®)
    • correzione dei campi (analisi comparativa tra immagine e dati);
    • post-processing (trasformazione dei dati e normalizzazione);
    • output dei dati (archiviazione in file e database).

    Uno specifico software, il Recogniform Application Designer, consente di settare tutti i parametri necessari per estrarre i dati dai un moduli, usando un'interfaccia visuale. È anche possibile usare un linguaggio di scripting molto flessibile per ottenere nuove funzioni personalizzate.

    Questo prodotto è offerto in differenti versioni e può essere facilmente personalizzato e adattato ad ogni tipo di esigenza; ognuno può settare da sé il numero di documenti da elaborare ed il tipo di dati da leggere.
    Per operare con un'architettura distribuita Recogniform Desktop Reader è disponibile anche in versione Workgroup, in cui le funzionalità di acquisizione, riconoscimento, verifica, correzione ed output vengono suddivise su postazioni diverse specializzate.
    Clicca qui per maggiori informazioni su Recogniform Workgroup Reader.


    2. Acquisizione delle immagini

    Recogniform Desktop Reader
    consente di effettuare la lettura ottica di documenti acquisiti in diversi modi:

    • scanner
    • files
    • monitoraggio directory
    • internet
    • fax

    Possono essere usate non solo immagini monocromatiche ma anche quelle a toni di grigio ed a colori: in quest'ultimo caso il sistema può eliminare la fincatura colorata attraverso una procedura software, con risultati addirittura superiori a quelli raggiunti via hardware usando le drop-ink lamp.

    2.1 Acquisizione da scanner
    Sono supportati direttamente tutti gli scanner dotati di driver TWAIN. L'acquisizione automatica dei documenti (ADF)anche fronte/retro, le drop-ink lamp e le schede di elaborazione delle immagini per il dynamic thresholding non sono un problema! Ciò significa che si può scegliere liberamente lo scanner più adatto alle proprie esigenze: da quello più semplice ed economico (capace di acquisire solo pochi fogli al minuto), a quello più sofisticato, caratterizzato da un'elevata produttività e capace di elaborare centinaia di fogli al minuto.

    2.2 Acquisizione da files
    Recogniform Desktop Reader
    consente anche di elaborare immagini precedentemente acquisite ed archiviate come file in formato TIFF non compresso o in un qualsiasi formato compresso (CCITT G4, CCITT G3, Huffman, PAckbits, JPeg), a pagina singola o multipla, così come in formato JPEG, BMP, PNG, PDF.

    2.3 Acquisizione mediante monitoraggio automatico di una directory (con o senza sottodirectory)
    Una comoda possibilità è quella di avviare il monitoraggio di una directory, importando automaticamente i files che vi vengono salvati da altre applicazioni, inziando la lavorazione ion automatico o al raggiungimento di un certo numero di forms, o ad intervalli temporali predefiniti.

    2.4 Acquisizione da internet
    Il supporto di Internet è garantito attraverso la possibilità di scaricare automaticamente le immagini da elaborare da
    routerqualsiasi server. Infatti, usando il protocollo FTP, un ID ed una password, i file remoti possono essere velocemente scaricati in tutta sicurezza. Ciò significa che l'acquisizione tramite scanner può essere effettuata in un posto differente da quello in cui si svolge l'operazione di lettura ottica: la realizzazione di applicazioni geograficamente distribuite è supportata in modo semplice e naturale.

    2.5 Acquisizione da fax
    Anche l'acquisizione da fax è direttamente supportata, senza ricorrere all'ausilio di prodotti esterni. Abilitando la modalità di ricezione automatica dei fax ed usando un comune fax-modem, Recogniform Desktop Reader, posto in modalità stand-alone, riceve, standardizza e rende disponibili per la lettura ottica ogni tipo di fax, con qualità standard o ad alta risoluzione.


    3. Motori di riconoscimento ottico
    La forza di Recogniform Desktop Reader risiede nell'uso di sofisticati motori di lettura che possono essere usati e combinati insieme secondo le specifiche dell'utente.

    • CHR - Riconoscimento del corsivo manoscritto
      Consente di leggere dati scritti a mano in corsivo (manoscritto non in stampatello): quello che era solamente immaginazione, adesso è realtà! Questa caratteristica è essenziale per leggere moduli che non sono stati espressamente progettati per l'acquisizione automatica e che quindi contengono campi non incasellati, scritti liberamente, senza alcun vincolo grafico.

    • ICR - Riconoscimento Intelligente dei caratteri
      Con questo sistema è possibile riconoscere dati manoscritti in forma incasellata e non incasellata quando c'è in genere spazio tra i caratteri. Il motore di lettura è stato espressamente addestrato sulla scrittura europea ed americana per ottenere un'elevata accuratezza.

    • OCR - Riconoscimento ottico di caratteri.
      È la tecnologia di riconoscimento per testi stampati o scritti a macchina. È "omnifont" e può riconoscere dati scritti con qualsiasi stile e misura.

    • OCR - A/B/MICR - Riconoscimento ottico dei font OCRA, OCRB, E13B. CMC7
      Questo motore di riconoscimento lavoro con codeline prestampate OCRA, OCRB, E13B, CMC7 di documenti postali e bancari.

    • OMR - Riconoscimento ottico delle marchiature
      È una tecnologia che consente di leggere le check box, ossia i segni affissi in spazi predefiniti. Il motore di riconoscimento è differente da quelli di prodotti similari, perché possiede il vantaggio di lavorare con due parametri operativi, valutando la quantità d'inchiostro presente e la misura del segno nella casella.

    • BCR - Riconoscimento dei codici a barre
      Consente di riconoscere i codici a barre, decodificandone il contenuto. Viene riconosciuto l'intero insieme di codici a barre, inclusi quelli farmaceutici.

    • AMK - Digitazione manuale assistita
      Consente di fare l'inserimento dei dati in modo manuale assistito per quei contenuti che non si vuole o non si può leggere in modo automatico.

    • IDE - Esportazione di dati in forma di immagine.
      Attraverso questo sistema è possibile esportare zone o intere pagine in formato immagine. È utile quando si devono mettere in archivio porzioni di moduli contenenti firme, schizzi, disegni o altre informazioni, senza modificare alcunché delle loro caratteristiche.

    • Free-Form and Layout Analysis
      Consente di identificare
      un campo in base ad alcuni attributi specifici, quali ad esempio la sua etichetta, la sua formattazione, il suo layout grafico.
    • Form-Identification
      Consente di identificare un modulo o una pagina sulla scorta delle infromazioni derivanti dal suo layout grafico.


    4. Pre-processing delle immagini

    Un'adeguata e preventiva elaborazione dell'immagine aumenta la qualità del processo di riconoscimento e riduce l'ampiezza dei file, quindi abbiamo introdotto molteplici funzioni che coprono ogni specifica esigenza.

    4.1 Pre-processing a livello "globale" (intera immagine):

    • Deskew
      Correzione della pendenza causata talvolta dallo scanner quando acquisisce in modo automatico (ADF).
    • Rimozione del bordo scuro
      Rimozione dell'eventuale bordo scuro dovuto all'eccessiva estensione dell'area di scanning.
    • Auto orientamento
      consente al sistema di auto-orientare i moduli acquisiti ruotandoli di 90, 180 o 270 gradi in modo che combacino con l'orientamento del template.
    • Allineamento del modulo e rimozione
      Allineamento del modulo per compensare un eventuale spostamento orizzontale o verticale e rimozione della parte prestampata quando il modulo non è stampato con inchiostro cieco.

    4.2 Pre-processing a livello "locale" (singola area di lettura definita):

    • Deskew
      Correzione dell'inclinazione dell'area, magari perchè si tratta di una etichetta incollata.
    • Rimozione delle linee
      Rimozione delle linee orizzontali e verticali con ricostruzione dei caratteri da esse attraversati.
    • Despeckle
      Rimozione dei punti neri isolati.
    • Smooth
      Ricostruzione di caratteri ed elementi rovinati.
    • Rimozione degli elementi di delimitazione dei campi
      Rimozione degli elementi di delimitazione (rettangoli, semi-rettangoli, ecc.), utile se questi non sono stampati con inchiostro cieco.
    • Rimozione delle caselle
      Rimozione delle caselle che contengono i singoli caratteri nei campi incasellati, utile se queste non sono stampate con inchiostro cieco.
    • Inversione del colore
      Inversione del colore in caso di caratteri bianchi su sfondo scuro.
    • Rimozione delle intrusioni
      Rimozione degli elementi di disturbo (stalattiti, stalagmiti) che fanno parte di campi vicini.
    • Rimozione elementi grandi o piccoli
      Rimozione degli elementi troppo grandi o troppo piccoli, con soglia definibile a piacere.
    • Assottigliamento o Inspessimento
      Normalizzazione del tratto della penna usata per scrivere.

    5. Verifica dei dati e Post-processing

    È possibile decidere quali campi necessitino correzione: tutti; solo quelli il cui livello di accuratezza stimata è inferiore ad una certa soglia; nessuno. E' inoltre possibile effettuare controlli "al volo", sia durante la fase di riconoscimento che di correzione, in modo da auto-validare alcuni campi sulla base di un insieme di regole da definire. Ad esempio, qualora in un modulo contenente dati anagrafici il codice fiscale risultasse corretto sulla base del check-digit, si potrebbe settare i valori del campo "data di nascita" attingendo gli stessi dal codice fiscale corretto, bypassando di fatto la fase di correzione.
     

    5.1 Trigrammi
    Usando il nuovo sistema di correzione e convalida basato sui trigrammi, può essere verificata la maggior parte dei campi alfabetici ed è possibile risolvere tutti i dubbi generati da riconoscimenti ambigui in modo pienamente automatico. Questo sistema usa informazioni statistiche relative a tutte le possibili combinazioni di tre caratteri consecutivi nel linguaggio preso come target; queste combinazioni sono chiamate trigrammi e sono raccolte analizzando alcune migliaia di parole e predisposte pronte per essere usate: in questo modo tutte le combinazioni di trigrammi, quelle consentite e quelle proibite, così come la loro frequenza di utilizzo sono pienamente e chiaramente note. Per esempio, se un motore di riconoscimento legge la parola "SMITK" , il sistema correggerà questa parola mutandola in "SMITH", senza l'intervento di un operatore e senza il rischio di un risultato errato! Infatti, usando una nuova tecnologia chiamata CREP (Common Recognition Errors Proofing), Recogniform Desktop Reader, con l'aiuto di un sistema di Intelligenza Artificiale, è capace, in piena autonomia, di investigare tutte le combinazioni dimostrabili e di selezionare quella più probabile.

    5.2 E.B.V.® (Eye Blow Verification)
    Verifica e correzione dei caratteriIn fase di definizione dell'applicazione, è possibile fare in modo che i caratteri manoscritti o quelli provenienti dalle codeline (tutti o solo quelli sospetti, il cui livello di confidenza è inferiore ad una specifica soglia parametrica) siano presentati ad un operatore per una verifica visuale. Anche in questa fase Recogniform Desktop Reader mostra le sue nuove caratteristiche: infatti grazie all'esclusivo sistema chiamato Eye Blow Verification®, un operatore può verificare migliaia di caratteri al minuto con il minimo sforzo e con grande accuratezza. Questo sistema è basato sul principio che, nell'ambito di un gruppo di elementi simili, l'occhio è automaticamente attratto da quelli differenti. Per esempio, se in un gruppo di persone ognuno indossa una camicia blu ad eccezione di una persona che ha una camicia rossa, quest'ultimo sarà notato rapidamente senza una dettagliata analisi dell'intero gruppo! In base a queste considerazioni, Recogniform Desktop Reader raggruppa nello stesso contesto tutte le immagini dei caratteri riconosciuti e classificati nello stesso modo, così un operatore può osservare ed avvertire la presenza di intrusi, la cui forma e differente da quella degli altri, generati da una classificazione errata. In questo modo è possibile trovare e correggere tutti i possibili errori di riconoscimento introdotti da: sporco non eliminabile, difetti di scanning, ambiguità, ecc.Ed anche quando siamo di fronte a casi di ambiguità, Recogniform Desktop Reader consente istantaneamente di risolvere il problema, richiamando automaticamente sul video l'immagine dell'intero campo.

    5.3 Correzione Visuale Assistita
    Dopo la fase di verifica dei caratteri inizia la fase di "correzione" vera e propria, con la visualizzazione nello stesso contesto sia dei dati che della relativa immagine, in modo da confrontarli direttamente.

    5.3.1 Text-To-Speech
    Per ridurre il tempo che l'operatore necessita per fare l'analisi comparativa dei dati letti e dei dati originali nell'immagine, abbiamo aggiunto un'opzione che consente di ascoltare dal computer i dati letti attraverso l'uso della tecnologia text-to-speech: in questo modo, invece di leggere i dati due volte, l'operatore può leggere una sola volta dall'immagine, ascoltando dal computer gli altri dati acquisiti.

    5.3.2. Normalizzazione dei dati
    Prima di essere archiviati, i dati letti possono essere formattati in diversi modi, consentendo di adattare l'output ad ogni necessità: conversione in maiuscolo o minuscolo; eliminazione degli spazi vuoti; sostituzione di caratteri; aggiunta di suffissi o prefissi; ecc.

    5.3.3. Tabelle di lookup e vocabolari compressi
    Oltre ai vari formati di database ed ai files txt è anche possibile usare i dizionari compressi .dct che consentono una maggiore velocità di accesso, una minore occupazione di memoria e non richiedono settings di alias, etc.. Per creare un file .dct è stata preparata una apposita utility che prende in input un file di testo ASCII, con una parola per riga, generando un file DCT.
    La velocità di look-up è estrema, nell' ordine delle centinaia di migliaia di confronti al secondo. La compressione è elevatissima, nell' ordine di milioni di parole per Mb.

    Forniamo dizionari già pronti in formato DCT con Nomi, Cognomi, Strade, CAP, Comuni, Province, Regioni, Prefissi telefonici e principali e-mail providers per i seguenti Stati:

    • Italia
    • Belgio
    • Finalandia
    • Francia
    • Germania
    • Gran Bretagna
    • Olanda
    • Polonia
    • Portogallo
    • Spagna
    • Svizzera
    • Turchia
    • U.S.A.

    Altri dizionari sono disponibili su richiesta. Inoltre è possibile creare dizionari personalizzati.

    5.3.4. Overlay
    A partire dalla versione 8.0 di Recogniform Reader è possibile utilizzare la nuova funzionalità di Overlay, che consente di visualizzare in fase di correzione il modulo opportunamente "ricostruito". Ciò avviene sovrapponendo l'immagine acquisita dallo scanner ad un modulo vuoto, in cui è visibile la fincatura filtrata via scanner. La sovrapposizione avviene tenendo conto di eventuali skew, stretch, offset verticale e/o orizzontale, in modo da rappresentare fedelmente il modulo originale. Utilizzare il modulo di overlay è semplice: basta indicare il nome del file da utilizzare come "sfondo" e decidere se utilizzare questa funzionalità solo in fase di correzione a video o anche in fase di output, così da salvare su disco l'immagine ricostruita.

     


    6. Output dei dati

    Recogniform Desktop Reader
    consente un uso flessibile dei dati riconosciuti grazie alla possibilità di esportarli esternamente all'applicazione in differenti formati. È possibile esportare dati con tre differenti metodi: verso database, verso file, verso applicazioni.

    Sono interfacciati tutti i database:

    • Oracle
    • Interbase
    • Sybase
    • Microsoft SQL Server
    • DB2
    • Paradox
    • dBase
    • FoxPro
    • Access
    • ODBC compatibili

     

    I formati dei file supportati per l'output sono:

    • Testo ASCII (.txt)
    • Testo con spaziature fissa (.asc)
    • Comma Separed Value (.csv)
    • Tab Separed Value (.tsv/.tab),
    • Hypertest Markup Language (.htm/.html)
    • Extensible Markup Language (.xml)
    • Microsoft Excel (.xls)
    • Symbolic Link Interchange Format (.slk/.sylk)
    • Comandi SQL (.sql)
    • dBase (.dbf)
    • Paradox (.db)
    • Access (.mdb)
    • Portable Document Format (.pdf)

    Oltre ai vari formati dati, è ora disponibile anche un formato misto "immagini + dati" che consente di creare in output un singolo file PDF ricercabile, cioè un file in cui alle immagini lavorate viene sovrapposto il testo riconosciuto: il testo non è volutamente visibile, ma è ricercabile e può essere anche copiato ed incollato. Può essere molto utile per creare degli archivi di documenti omogeni in formato PDF autonomi, con le immagini originali scandite e con i dati riconosciuti o digitati per indicizzazione.

    Vi è inoltre la possibilità di inserire un prefincato da sovrapporre all' output in PDF, utilissima per ricostruire il modulo originario qualora la scansione sia avvenuta in modulo cieco. I formati di file supportati per le immagini in output sono:

    • Tiff compresso e non (.tif)
    • Bitmap (.bmp)
    • Jpeg (.jpg)

    Recogniform Desktop Reader può anche direttamente inviare i dati ad altre applicazioni, usando alcuni script di funzioni che consentono di emulare l'input dell'operatore da tastiera.


    7. Personalizzazione attraverso gli script
    Recogniform Desktop Reader consente di settare l'intero insieme di parametri necessari per la lettura ottica dei dati in modo visuale. Inoltre è dotato di un sofisticato linguaggio di scripting orientato agli eventi, adatto a soddisfare particolari esigenze. Questo linguaggio consente di associare una specifica procedura scritta dall'utente ad ogni evento schedulato, modificando il comportamento standard del programma o integrando nuove caratteristiche. È molto simile al Basic e al Pascal, quindi è molto semplice a imparare ed usare. Questo linguaggio include le espressioni condizionali (IF), i cicli (FOR, REPEAT, WHILE) nella sua sintassi ed usa migliaia di funzioni integrate. Il sistema può settare automaticamente specifiche variabili, consentendo un'efficace interazione tra l'applicazione ed il processo di riconoscimento ottico.

    Questa caratteristica offre la possibilità di implementare personalizzazioni quali i controlli di quadratura tra i campi, le letture multiple dello stesso campo con differenti opzioni di pre-processing, od output e layout personalizzati. Con questo sistema si può ottenere un'applicazione fortemente personalizzata partendo da un prodotto standardizzato. I vantaggi sono chiari: costi ridotti e migliore affidabilità e flessibilità.  

     

    8. Statistiche
    Recogniform Desktop Reader
    consente di registrare automaticamente tutti i dati statistici relativi ad ogni elaborazione in un file di log, che può essere centralizzato in caso di installazioni multiple.

    Le informazioni immagazzinate sono:

    • data ed ora d'inizio;
    • nome dell workstation;
    • User name;
    • tipo di modulo;
    • durata della lettura automatica;
    • durata del tempo di verifica dei caratteri;
    • durata della fase di correzione dei campi;
    • numero di moduli elaborati;
    • numero di campi letti correttamente;
    • numero di campi sospetti;
    • numero di campi corretti;
    • numero di caratteri letti correttamente;
    • numero di caratteri sospetti;
    • numero di caratteri corretti.

    Usando il modulo Recogniform Statistics Viewer, è possibile analizzare i dati in modo automatico, ottenendo, su video o su carta, grafici dettagliati contenenti informazioni significative sulla produttività.

    I grafici possono essere relativi a tutte le elaborazioni o ad una elaborazione in particolare. Essi mostrano:

    • il numero di moduli elaborati per workstation;Statistiche
    • il numero di moduli processati per utente;
    • il numero di moduli processati al giorno;
    • il numero di moduli processati per tipologia;
    • tempo di elaborazione di ogni workstation;
    • tempo di elaborazione per ogni utente;
    • Tempo di elaborazione giornaliero
    • tempo di elaborazione per ogni tipologia;
    • Distribuzione del tempo tra lettura, verifica e correzione;
    • totale dei caratteri letti, sospetti e corretti;
    • totale dei campi letti, sospetti e corretti.

    È anche possibile usare filtri per analizzare solo dati relativi ad unaworkstation e/o ad un utente e/o ad una tipologia e/o ad una giornata. I dati statistici possono essere esportati anche in file .cvs per essere analizzati con altre applicazioni. In sintesi, con questo sistema è possibile monitorare la produttività e le statistiche degli utenti in modo globale e dettagliato.


    © 2000-2022 Recogniform Technologies S.p.A. - P.IVA IT02376980781 - Tutti i diritti sono riservati