Il lavoro, iniziato da qualche settimana, viene effettuato con l'ausilio di semplici software OCR - riconoscimento ottico dei caratteri. In questo modo Google punta ad indicizzare le numerosissime risorse presenti in rete sotto forma di file in formato immagine, consentendo quindi di allargare il numero di risultati compatibili e coerenti con le ricerche effettuate dagli utenti internet per determinate
parole chiave, proponendo fra i risultati anche quei file che fino ad oggi – e comunque per qualche tempo ancora – erano quasi del tutto invisibili agli spider del motore di ricerca. Citando Evin Levey e il suo articolo apparso sul blog di Google: “Mentre indicizziamo i documenti di testo salvati in formato PDF già da tempo, i documenti ottenuti con uno scanner sono un po' più difficili da leggere per un computer. Scansionare è l'opposto di stampare. La stampa trasforma le parole digitali in testo su un foglio di carta, mentre la scansione crea un'immagine digitale della carta, e del testo, consentendone la visione sul computer. La versione ottenuta con lo scanner del testo non è uguale alle parole digitali originarie, tuttavia è una rappresentazione di quelle parole stampate”. Il nuovo progetto portato avanti da Google consentirà inoltre di poter visualizzare il documento in formato testo attraverso la conversione del file in HMTL, sebbene al momento non sia in grado di riconoscere eventuali grafici e fotografie presenti nel documento originario, i quali non verranno pertanto visualizzati.