Controleren of een PDF doorzoekbaar is

Sommige PDF's zijn doorzoekbaar, andere niet. Dit script sorteert een collectie PDF's over twee mappen. Bestanden met doorzoekbare tekst worden in de ene map gezet, en bestanden waarvan de tekst (nog) niet doorzoekbaar is, gaan in een andere.

De download hieronder is een zogeheten "batch sequence". Hiermee kun je in Adobe Acrobat achtereenvolgende bewerkingen uitvoeren op PDF-bestanden. Batch sequences worden altijd opgeslagen in aparte tekstbestanden met de extensie .sequ. Waar ze precies opgeslagen moeten worden, is voor elke versie van Acrobat weer anders: zoek dit op in de Help. Daarin staat ook waar de menuoptie zit om een batch sequence uit te voeren.

Vereisten: Adobe Acrobat (met Acrobat Reader kan het niet!)

De vraag kwam van iemand met "een gigantisch project" waarin PDF-bestanden van OCR-gegevens voorzien moesten worden om de tekst ervan te kunnen doorzoeken. Voor sommige was dat al gebeurd, en hij had geen zin om die opnieuw te doen.

PDF-bestanden kunnen tekst bevatten als een plaatje (dan kun je de tekst niet doorzoeken) of echt als woorden (en dan kan je de tekst wel doorzoeken). OCR is de manier om "plaatjes"-PDF's van tekst te voorzien. Een bestand dat ge-OCR-d is, bevat daarom woorden. Een bestand dat niet ge-OCR-d is, bevat geen woorden. Onze batch sequence telt eenvoudig de woorden. Bestanden met nul woorden zijn nog niet ge-OCR-d en worden in een bepaalde map gezet. Bestanden met meer dan nul woorden zijn wel al ge-OCR-d en worden in een andere map gezet.

(Met dank aan Michael J. Evering II, die ons erop wees dat de verwerking kan stoppen zodra op een van de pagina's woorden worden aangetroffen.)

Download hier een batch sequence die kan zien of bepaalde bestanden nog ge-OCR-d moeten worden