• Stále si lámu hlavu, jak obsah jednotlivých svazů knihovny zpřístupnit. Ideální by bylo vedle "faksimile" mít k dispozici textovou verzi dokumentu, to už sice není mimo technické možnosti, ale kolace skenu a OCR-převodu je (při množství našich textů) časově neúnosná a zřejmě vždycky bude, neboť OCR-programy budou mít vždy problém s německými jmény či latinskými citáty v českém textu, nehledě k často děsné polygrafické úrovni heraldicko-genealogických tisků z doby normalizace, jež jsou sotva čitelné v rotaprintovém či cyklostylovém "originále".
Naprosto dokonalé by bylo spojení skenu a textu v jednom souboru, což je dokonce už možné díky funkci OCR-rozeznávání v Acrobatu. Má to ale dvě úskalí, nástroj pro češtinu obsahuje teprve nejnovější verze 8, a úměrně mládí je nástroj ne/kvalitní. Výsledky uživatel uvidí, když použije google-vyhledávání na naší stránce – opravdu to není nic ideálního. Druhé úskalí je v tom, že tuto textovou vrstvu pdf-dokumentů sice webovské prohledávače (v našem případě Google) indexují, ale zdale ne tak dobře jako běžné textové dokumenty.
Takže – když už se vůbec do vytvoření textové vrstvy přes Acrobat pustíme, pak OCR-rozpoznávání může text špatně přečíst. Když ho přečte správně, ještě to neznamená, že google-vyhledávání tento text zachytí a případnému tazateli nabídne jako odpověď. Dobře funguje indexování jen u textových souborů. V takovém formátu je ale dostupné naprosté minimum souborů, u knih a klubových periodik prakticky jen obsahy / bibliografie. V tom se mimochodem skrývá další úskalí – bibliografická péče o zejm. klubové tisky je trestuhodně nízká, kvalita bibliografií (přehledů článků) jednotlivých časopisů zpravidla také. Tedy další informační hroby.
Bohužel nemáme k dispozici technologii, kterou vytváří Google své Books – OCR-rozpoznávání skenů je tam výtečné, vyhledávání výborné, webová přívětivost ideální (škoda jen, že Google věnuje malou pozornost skenování – jen vyjímečně člověk narazí v GoogleBooks na knihu, kde by alespoň jedna stránka nebyla nečitelná kvůli špatnému skenu...). Napadá mě jediné použitelné řešení – ke každému pdf-souboru se skeny vytvořit dvojče v txt či html formátu pomocí nějakého OCR-programu (třeba u Fine Readeru jsou výsledky OCR-rozpoznávání docela solidní). Tyhle textové soubory pak Google dobře naindexuje, a tak i najde. Ale pochopí čtenář, že když vyhledávání najde dokument XXX.htm, že se má v knihovně podívat na XXX.pdf?. (18. ledna 2008)