<HTML>
<HEAD>
<TITLE>Prozatimní heraldická knihovna</TITLE>
<META HTTP-EQUIV="Content-Type" CONTENT="text/html; charset=windows-1250">
<META HTTP-EQUIV="Content-language" CONTENT="cs">
</HEAD>

<BODY bgcolor="#efefef" lefTMARGIN="0" TOPMARGIN="0" marginwidth="0" marginheight="0" link="000000" alink="000000" vlink="000000">

<table cellspacing="0" cellpadding="0" border="0" align="center" width="80%">

<tr bgcolor="efefef">

<td valign="top" colspan="1">
<FONT FACE="verdana, arial" SIZE="2" color="#000000"><center><img src="phk.jpg" border="0">
<br>
</td>

</tr>


<tr bgcolor="ffffff">
<td valign="top" colspan="1">



<table align="center" cellspacing="0" cellpadding="0" width="100%" border="0">

<tr height="30">
<td><img src="roh1.jpg"></td>
<td></td>
<td align="right"><img src="roh2.jpg"></td>
</tr>


<tr>


<td valign="top" width="50">
</td>

<td width="*" rowspan="1">
<div style="font-family:verdana;font-size:12px;line-height:140%">

• Stále si lámu hlavu, jak obsah jednotlivých svazů knihovny zpřístupnit. Ideální by bylo vedle "faksimile" mít k dispozici textovou verzi dokumentu, to už sice není mimo technické možnosti, ale kolace skenu a OCR-převodu je (při množství našich textů) časově neúnosná a zřejmě vždycky bude, neboť OCR-programy budou mít vždy problém s německými jmény či latinskými citáty v českém textu, nehledě k často děsné polygrafické úrovni heraldicko-genealogických tisků z doby normalizace, jež jsou sotva čitelné v rotaprintovém či cyklostylovém "originále".<br>
Naprosto dokonalé by bylo spojení skenu a textu v jednom souboru, což je dokonce už možné díky funkci OCR-rozeznávání v Acrobatu. Má to ale dvě úskalí, nástroj pro češtinu obsahuje teprve nejnovější verze 8, a úměrně mládí je nástroj ne/kvalitní. Výsledky uživatel uvidí, když použije google-vyhledávání na naší stránce – opravdu to není nic ideálního. Druhé úskalí je v tom, že tuto textovou vrstvu pdf-dokumentů sice webovské prohledávače (v našem případě Google) indexují, ale zdale ne tak dobře jako běžné textové dokumenty.<br>
Takže – když už se vůbec do vytvoření textové vrstvy přes Acrobat pustíme, pak OCR-rozpoznávání může text špatně přečíst. Když ho přečte správně, ještě to neznamená, že google-vyhledávání tento text zachytí a případnému tazateli nabídne jako odpověď. Dobře funguje indexování jen u textových souborů. V takovém formátu je ale dostupné naprosté minimum souborů, u knih a klubových periodik prakticky jen obsahy / bibliografie. V tom se mimochodem skrývá další úskalí – bibliografická péče o zejm. klubové tisky je trestuhodně nízká, kvalita bibliografií (přehledů článků) jednotlivých časopisů zpravidla také. Tedy další informační hroby. <br>Bohužel nemáme k dispozici technologii, kterou vytváří Google své Books – OCR-rozpoznávání skenů je tam výtečné, vyhledávání výborné, webová přívětivost ideální (škoda jen, že Google věnuje malou pozornost skenování – jen vyjímečně člověk narazí v GoogleBooks na knihu, kde by alespoň jedna stránka nebyla nečitelná kvůli špatnému skenu...). Napadá mě jediné použitelné řešení – ke každému pdf-souboru se skeny vytvořit dvojče v txt či html formátu pomocí nějakého OCR-programu (třeba u Fine Readeru jsou výsledky OCR-rozpoznávání docela solidní). Tyhle textové soubory pak Google dobře naindexuje, a tak i najde. Ale pochopí čtenář, že když vyhledávání najde dokument XXX.htm, že se má v knihovně podívat na XXX.pdf?. (18. ledna 2008)<br>

<br><br><div align="right">
<a href="http://www.sweb.cz/jjkn">Jiří J. K. Nebeský</a>

<br>





</td>
<td width="50">
</td>
</tr>

<tr>
<td><img src="roh3.jpg"></td>
<td valign="bottom">
</td>
<td align="right"><img src="roh4.jpg"></td>
</tr>


</table>

</td>
</tr>

<tr>
<td>&nbsp;
<br>
</td>
</tr>


</table>


</BODY>
</HTML>