<div dir="ltr">hello,<br><div class="gmail_quote"><div dir="ltr"><div><div><div>I had a fairly clean map with street codes, a very good candidate for optical character recognition, so I tried to recognize it with some of the available ocr engines and applications, just to try what if.<br>


</div>To my surprise, ocropus (<a href="https://code.google.com/p/ocropus/" target="_blank">https://code.google.com/p/ocropus/</a>) got something useful. It's output is an xhtml file with pixel based *coordinates* (may I add some exclamative marks here?). <br>


</div>Here is an example:<br>   ‹span class="ocr_line" title="bbox 6309 5042 6465 5085"›506V‹/span›<br></div><div>I hope I could do something with it.<br></div><div>One great thing could be writing a specialized ocroscript (which is the command ocropus uses). Ocropus is written in python, so it shouldn't be impossible.<br>


</div><div>But even with search and replace I could obtain a reasonable csv/xml file.<br></div><div>The problem is still having to deal with pixel based coordinates. I think this could be solved with some proj magic, to feed it to ogr2ogr and voilà...<br>


</div><div>Being able to deal with pixel based coordinates could enable us to use basic raster to vector conversion, which is not unuseful.<br></div><div>Could someone help me?<span class="HOEnZb"><font color="#888888"><br>

</font></span></div><span class="HOEnZb"><font color="#888888">c<br clear="all"><br>-- <br>--------------------------------------------------------------------------<br>Carlo A. Bertelli<br>   Charta servizi e sistemi per il territorio e la storia ambientale srl <br>

          Dipendenze del palazzo Doria, <br>          vc. alla Chiesa della Maddalena 9/2 16124      Genova (Italy)<br>          tel. +39(0)10 2475439  fax +39(0)10 2475439  gsm:+39 393 1590711<br>--------------------------------------------------------------------------<br>

<br><br>
<br><br><br>
</font></span></div></div></div>