<HTML dir=ltr><HEAD>
<META content="text/html; charset=unicode" http-equiv=Content-Type>
<META name=GENERATOR content="MSHTML 8.00.7601.17699"></HEAD>
<BODY>
<DIV><FONT color=#000000 size=2 face=Arial>I trying to learn more about natural language processing and language translation</FONT></DIV>
<DIV><FONT size=2 face=Arial></FONT> </DIV>
<DIV><FONT size=2 face=Arial>I have installed the English version of WordNet in Postgres without any problems.  I downloaded dictionaries from a varity of site such as are used in OpenOffice / WinEdt.</FONT></DIV>
<DIV><FONT size=2 face=Arial></FONT> </DIV>
<DIV><FONT size=2 face=Arial>When I try to build a table from several of the different languages I get the following error</FONT></DIV>
<DIV><FONT size=2 face=Arial></FONT> </DIV>
<DIV>ERROR:  invalid byte sequence for encoding "UTF8": 0x82</DIV>
<DIV> </DIV>
<DIV><FONT size=2 face=Arial>I checked the encoding and it is indeed set up for Unicode-8.  I tried to create databases using a variety of other encoding types such as WIN1252 and others and I got the same error message from all of them except SQL_ASCII.</FONT></DIV>
<DIV><FONT size=2 face=Arial></FONT> </DIV>
<DIV><FONT size=2 face=Arial>When I created the database using SQL_ASCII I recieved the warning that the database could only store 7 bit data.  When I loaded the data in this database I did not have any errors and when I look at the data it seems to be the same as in the original text file.</FONT></DIV>
<DIV><FONT size=2 face=Arial></FONT> </DIV>
<DIV><FONT size=2 face=Arial>Is there a "proper" encoding type that I should use to load the word lists so they can interoperate with the WordNet dataset that happily uses the UTF8 encoding?</FONT></DIV>
<DIV><FONT size=2 face=Arial></FONT> </DIV>
<DIV><FONT size=2 face=Arial>Bruce</FONT></DIV>
<DIV> </DIV></BODY></HTML>

<pre>

This message and any enclosures are intended only for the addressee.  Please  
notify the sender by email if you are not the intended recipient.  If you are  
not the intended recipient, you may not use, copy, disclose, or distribute this  
message or its contents or enclosures to any other person and any such actions  
may be unlawful.  Ball reserves the right to monitor and review all messages  
and enclosures sent to or from this email address.</pre>