fixes in the html parser
[mir.git] / source / mir / util / xml / html / HTMLScanner.java
index 1a2bf1f..e956ae1 100755 (executable)
@@ -5,6 +5,8 @@ import java.io.Reader;
 import java.util.HashMap;
 import java.util.Map;
 
+import mir.util.HTMLRoutines;
+
 public class HTMLScanner {
   private ReaderWrapper reader;
   private ScannerReceiver receiver;
@@ -59,6 +61,7 @@ public class HTMLScanner {
         (type == Character.UPPERCASE_LETTER)  ||
         (type == Character.LOWERCASE_LETTER)  ||
         (type == Character.DECIMAL_DIGIT_NUMBER)  ||
+        (aCharacter == '.') ||
         (aCharacter == '-') ||
         (aCharacter == '_') ||
         (aCharacter == ':');
@@ -125,7 +128,7 @@ public class HTMLScanner {
       }
     }
 
-    return result.toString();
+    return HTMLRoutines.resolveHTMLEntites(result.toString());
   }
 
   private void readTag() throws IOException, HTMLParserExc {
@@ -219,7 +222,9 @@ public class HTMLScanner {
       result.append(reader.get());
     }
 
-    receiver.handleCData(result.toString());
+
+
+    receiver.handleCData(HTMLRoutines.resolveHTMLEntites(result.toString()));
   }
 
   /**