config attribute filters via config.propertieis./
[mir.git] / source / mircoders / localizer / basic / MirBasicProducerAssistantLocalizer.java
index 344a812..c13397b 100755 (executable)
+/*
+ * Copyright (C) 2001, 2002 The Mir-coders group
+ *
+ * This file is part of Mir.
+ *
+ * Mir is free software; you can redistribute it and/or modify
+ * it under the terms of the GNU General Public License as published by
+ * the Free Software Foundation; either version 2 of the License, or
+ * (at your option) any later version.
+ *
+ * Mir is distributed in the hope that it will be useful,
+ * but WITHOUT ANY WARRANTY; without even the implied warranty of
+ * MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
+ * GNU General Public License for more details.
+ *
+ * You should have received a copy of the GNU General Public License
+ * along with Mir; if not, write to the Free Software
+ * Foundation, Inc., 59 Temple Place, Suite 330, Boston, MA  02111-1307  USA
+ *
+ * In addition, as a special exception, The Mir-coders gives permission to link
+ * the code of this program with  any library licensed under the Apache Software License,
+ * The Sun (tm) Java Advanced Imaging library (JAI), The Sun JIMI library
+ * (or with modified versions of the above that use the same license as the above),
+ * and distribute linked combinations including the two.  You must obey the
+ * GNU General Public License in all respects for all of the code used other than
+ * the above mentioned libraries.  If you modify this file, you may extend this
+ * exception to your version of the file, but you are not obligated to do so.
+ * If you do not wish to do so, delete this exception statement from your version.
+ */
 package mircoders.localizer.basic;
 
-import java.util.*;
-import java.io.*;
-import freemarker.template.utility.*;
-import mir.misc.*;
-import mir.entity.*;
-import mir.util.*;
-import mircoders.module.*;
-import mircoders.storage.*;
-import mircoders.localizer.*;
-import mircoders.global.*;
+import gnu.regexp.RE;
+import mir.config.MirPropertiesConfiguration;
+import mir.entity.adapter.EntityAdapter;
+import mir.entity.adapter.EntityIteratorAdapter;
+import mir.generator.Generator;
+import mir.generator.GeneratorExc;
+import mir.generator.GeneratorFailure;
+import mir.log.LoggerWrapper;
+import mir.util.GeneratorDateTimeFunctions;
+import mir.util.GeneratorFormatAdapters;
+import mir.util.HTMLStripper;
+import mir.util.StringRoutines;
+import mir.util.generator.ReflectionGeneratorFunctionsAdapter;
+import mircoders.global.MirGlobal;
+import mircoders.localizer.MirLocalizerExc;
+import mircoders.localizer.MirLocalizerFailure;
+import mircoders.localizer.MirProducerAssistantLocalizer;
+import org.w3c.dom.Document;
+import org.w3c.dom.NamedNodeMap;
+import org.w3c.dom.Node;
+import org.w3c.dom.NodeList;
+import org.w3c.tidy.Configuration;
+import org.w3c.tidy.Tidy;
+
+import java.io.ByteArrayInputStream;
+import java.io.IOException;
+import java.io.StringWriter;
+import java.util.GregorianCalendar;
+import java.util.HashMap;
+import java.util.Iterator;
+import java.util.List;
+import java.util.Map;
 
 public class MirBasicProducerAssistantLocalizer implements MirProducerAssistantLocalizer {
-  protected static Logfile logger = Logfile.getInstance( MirGlobal.getConfigProperty("Home") + "/" + MirGlobal.getConfigProperty("Mir.Localizer.Logfile"));
-
-  public void initializeGenerationValueSet(Map aValueSet) {
-    // ML: these config settings will be included more beautifully as soon as the new config system is in place
-
-    Map configMap = new HashMap();
-    Map utilityMap = new HashMap();
-
-    configMap.put("producerDocRoot", MirGlobal.getConfigProperty("Producer.DocRoot"));
-    configMap.put("storageRoot", MirGlobal.getConfigProperty("Producer.StorageRoot"));
-    configMap.put("productionHost", MirGlobal.getConfigProperty("Producer.ProductionHost"));
-    configMap.put("openAction", MirGlobal.getConfigProperty("Producer.OpenAction"));
-    configMap.put("docRoot", MirGlobal.getConfigProperty("RootUri"));
-    configMap.put("actionRoot", MirGlobal.getConfigProperty("RootUri")+"/servlet/Mir");
-    configMap.put("now", new DateToMapAdapter((new GregorianCalendar()).getTime()));
-    configMap.put("videoHost", MirGlobal.getConfigProperty("Producer.Video.Host"));
-    configMap.put("audioHost", MirGlobal.getConfigProperty("Producer.Audio.Host"));
-    configMap.put("imageHost", MirGlobal.getConfigProperty("Producer.Image.Host"));
-    configMap.put("imagePath", MirGlobal.getConfigProperty("Producer.Image.Path"));
-    configMap.put("mirVersion", MirGlobal.getConfigProperty("Mir.Version"));
-    configMap.put("defEncoding", MirGlobal.getConfigProperty("Mir.DefaultEncoding"));
-    configMap.put("all", Configuration.getConfs());
-
-    utilityMap.put("compressWhitespace", new freemarker.template.utility.CompressWhitespace() );
-    utilityMap.put("encodeHTML", new GeneratorHTMLFunctions.encodeHTMLGeneratorFunction());
-    utilityMap.put("encodeURI", new GeneratorHTMLFunctions.encodeURIGeneratorFunction());
-
-    aValueSet.put("config", configMap);
-    aValueSet.put("utility", utilityMap);
-
-    EntityList topicList=null;
-    EntityList entityList=null;
-    EntityList parentList=null;
-    EntityList languageList=null;
+  protected LoggerWrapper logger;
+
+  private HTMLStripper stripper;
+  private RE regularExpressionLT;
+  private RE regularExpressionGT;
+  private RE regularExpressionWhitespace;
+  private RE regularExpressionLeadingSlashes;
+    
 
+  public MirBasicProducerAssistantLocalizer() throws MirLocalizerFailure {
     try {
-//      ModuleLinksImcs linksImcsModule = new ModuleLinksImcs(DatabaseLinksImcs.getInstance());
-      ModuleTopics topicsModule = new ModuleTopics(DatabaseTopics.getInstance());
-      ModuleLanguage languageModule = new ModuleLanguage(DatabaseLanguage.getInstance());
+      stripper = new HTMLStripper();
+
+      regularExpressionLT = new RE("<");
+      regularExpressionGT = new RE(">");
+      regularExpressionWhitespace = new RE("\\s+|&#x0A;|&#x0D;");
+      regularExpressionLeadingSlashes = new RE("^//+");
+    }
+    catch (Throwable t) {
+      throw new MirLocalizerFailure(t);
+    }
+  }
+
+  public void initializeGenerationValueSet(Map aValueSet) throws MirLocalizerExc, MirLocalizerFailure {
+    try {
+      Iterator i;
+
+      Map configMap = new HashMap();
+
+      logger = new LoggerWrapper("Localizer.ProducerAssistant");
+
+// obsolete:
+      configMap.put("producerDocRoot", MirGlobal.config().getString("Producer.DocRoot"));
+      configMap.put("storageRoot", MirGlobal.config().getString("Producer.StorageRoot"));
+      configMap.put("productionHost", MirGlobal.config().getString("Producer.ProductionHost"));
+      configMap.put("openAction", MirGlobal.config().getString("Producer.OpenAction"));
+      configMap.put("docRoot", MirGlobal.config().getString("RootUri"));
+      configMap.put("actionRoot", MirGlobal.config().getString("RootUri") + "/servlet/Mir");
+      configMap.put("now", new GeneratorFormatAdapters.DateFormatAdapter(new GregorianCalendar().getTime(), MirGlobal.config().getString("Mir.DefaultTimezone")));
+      configMap.put("videoHost", MirGlobal.config().getString("Producer.Video.Host"));
+      configMap.put("audioHost", MirGlobal.config().getString("Producer.Audio.Host"));
+      configMap.put("imageHost", MirGlobal.config().getString("Producer.Image.Host"));
+      configMap.put("imagePath", MirGlobal.config().getString("Producer.Image.Path"));
+      configMap.put("mirVersion", MirGlobal.config().getString("Mir.Version"));
+      configMap.put("defEncoding", MirGlobal.config().getString("Mir.DefaultEncoding"));
+
+// "new":
+      configMap.putAll(MirPropertiesConfiguration.instance().allSettings());
+
+      aValueSet.put("config", configMap);
+
+      aValueSet.put("utility", new Utility());
+
+      aValueSet.put("languages",
+          new EntityIteratorAdapter("", "", 20, MirGlobal.localizer().dataModel().adapterModel(), "language"));
+
+      aValueSet.put("topics",
+          new EntityIteratorAdapter("", "", 20, MirGlobal.localizer().dataModel().adapterModel(), "topic"));
+
+      Map articleTypeMap = new HashMap();
+      articleTypeMap.put("openposting", "0");
+      articleTypeMap.put("newswire", "1");
+      articleTypeMap.put("feature", "2");
+      articleTypeMap.put("topicspecial", "3");
+      articleTypeMap.put("startspecial", "4");
+
+      i = new EntityIteratorAdapter("", "", 20, MirGlobal.localizer().dataModel().adapterModel(), "articleType");
+      while (i.hasNext()) {
+        EntityAdapter articleType = (EntityAdapter) i.next();
+
+        articleTypeMap.put(articleType.get("name"), articleType.get("id"));
+      }
+      aValueSet.put("articletype", articleTypeMap);
+
+      Map commentStatusMap = new HashMap();
+      i = new EntityIteratorAdapter("", "", 20, MirGlobal.localizer().dataModel().adapterModel(), "commentStatus");
+      while (i.hasNext()) {
+        EntityAdapter commentStatus = (EntityAdapter) i.next();
+
+        commentStatusMap.put(commentStatus.get("name"), commentStatus.get("id"));
+      }
+      aValueSet.put("commentstatus", commentStatusMap);
+      aValueSet.put("languageCodeToId", new getLanguageIdFunction());
+    }
+    catch (Throwable t) {
+      logger.error("initializeGenerationValueSet: Exception while collecting comment statuses" + t.getMessage());
+
+      throw new MirLocalizerFailure(t);
+    }
+
+  }
+
+  public static class getLanguageIdFunction implements Generator.Function {
+    private Map languageCodeToId;
+    private String otherLanguageId;
+    private LoggerWrapper logger = new LoggerWrapper("Localizer.Earth.getLanguageIdFunction");
+
+    public getLanguageIdFunction() throws MirLocalizerFailure {
+      try {
+        otherLanguageId = "";
+        languageCodeToId = new HashMap();
 
-      topicList = topicsModule.getTopicsList();
-//      entityList = linksImcsModule.getByWhereClause("", "sortpriority, title", -1);
-//      parentList = linksImcsModule.getByWhereClause("to_parent_id=NULL", "sortpriority, title", -1);
-      languageList = languageModule.getByWhereClause("", "id", -1);
+        Iterator i = new EntityIteratorAdapter("", "", 20, MirGlobal.localizer().dataModel().adapterModel(), "language");
+        while (i.hasNext()) {
+          EntityAdapter language = (EntityAdapter) i.next();
+          if (language.get("code").equals("ot")) {
+            otherLanguageId = (String) language.get("id");
+          }
+
+          languageCodeToId.put(language.get("code"), language.get("id"));
+        }
+      }
+      catch (Throwable t) {
+        logger.error(t.toString());
+
+        throw new MirLocalizerFailure(t);
+      }
+    }
+
+    public Object perform(List aParameters) throws GeneratorExc, GeneratorFailure {
+      try {
+        if (aParameters.size() != 1) {
+          throw new GeneratorExc("getLanguageIdFunction: 1 parameter expected: language-code");
+        }
+
+        String result = (String) languageCodeToId.get(aParameters.get(0));
+        if (result == null) {
+          result = otherLanguageId;
+        }
+
+        return result;
+      }
+      catch (GeneratorExc e) {
+        throw e;
+      }
+      catch (Throwable t) {
+        throw new GeneratorFailure("getLanguageIdFunction: " + t.getMessage(), t);
+      }
+    }
+  }
+
+
+  public String filterNonHTMLText(String aText) {
+
+    logger.debug("about to filter non HTML Text of length " + aText.length());
+    try {
+      String result =
+          stripper.createHTML(
+              stripper.removeHTMLTags(aText),
+              MirGlobal.config().getString("Producer.ImageRoot"),
+              MirGlobal.config().getString("Producer.MailLinkName"),
+              MirGlobal.config().getString("Producer.ExtLinkName"),
+              MirGlobal.config().getString("Producer.IntLinkName"));
+      logger.debug("done filtering non-HTML text ");
+      return result;
     }
     catch (Throwable t) {
-      logger.printError("initializeGenerationValueSet: Exception "+t.getMessage());
-    }
-
-    aValueSet.put("topics", topicList);
-    aValueSet.put("imclist", entityList);
-    aValueSet.put("parentlist", parentList);
-
-    Map articleTypeMap = new HashMap();
-    articleTypeMap.put("openposting", "0");
-    articleTypeMap.put("newswire", "1");
-    articleTypeMap.put("feature", "2");
-    articleTypeMap.put("topicspecial", "3");
-    articleTypeMap.put("startspecial", "4");
-    aValueSet.put("articletype", articleTypeMap);
-  };
-
-  public String filterText(String aText) {
-    return StringUtil.createHTML(
-        StringUtil.deleteForbiddenTags(aText),
-        MirGlobal.getConfigProperty("Producer.ImageRoot"),
-        MirGlobal.getConfigProperty("Producer.MailLinkName"),
-        MirGlobal.getConfigProperty("Producer.ExtLinkName"),
-        MirGlobal.getConfigProperty("Producer.IntLinkName")
-    );
+      logger.error("error while filtering non-HTML text: " + t.toString());
+
+      throw new RuntimeException(t.toString());
+    }
+  }
+
+  public Generator.Interceptor createGenerationInterceptor() throws MirLocalizerExc, MirLocalizerFailure {
+
+    if (MirGlobal.config().getBoolean("Mir.Producer.UseInterceptor", true)) {
+      return new Generator.Interceptor() {
+
+        public Object intercept(Object anObject) {
+          if (anObject instanceof EntityAdapter) {
+            return new InterceptedEntityAdapter((EntityAdapter) anObject);
+          }
+
+          return anObject;
+        }
+      };
+    }
+    else {
+      return null;
+    }
+  }
+
+  public class InterceptedEntityAdapter {
+    private EntityAdapter adapter;
+
+    InterceptedEntityAdapter(EntityAdapter anEntityAdapter) {
+      adapter = anEntityAdapter;
+    }
+
+    public Object get(String aField) {
+      Object result = adapter.get(aField);
+      if (result instanceof String) {
+        return filterHTMLText((String) result);
+      }
+      else {
+        return result;
+      }
+    }
+
+    public Object getRaw() {
+      return new RawEntityAdapter(adapter);
+    }
+  }
+
+  public class RawEntityAdapter {
+    private EntityAdapter adapter;
+
+    RawEntityAdapter(EntityAdapter anEntityAdapter) {
+      adapter = anEntityAdapter;
+    }
+
+    public Object get(String aField) {
+      return adapter.get(aField);
+    }
+  }
+
+  public String filterHTMLText(String aText) {
+    try {
+      StringWriter out = new StringWriter();
+      Tidy tidy = new Tidy();
+      ByteArrayInputStream in = new ByteArrayInputStream(aText.getBytes("UTF8"));
+      tidy.setMakeClean(true);
+      tidy.setCharEncoding(Configuration.UTF8);
+      tidy.setErrout(logger.asPrintWriter(LoggerWrapper.DEBUG_MESSAGE));
+      print(tidy.parseDOM(in, null), out);
+
+      return out.toString();
+    }
+    catch (IOException e) {
+      return e.getMessage();
+    }
+  }
+
+
+
+  private boolean isBadAttr(String attrName) {
+    List badAttributes = StringRoutines.splitString(MirGlobal.config().getString("Localizer.HTML.BadAttributes"), ";");
+    Iterator i = badAttributes.iterator();
+    while (i.hasNext()) {
+      if (((String) i.next()).toLowerCase().equals(attrName.toLowerCase())) {
+        return true;
+      }
+    }
+    return false;
+  }
+
+  private String stripWhitespace(String aString) {
+    try {
+      return regularExpressionWhitespace.substituteAll(aString, "");
+    }
+    catch (Throwable t) {
+      return "";
+    }
+  }
+
+  private boolean checkAttr(String attrName) {
+    if (isBadAttr(attrName)) {
+      return false;
+    }
+    return true;
+
+  }
+
+  private boolean checkAttrValue(String attrValue) {
+      List badPrefixes = StringRoutines.splitString(MirGlobal.config().getString("Localizer.HTML.BadAttributeValuePrefixes"), ";");
+      Iterator i = badPrefixes.iterator();
+      while (i.hasNext()) {
+         if ((stripWhitespace(attrValue.toLowerCase())).startsWith(((String) i.next()).toLowerCase() + ":")) {
+        return false;
+      }
+    }
+    return true;
+  }
+
+
+  private boolean checkNode(String nodeName) {
+    List acceptableNodes = StringRoutines.splitString(MirGlobal.config().getString("Localizer.HTML.Whitelist"), ";");
+
+    Iterator i = acceptableNodes.iterator();
+    while (i.hasNext()) {
+      if (nodeName.equals(i.next())) {
+        return true;
+      }
+    }
+    return false;
+  }
+
+  private void print(Node node, StringWriter out) throws IOException {
+    if (node == null) {
+      return;
+    }
+    int type = node.getNodeType();
+    boolean canOutput = checkNode(node.getNodeName());
+
+    switch (type) {
+
+      case Node.DOCUMENT_NODE:
+
+        print(((Document) node).getDocumentElement(), out);
+        out.flush();
+        break;
+
+      case Node.ELEMENT_NODE:
+        if (canOutput) {
+          out.write('<');
+
+          out.write(node.getNodeName());
+          NamedNodeMap attrs = node.getAttributes();
+
+          for (int i = 0; i < attrs.getLength(); i++) {
+            String attrName = attrs.item(i).getNodeName();
+            String attrValue = attrs.item(i).getNodeValue();
+           if (attrValue.startsWith("//")){
+             attrValue=regularExpressionLeadingSlashes.substitute(attrValue, "/");
+           }
+                           
+            if (checkAttr(attrName) && checkAttrValue(attrValue)) {
+              out.write(' ');
+              out.write(attrs.item(i).getNodeName());
+              out.write("=\"");
+
+              out.write(attrs.item(i).getNodeValue());
+              out.write('"');
+            }
+          }
+
+          if (node.getChildNodes() == null || node.getChildNodes().getLength() == 0) {
+            out.write("/");
+          }
+          out.write('>');
+        }
+        NodeList children = node.getChildNodes();
+        if (children != null) {
+          int len = children.getLength();
+          for (int i = 0; i < len; i++) {
+            print(children.item(i), out);
+          }
+        }
+        break;
+
+      case Node.TEXT_NODE:
+        String value = node.getNodeValue();
+        try {
+          value = regularExpressionLT.substituteAll(value, "&lt;");
+          value = regularExpressionGT.substituteAll(value, "&gt;");
+        }
+        catch (Throwable t) {
+          value = "";
+        }
+        out.write(value);
+
+        break;
+
+    }
+
+    if (type == Node.ELEMENT_NODE && canOutput && node.getChildNodes() != null && node.getChildNodes().getLength() > 0) {
+      out.write("</");
+      out.write(node.getNodeName());
+      out.write('>');
+    }
+
+    out.flush();
+  }
+
+  public static class Utility extends ReflectionGeneratorFunctionsAdapter {
+    public Utility() {
+      super(new MirBasicUtilityFunctions());
+    }
+
+    public Object getDatetime() {
+      return new GeneratorDateTimeFunctions.DateTimeFunctions(
+          MirPropertiesConfiguration.instance().getString("Mir.DefaultTimezone"));
+    }
+
+    public Object getCompressWhitespace() {
+      return new freemarker.template.utility.CompressWhitespace();
+    }
   }
 }