changed the way we get content-type during file upload.
[mir.git] / source / mir / misc / StringUtil.java
1 /*
2  * put your module comment here
3  */
4
5
6 package  mir.misc;
7
8 import  java.io.*;
9 import  java.lang.*;
10 import  java.util.*;
11 import  gnu.regexp.*;
12
13 /**
14  * Statische Hilfsmethoden zur Stringbehandlung
15  *
16  * @version 29.6.99
17  * @author RK
18  */
19 public final class StringUtil {
20
21   /**
22    * Wandelt Datum in einen 8-ziffrigen String um (yyyymmdd)
23    * @param theDate
24    * @return 8-ziffriger String (yyyymmdd)
25    */
26
27   public static final String date2webdbDate (GregorianCalendar theDate) {
28     StringBuffer webdbDate = new StringBuffer();
29     webdbDate.append(String.valueOf(theDate.get(Calendar.YEAR)));
30     webdbDate.append(pad2(theDate.get(Calendar.MONTH) + 1));
31     webdbDate.append(pad2(theDate.get(Calendar.DATE)));
32     return  webdbDate.toString();
33   }
34
35   /**
36    * wandelt Calendar in dd.mm.yyyy / hh.mm um
37    * @param theDate
38    * @return String mit (dd.mm.yyyy / hh.mm um)
39    */
40   public static String date2readableDateTime (GregorianCalendar theDate) {
41     String readable = "";
42     int hour;
43     readable += pad2(theDate.get(Calendar.DATE));
44     readable += "." + pad2(theDate.get(Calendar.MONTH) + 1);
45     readable += "." + String.valueOf(theDate.get(Calendar.YEAR));
46     hour = theDate.get(Calendar.HOUR);
47     if (theDate.get(Calendar.AM_PM) == Calendar.PM)
48       hour += 12;
49     readable += " / " + pad2(hour);
50     readable += ":" + pad2(theDate.get(Calendar.MINUTE));
51     return  readable;
52   }
53
54   /**
55    * wandelt eine Datum in einen 8-buchstabigen String, der durch <code>/</code>
56    * getrennt ist.
57    *
58    * @param webdbDate
59    * @return String mit <code>/yyyy/mm/dd</code>
60    */
61   public static final String webdbDate2path (String webdbDate) {
62     StringBuffer path = new StringBuffer();
63     path.append("/").append(webdbDate.substring(0, 4));
64     path.append("/").append(webdbDate.substring(4, 6));
65     path.append("/");
66     //who did this?
67     //path.append("/").append(webdbDate.substring(6, 8));
68     return  path.toString();
69   }
70
71   /**
72    * wandelt Calendar in dd.mm.yyyy um
73    *
74    * @param theDate
75    * @return String mit  <code>dd.mm.yyyy</code>
76    */
77   public static final String webdbDate2readableDate (String webdbDate) {
78     String date = "";
79     date += webdbDate.substring(6, 8);
80     date += "." + webdbDate.substring(4, 6);
81     date += "." + webdbDate.substring(0, 4);
82     return  date;
83   }
84
85
86   /**
87    * converts string from format: yyyy-mm-dd__hh:mm:ss.d
88    * to dd.mm.yyyy hh:mm
89    */
90   public static String dateToReadableDate(String date) {
91     StringBuffer returnDate = new StringBuffer();
92     if (date!=null) {
93
94       returnDate.append(date.substring(8,10)).append('.');
95       returnDate.append(date.substring(5,7)).append('.');
96       returnDate.append(date.substring(0,4)).append(' ');
97       returnDate.append(date.substring(11,16));
98     }
99     return returnDate.toString();
100   }
101
102
103   /**
104    * schließt einen String in Anführungsszeichen ein, falls er Leerzeichen o.ä. enthält
105    *
106    * @return gequoteter String
107    */
108    public static String quoteIfNecessary(String s) {
109     for (int i = 0; i < s.length(); i++)
110       if (!(Character.isLetterOrDigit(s.charAt(i)) || s.charAt(i) == '.'))
111         return quote(s, '"');
112     return s;
113   }
114
115    /**
116    * schließt <code>s</code> in <code>'</code> ein und setzt Backslashes vor
117    * "gefährliche" Zeichen innerhalb des Strings
118    * Quotes special SQL-characters in <code>s</code>
119    *
120    * @return geqoteter String
121    */
122   public static String quote(String s)
123   {
124     //String s2 = quote(s, '\'');
125
126     //Quickhack
127     //Because of '?-Bug in Postgresql-JDBC-Driver
128     StringBuffer temp = new StringBuffer();
129     for(int i=0;i<s.length();i++){
130       if(s.charAt(i)=='\''){
131         temp.append("&acute;");
132       } else {
133         temp.append(s.charAt(i));
134       }
135     }
136     String s2 = temp.toString();
137     //Quickhack end
138
139     s2 = quote(s2, '\"');
140     return s2;
141   }
142
143   /**
144    * schließt <code>s</code> in <code>'</code> ein und setzt Backslashes vor
145    * "gefährliche" Zeichen innerhalb des Strings
146    *
147    * @param s String, der gequoted werden soll
148    * @param quoteChar zu quotendes Zeichen
149    * @return gequoteter String
150    */
151   public static String quote(String s, char quoteChar)
152   {
153     StringBuffer buf = new StringBuffer(s.length());
154     int pos = 0;
155     while (pos < s.length()) {
156       int i = s.indexOf(quoteChar, pos);
157       if (i < 0) i = s.length();
158       buf.append(s.substring(pos, i));
159       pos = i;
160       if (pos < s.length()) {
161         buf.append('\\');
162         buf.append(quoteChar);
163         pos++;
164       }
165     }
166     return buf.toString();
167   }
168
169   /**
170    * replaces dangerous characters in <code>s</code>
171    *
172    */
173
174   public static String unquote(String s)
175   {
176     char quoteChar='\'';
177     StringBuffer buf = new StringBuffer(s.length());
178     int pos = 0;
179     String searchString = "\\"+quoteChar;
180     while (pos < s.length()) {
181       int i = s.indexOf(searchString, pos);
182       if (i < 0) i = s.length();
183       buf.append(s.substring(pos, i));
184       pos = i+1;
185     }
186     return buf.toString();
187   }
188
189   /**
190    * Wandelet String in byte[] um.
191    * @param s
192    * @return byte[] des String
193    */
194
195   public static byte[] stringToBytes(String s) {
196     String crlf = System.getProperty("line.separator");
197     if (!crlf.equals("\n"))
198       s = replace(s, "\n", crlf);
199     // byte[] buf = new byte[s.length()];
200     byte[] buf = s.getBytes();
201     return buf;
202   }
203
204     /**
205    * Ersetzt in String <code>s</code> das <code>pattern</code> durch <code>substitute</code>
206    * @param s
207    * @param pattern
208    * @param substitute
209    * @return String mit den Ersetzungen
210    */
211   public static String replace(String s, String pattern, String substitute) {
212     int i = 0, pLen = pattern.length(), sLen = substitute.length();
213     StringBuffer buf = new StringBuffer(s.length());
214     while (true) {
215       int j = s.indexOf(pattern, i);
216       if (j < 0) {
217         buf.append(s.substring(i));
218         break;
219       } else {
220         buf.append(s.substring(i, j));
221         buf.append(substitute);
222         i = j+pLen;
223       }
224     }
225     return buf.toString();
226   }
227
228
229   /**
230    * Fügt einen Separator an den Pfad an
231    * @param path
232    * @return Pfad mit Separator am Ende
233    */
234   public static final String addSeparator (String path) {
235     return  path.length() == 0 || path.endsWith(File.separator) ? path : path
236         + File.separatorChar;
237   }
238
239   /**
240    * Fügt ein <code>/</code> ans ende des Strings and
241    * @param path
242    * @return Pfad mit <code>/</code> am Ende
243    */
244   public static final String addSlash (String path) {
245     return  path.length() == 0 || path.endsWith("/") ? path : path + '/';
246   }
247
248   /**
249    * Löscht <code>/</code> am Ende des Strings, falls vorhanden
250    * @param path
251    * @return String ohne <code>/</code> am Ende
252    */
253   public static final String removeSlash (String path) {
254     return  path.length() > 1 && path.endsWith("/") ? path.substring(0, path.length()
255         - 1) : path;
256   }
257
258   /**
259    * Checks to see if the path is absolute by looking for a leading file
260    * separater
261    * @todo deal with windows drive letters.
262    * @param path
263    * @return
264    */
265   public static boolean isAbsolutePath (String path) {
266     return  path.startsWith(File.separator);
267   }
268
269   /**
270    * Löscht Slash am Anfang des Strings
271    * @param path
272    * @return
273    */
274   public static String removeFirstSlash (String path) {
275     return  path.startsWith("/") ? path.substring(1) : path;
276   }
277
278   /**
279    * formatiert eine Zahl (0-99) zweistellig (z.B. 5 -> 05)
280    * @return zwistellige Zahl
281    */
282   public static String pad2 (int number) {
283     return  number < 10 ? "0" + number : String.valueOf(number);
284   }
285
286   /**
287    * formatiert eine Zahl (0-999) dreistellig (z.B. 7 -> 007)
288    *
289    * @return 3-stellige Zahl
290    */
291   public static String pad3 (int number) {
292     return  number < 10 ? "00" + number : number < 100 ? "0" + number : String.valueOf(number);
293   }
294
295   /**
296    * Konvertiert Unix-Linefeeds in Win-Linefeeds
297    * @param s
298    * @return Konvertierter String
299    */
300   public static String unixLineFeedsToWin(String s) {
301     int i = -1;
302     while (true) {
303       i = s.indexOf('\n', i+1);
304       if (i < 0) break;
305       if ((i == 0 || s.charAt(i-1) != '\r') &&
306         (i == s.length()-1 || s.charAt(i+1) != '\r')) {
307         s = s.substring(0, i)+'\r'+s.substring(i);
308         i++;
309       }
310     }
311     return s;
312   }
313
314
315   /**
316    * verwandelt einen String in eine gültige Url, konvertiert Sonderzeichen
317    * und Spaces werden zu Underscores
318    *
319    * @return gültige Url
320    */
321   public static String convert2url(String s) {
322     s = toLowerCase(s);
323     StringBuffer buf = new StringBuffer();
324     for(int i = 0; i < s.length(); i++ ) {
325         switch( s.charAt( i ) ) {
326         case 'ö':
327       buf.append( "oe" ); break;
328         case 'ä':
329       buf.append( "ae" ); break;
330         case 'ü':
331       buf.append( "ue" ); break;
332         case 'ã':
333       buf.append( "a" ); break;
334         case '´':
335         case '.':
336       buf.append( "_" ); break;
337         case ' ':
338       if( buf.charAt( buf.length() - 1 ) != '_' ) {
339           buf.append( "_" );
340       }
341       break;
342         default:
343       buf.append( s.charAt( i ) );
344         }
345     }
346     return buf.toString();
347   }
348
349   /**
350    * wandelt Sonderzeichen in Quotes um
351    *
352    * @return Kovertierter String
353    */
354   public static String encodeHtml(String s) {
355     StringBuffer buf = new StringBuffer();
356     for(int i=0;i < s.length(); i++ ) {
357
358       /** @todo looks inefficient */
359       if (s.charAt(i)=='&') {
360         // convert html to xml-parsable representation
361         if( s.indexOf( "&ouml;", i ) == i ) {
362           buf.append( "&#246;" ); i += 5;
363           continue;
364         }
365         if( s.indexOf( "&auml;", i ) == i ) {
366           buf.append( "&#228;" ); i += 5;
367           continue;
368         }
369         if( s.indexOf( "&uuml;", i ) == i ) {
370           buf.append( "&#252;" ); i += 5;
371           continue;
372         }
373         if( s.indexOf( "&Ouml;", i ) == i ) {
374           buf.append( "&#214;" ); i += 5;
375           continue;
376         }
377         if( s.indexOf( "&Auml;", i ) == i ) {
378           buf.append( "&#196;" ); i += 5;
379           continue;
380         }
381         if( s.indexOf( "&Uuml;", i ) == i ) {
382           buf.append( "&#220;" ); i += 5;
383           continue;
384         }
385         if( s.indexOf( "&szlig;", i ) == i ) {
386           buf.append( "&#223;" ); i += 6;
387           continue;
388         }
389
390         /** @todo should only escape outside of tags */
391
392         if( s.indexOf( "&quot;", i ) == i ) {
393           buf.append( "&#223;" ); i += 5;
394           continue;
395         }
396         if( s.indexOf( "&ndash;", i ) == i ) {
397           buf.append( "&#8211;" ); i += 6;
398           continue;
399         }
400         if( s.indexOf( "&mdash;", i ) == i ) {
401           buf.append( "&#8212;" ); i += 6;
402           continue;
403         }
404         if( s.indexOf( "&ldquo;", i ) == i ) {
405           buf.append( "&#8220;" ); i += 6;
406           continue;
407         }
408         if( s.indexOf( "&rdquo;", i ) == i ) {
409           buf.append( "&#8221;" ); i += 6;
410           continue;
411         }
412         if( s.indexOf( "&bdquo;", i ) == i ) {
413           buf.append( "&#8222;" ); i += 6;
414           continue;
415         }
416
417         //looks pretty stupid
418         if( s.indexOf( "&lt;", i ) == i ) {
419           buf.append( "&lt;" ); i += 3;
420           continue;
421         }
422         if( s.indexOf( "&gt;", i ) == i ) {
423           buf.append( "&gt;" ); i += 3;
424           continue;
425         }
426         if( s.indexOf( "&acute;", i ) == i ) {
427           buf.append( "&acute;" ); i += 6;
428           continue;
429         }
430         if( s.indexOf( "&nbsp;", i ) == i ) {
431           buf.append( "&nbsp;" ); i += 5;
432           continue;
433         }
434         //has to be the last
435         if( s.indexOf( "&", i ) == i ) {
436           buf.append( "&#38;" ); i += 0;
437           continue;
438         }
439       }
440       // convert umlauts an other special charakters
441       switch( s.charAt(i) ) {
442         case 'ö': buf.append( "&#246;" ); break;
443         case 'ä': buf.append( "&#228;" ); break;
444         case 'ü': buf.append( "&#252;" ); break;
445         case 'Ö': buf.append( "&#214;" ); break;
446         case 'Ä': buf.append( "&#196;" ); break;
447         case 'Ü': buf.append( "&#220;" ); break;
448         case 'ß': buf.append( "&#223;" ); break;
449         case 'é': buf.append( "&#233;" ); break;
450         case 'è': buf.append( "&#232;" ); break;
451         case 'á': buf.append( "&#225;" ); break;
452         case 'à': buf.append( "&#224;" ); break;
453         case 'â': buf.append( "&#226;" ); break;
454         case 'ã': buf.append( "&#227;" ); break;
455         case '¬': buf.append( "&#172;" ); break;
456         case '¹': buf.append( "&#185;" ); break;
457         case '²': buf.append( "&#178;" ); break;
458         case '³': buf.append( "&#179;" ); break;
459         case '¼': buf.append( "&#188;" ); break;
460         case '½': buf.append( "&#189;" ); break;
461         case '¾': buf.append( "&#190;" ); break;
462         case '¶': buf.append( "&#182;" ); break;
463         case 'æ': buf.append( "&#230;" ); break;
464         case 'ð': buf.append( "&#240;" ); break;
465         case '|': buf.append( "&#166;" ); break;
466         case '·': buf.append( "&#183;" ); break;
467         case '°': buf.append( "&#176;" ); break;
468         case '§': buf.append( "&#167;" ); break;
469         case 'ø': buf.append( "&#248;" ); break;
470         case 'ç': buf.append( "&#231;" ); break;
471         case '¤': buf.append( "&#164;" ); break;
472         case 'ª': buf.append( "&#170;" ); break;
473         case 'Ç': buf.append( "&#199;" ); break;
474         case 'Ã': buf.append( "&#195;" ); break;
475         case 'Â': buf.append( "&#194;" ); break;
476         case 'Æ': buf.append( "&#198;" ); break;
477         case '©': buf.append( "&#169;" ); break;
478         case '®': buf.append( "&#174;" ); break;
479         case '¥': buf.append( "&#165;" ); break;
480         case 'Þ': buf.append( "&#254;" ); break;
481         case '¯': buf.append( "&#175;" ); break;
482         case 'Ð': buf.append( "&#208;" ); break;
483         case 'º': buf.append( "&#186;" ); break;
484         case '¡': buf.append( "&#161;" ); break;
485         case '£': buf.append( "&#163;" ); break;
486         case '±': buf.append( "&#177;" ); break;
487         case '¿': buf.append( "&#191;" ); break;
488         case 'Ø': buf.append( "&#216;" ); break;
489         case 'Á': buf.append( "&#192;" ); break;
490         case 'À': buf.append( "&#193;" ); break;
491         case 'É': buf.append( "&#200;" ); break;
492         case 'È': buf.append( "&#201;" ); break;
493         case 'ù': buf.append( "&#250;" ); break;
494         case 'ñ': buf.append( "&#241;" ); break;
495         case 'Ñ': buf.append( "&#209;" ); break;
496         case 'µ': buf.append( "&#181;" ); break;
497         case 'Í': buf.append( "&#204;" ); break;
498         case 'Ì': buf.append( "&#205;" ); break;
499         case 'í': buf.append( "&#236;" ); break;
500         case 'ì': buf.append( "&#237;" ); break;
501         case 'î': buf.append( "&#238;" ); break;
502         case 'Î': buf.append( "&#206;" ); break;
503         case 'ó': buf.append( "&#243;" ); break;
504         case 'Ó': buf.append( "&#210;" ); break;
505         case 'ò': buf.append( "&#206;" ); break;
506         case 'Ò': buf.append( "&#211;" ); break;
507         case 'ô': buf.append( "&#244;" ); break;
508         case 'Ô': buf.append( "&#212;" ); break;
509         case 'õ': buf.append( "&#245;" ); break;
510         case 'Õ': buf.append( "&#213;" ); break;
511         case 'ý': buf.append( "&#253;" ); break;
512         case 'Ý': buf.append( "&#221;" ); break;
513         case 'û': buf.append( "&#251;" ); break;
514         case 'Û': buf.append( "&#219;" ); break;
515         case 'ú': buf.append( "&#249;" ); break;
516         case 'Ú': buf.append( "&#217;" ); break;
517         case 'Ù': buf.append( "&#218;" ); break;
518         case 'Ê': buf.append( "&#202;" ); break;
519         case 'ê': buf.append( "&#234;" ); break;
520         case 'å': buf.append( "&#229;" ); break;
521         case 'Å': buf.append( "&#197;" ); break;
522         case 'ë': buf.append( "&#235;" ); break;
523         case 'Ë': buf.append( "&#203;" ); break;
524         case 'ÿ': buf.append( "&#255;" ); break;
525         case 'ï': buf.append( "&#239;" ); break;
526         case 'Ï': buf.append( "&#207;" ); break;
527         case '«': buf.append( "&#171;" ); break;
528         case '»': buf.append( "&#187;" ); break;
529         case '\'': buf.append( "&acute;" ); break;
530         case '\"': buf.append( "&quot;" ); break;
531         //case '\u8211': buf.append( "&#8211;" ); break;
532         //case '\u8212': buf.append( "&#8212;" ); break;
533         //case '\u8220': buf.append( "&#8220;" ); break;
534         //case '\u8221': buf.append( "&#8221;" ); break;
535         //case '\u8222': buf.append( "&#8222;" ); break;
536         //case '\"': buf.append( "&#34;" ); break;
537         default: buf.append( s.charAt(i) );
538       }
539
540     }
541     return buf.toString();
542   }
543
544
545   public static String decodeHTMLinTags(String s){
546     StringBuffer buffer = new StringBuffer();
547     boolean start = false;
548     boolean stop = false;
549     int startIndex = 0;
550     int stopIndex = 0;
551     int temp = 0;
552
553     for(int i=0;i<s.length();i++){
554       if(s.charAt(i)=='<'){
555         start = true;
556         startIndex = i;
557       } else if(s.charAt(i)=='>'){
558         stop = true;
559         stopIndex = i;
560
561         if(start && stop){
562           buffer.append(s.substring(temp,startIndex));
563           buffer.append(replaceQuot(s.substring(startIndex,stopIndex+1)));
564           i= temp= stopIndex+1;
565           start= stop= false;
566         }
567       }
568     }
569     if(stopIndex>0){
570       buffer.append(s.substring(stopIndex+1));
571       return buffer.toString();
572     } else {
573       return s;
574     }
575   }
576
577   public static String replaceQuot(String s) {
578     StringBuffer buffer = new StringBuffer();
579     for(int j = 0; j < s.length();j++){
580       if(s.charAt(j)=='&'){
581         if(s.indexOf( "&quot;",j) == j) {
582           buffer.append( "\"" );
583           j += 5;
584         }//if
585       } else {
586         buffer.append(s.charAt(j));
587       }//else
588     }//for
589     return buffer.toString();
590   }
591
592   /** wandelt Quotes in Sonderzeichen um
593    */
594   /**
595   public static String decodeHtml(String s) {
596     StringBuffer buf = new StringBuffer();
597     for(int i=0;i < s.length(); i++ ) {
598       if( s.indexOf( "&ouml;", i ) == i ) {
599         buf.append( "ö" ); i += 5;
600         continue;
601       }
602       if( s.indexOf( "&auml;", i ) == i ) {
603         buf.append( "ä" ); i += 5;
604         continue;
605       }
606       if( s.indexOf( "&uuml;", i ) == i ) {
607         buf.append( "ü" ); i += 5;
608         continue;
609       }
610       if( s.indexOf( "&Ouml;", i ) == i ) {
611         buf.append( "Ö" ); i += 5;
612         continue;
613       }
614       if( s.indexOf( "&Auml;", i ) == i ) {
615         buf.append( "Ä" ); i += 5;
616         continue;
617       }
618       if( s.indexOf( "&Uuml;", i ) == i ) {
619         buf.append( "Ü" ); i += 5;
620         continue;
621       }
622       if( s.indexOf( "&szlig;", i ) == i ) {
623         buf.append( "ß" ); i += 6;
624         continue;
625       }
626       if( s.indexOf( "&quot;", i ) == i ) {
627         buf.append( "\"" ); i += 5;
628         continue;
629       }
630       buf.append( s.charAt(i) );
631     }
632     return buf.toString();
633   }
634    */
635
636   /**
637    * schnellere Variante der String.toLowerCase()-Routine
638    *
639    * @return String in Kleinbuchsten
640    */
641   public static String toLowerCase(String s) {
642     int l = s.length();
643     char[] a = new char[l];
644     for (int i = 0; i < l; i++)
645       a[i] = Character.toLowerCase(s.charAt(i));
646     return new String(a);
647   }
648
649     /**
650    * Findet <code>element</code> im String-Array <code>array</code>
651    * @param array
652    * @param element
653    * @return Fundstelle als int oder -1
654    */
655   public static int indexOf(String[] array, String element) {
656     if (array != null)
657       for (int i = 0; i < array.length; i++)
658         if (array[i].equals(element))
659           return i;
660     return -1;
661   }
662
663   /**
664    * Testet auf Vorkommen von <code>element</code> in <code>array</code>
665    * @param array String-Array
666    * @param element
667    * @return true wenn <code>element</code> vorkommt, sonst false
668    */
669   public static boolean contains(String[] array, String element) {
670     return indexOf(array, element) >= 0;
671   }
672
673     /**
674    * Ermittelt CRC-Prüfsumme von String <code>s</code>
675    * @param s
676    * @return CRC-Prüfsumme
677    */
678   public static int getCRC(String s) {
679     int h = 0;
680     char val[] = s.toCharArray();
681     int len = val.length;
682
683     for (int i = 0 ; i < len; i++) {
684       h &= 0x7fffffff;
685       h = (((h >> 30) | (h << 1)) ^ (val[i]+i));
686     }
687
688     return (h << 8) | (len & 0xff);
689   }
690
691     /**
692    * Liefert Default-Wert def zurück, wenn String <code>s</code>
693    * kein Integer ist.
694    *
695    * @param s
696    * @param def
697    * @return geparster int aus s oder def
698    */
699   public static int parseInt(String s, int def) {
700     if (s == null) return def;
701     try {
702       return Integer.parseInt(s);
703     } catch (NumberFormatException e) {
704       return def;
705     }
706   }
707
708   /**
709    * Liefert Defaultwert def zurück, wenn s nicht zu einem float geparsed werden kann.
710    * @param s
711    * @param def
712    * @return geparster float oder def
713    */
714   public static float parseFloat(String s, float def) {
715     if (s == null) return def;
716     try {
717       return new Float(s).floatValue();
718     } catch (NumberFormatException e) {
719       return def;
720     }
721   }
722
723     /**
724    * Findet Ende eines Satzes in String <code>text</code>
725    * @param text
726    * @param startIndex
727    * @return index des Satzendes, oder -1
728    */
729   public static int findEndOfSentence(String text, int startIndex) {
730      while (true) {
731        int i = text.indexOf('.', startIndex);
732        if (i < 0) return -1;
733        if (i > 0 && !Character.isDigit(text.charAt(i-1)) &&
734           (i+1 >= text.length()
735           || text.charAt(i+1) == ' '
736           || text.charAt(i+1) == '\n'
737           || text.charAt(i+1) == '\t'))
738           return i+1;
739        startIndex = i+1;
740      }
741   }
742
743     /**
744    * Findet Wortende in String <code>text</code> ab <code>startIndex</code>
745    * @param text
746    * @param startIndex
747    * @return Index des Wortendes, oder -1
748    */
749   public static int findEndOfWord(String text, int startIndex) {
750     int i = text.indexOf(' ', startIndex),
751       j = text.indexOf('\n', startIndex);
752     if (i < 0) i = text.length();
753     if (j < 0) j = text.length();
754     return Math.min(i, j);
755   }
756
757    /**
758    * This routine makes html links (href) out of text browseable urls
759    * @param text
760    * @return Konvertierter String
761    */
762   public static String makeLinks(String text) {
763     int i = 0;
764     StringBuffer buf = new StringBuffer(text.length());
765     while (true) {
766       int j = text.indexOf("http://", i);
767       if (j < 0) {
768         buf.append(text.substring(i));
769         break;
770       } else {
771         buf.append(text.substring(i, j));
772         int k = findEndOfWord(text,j+7);
773         String url="";
774         if (k<0)  url = text.substring(j);
775         else    url = text.substring(j,k);
776
777         buf.append("<a href=\042"+url+"\042>"+url+"</a>");
778         //System.out.println("url mark: " + url);
779         i = j+url.length();
780       }
781     }
782     return buf.toString();
783
784   }
785
786
787   /**
788    *  convertNewline2P ist eine regex-routine zum umwandeln von 2 oder mehr newlines (\n)
789    *  in den html-tag <p>
790    *  nur sinnvoll, wenn text nicht im html-format eingegeben
791    */
792   public static String convertNewline2P(String haystack) {
793     try {
794       RE regex = new RE("(<br>\r?\n<br>){1,}");
795       return regex.substituteAll(haystack,"\n</p><p>");
796     } catch(REException ex){
797       return null;
798     }
799   }
800
801   /**
802    *  convertNewline2Break ist eine regex-routine zum umwandeln von 1 newline (\n)
803    *  in den html-tag <br>
804    *  nur sinnvoll, wenn text nicht im html-format eingegeben
805    */
806   public static String convertNewline2Break(String haystack) {
807     try {
808       RE regex = new RE("(\r?\n){1}");
809       return regex.substituteAll(haystack,"$0<br>");
810     } catch(REException ex){
811       return null;
812     }
813   }
814
815   /**
816    *  createMailLinks wandelt text im email-adressenformat
817    *  in einen klickbaren link um
818    *  nur sinnvoll, wenn text nicht im html-format eingegeben
819    */
820   public static String createMailLinks(String haystack) {
821     try {
822       RE regex = new RE("([a-zA-Z0-9_.-]+)@([a-zA-Z0-9_-]+).([a-zA-Z0-9_.-]+)");
823       return regex.substituteAll(haystack,"<a href=\"mailto:$0\">$0</a>");
824     } catch(REException ex){
825       return null;
826     }
827   }
828
829
830   /**
831    *  createMailLinks wandelt text im email-adressenformat
832    *  in einen klickbaren link um
833    *  nur sinnvoll, wenn text nicht im html-format eingegeben
834    */
835   public static String createMailLinks(String haystack, String imageRoot, String mailImage) {
836     try {
837       RE regex = new RE("([a-zA-Z0-9_.-]+)@([a-zA-Z0-9_-]+).([a-zA-Z0-9_.-]+)");
838       return regex.substituteAll(haystack,"<img src=\""+imageRoot+"/"+mailImage+"\" border=\"0\"/>&#160;<a href=\"mailto:$0\">$0</a>");
839     } catch(REException ex){
840       return null;
841     }
842   }
843
844
845   /**
846    *  createURLLinks wandelt text im url-format
847    *  in einen klickbaren link um
848    *  nur sinnvoll, wenn text nicht im html-format eingegeben
849    */
850   public static String createURLLinks(String haystack) {
851     try {
852       //dieser Ausdruck brauch dringend fachliche Beratung
853       RE regex = new RE("((https://)|(http://)|(ftp://))+([a-zA-Z0-9_-]+).([a-zA-Z0-9_.:-]+)/([^ \t\r\n<>]+[^ \t\r\n.,<>])");
854       return regex.substituteAll(haystack,"<a href=\"$0\">$0</a>");
855     } catch(REException ex){
856       return null;
857     }
858   }
859
860   /**
861    * this routine takes text in url format and makes
862    * a clickaeble "<href>" link removing any "illegal" html tags
863    * @param haystack, the url
864    * @param title, the href link text
865    * @param imagRoot, the place to find icons
866    * @param extImage, the url of the icon to show next to the link
867    * @return a String containing the url
868    */
869   public static String createURLLinks(String haystack, String title, String imageRoot,String extImage) {
870     try {
871       //dieser Ausdruck brauch dringend fachliche Beratung
872       RE regex = new RE("((https://)|(http://)|(ftp://))+([a-zA-Z0-9_-]+).([a-zA-Z0-9_.:-]+)/?([^ \t\r\n<>]+[^ \t\r\n.,<>])");
873       if (title == null) {
874         return regex.substituteAll(haystack,"<img src=\""+imageRoot+"/"+extImage+"\" border=\"0\"/>&#160;<a href=\"$0\">$0</a>");
875       } else {
876         title = removeHTMLTags(title);
877         return regex.substituteAll(haystack,"<img src=\""+imageRoot+"/"+extImage+"\" border=\"0\"/>&#160;<a href=\"$0\">"+title+"</a>");
878       } 
879     } catch(REException ex){
880       return null;
881     }
882   }
883
884   /**
885    * this routine takes text in url format and makes
886    * a clickaeble "<href>" link removing any "illegal" html tags
887    * @param haystack, the url
888    * @param imageRoot, the place to find icons
889    * @param extImage, the url of the icon to show next to the link
890    * @param intImage, unused
891    * @return a String containing the url
892    */
893   public static String createURLLinks(String haystack, String title, String imageRoot,String extImage,String intImage) {
894     return createURLLinks(haystack, title, imageRoot, extImage);
895   }
896
897   /**
898    * this routine takes text in url format and makes
899    * an image link removing any "illegal" html tags
900    * @param haystack, the url
901    * @param title, the image alt text, can be null
902    * @param height, height of the image
903    * @param width, width of the image
904    * @return a String containing the url
905    */
906   public static String createIMGLinks(String haystack, String title, String height,String width) {
907     try {
908       //dieser Ausdruck brauch dringend fachliche Beratung
909       RE regex = new RE("((https://)|(http://)|(ftp://))+([a-zA-Z0-9_-]+).([a-zA-Z0-9_.:-]+)/?([^ \t\r\n<>]+[^ \t\r\n.,<>])");
910       if (title != null) {
911         title = removeHTMLTags(title);
912         return regex.substituteAll(haystack,"<img src=\"$0\" width=\""+width+"\" height=\""+height+"\" alt=\""+title+"\"/>&#160;<br><i>"+title+"</i>");
913       } else {
914         return regex.substituteAll(haystack,"<img src=\"$0\" width=\""+width+"\" height=\""+height+"\" alt=\"\"/>&#160;");
915       } 
916     } catch(REException ex){
917       return null;
918     }
919   }
920
921
922
923    /**
924    *  deleteForbiddenTags
925    *  this method deletes all <script>, <body> and <head>-tags
926    */
927   public static String deleteForbiddenTags(String haystack) {
928     try {
929       RE regex = new RE("<[ \t\r\n](.*?)script(.*?)/script(.*?)>",RE.REG_ICASE);
930       haystack = regex.substituteAll(haystack,"");
931       regex = new RE("<head>(.*?)</head>");
932       haystack = regex.substituteAll(haystack,"");
933       regex = new RE("<[ \t\r\n/]*body(.*?)>");
934       haystack = regex.substituteAll(haystack,"");
935       return haystack;
936     } catch(REException ex){
937       return null;
938     }
939   }
940   
941     /**
942      * this method deletes all html tags
943      *
944      */
945
946     public static String removeHTMLTags(String haystack){
947 try {
948       RE regex = new RE("<[^>]*>",RE.REG_ICASE);
949       haystack = regex.substituteAll(haystack,"");
950
951       return haystack;
952     } catch(REException ex){
953       return null;
954     }
955
956
957     }
958
959     /**
960      * this method deletes all but the approved tags html tags
961      * it also deletes approved tags which contain malicious-looking attributes and doesn't work at all
962      */
963
964
965     public static String approveHTMLTags(String haystack){
966   try {
967       String approvedTags="a|img|h1|h2|h3|h4|h5|h6|br|b|i|strong|p";
968       String badAttributes="onAbort|onBlur|onChange|onClick|onDblClick|onDragDrop|onError|onFocus|onKeyDown|onKeyPress|onKeyUp|onLoad|onMouseDown|onMouseMove|onMouseOut|onMouseOver|onMouseUp|onMove|onReset|onResize|onSelect|onSubmit|onUnload";
969       String approvedProtocols="rtsp|http|ftp|https|freenet|mailto";
970       
971       // kill all the bad tags that have attributes
972       String s = "<\\s*/?\\s*(?!(("+approvedTags+")\\s))\\w+\\s[^>]*>";
973       RE regex = new RE(s,RE.REG_ICASE);
974       haystack = regex.substituteAll(haystack,"");
975       
976       // kill all the bad tags that are attributeless
977       regex = new RE("<\\s*/?\\s*(?!(("+approvedTags+")\\s*>))\\w+\\s*>",RE.REG_ICASE);
978       haystack = regex.substituteAll(haystack,"");
979       
980       // kill all the tags which have a javascript attribute like onLoad
981       regex = new RE("<[^>]*("+badAttributes+")[^>]*>",RE.REG_ICASE);
982       haystack = regex.substituteAll(haystack,"");
983       
984       // kill all the tags which include a url to an unacceptable protocol
985       regex = new RE("<\\s*a\\s+[^>]*href=(?!(\'|\")?("+approvedProtocols+"))[^>]*>",RE.REG_ICASE);
986       haystack = regex.substituteAll(haystack,"");
987       
988       return haystack;
989     } catch(REException ex){
990       ex.printStackTrace();
991       return null;
992     }
993
994
995     }
996
997
998   /**
999    *  createHTML ruft alle regex-methoden zum unwandeln eines nicht
1000    *  htmlcodierten string auf und returnt einen htmlcodierten String
1001    */
1002   public static String createHTML(String content){
1003     content=convertNewline2Break(content);
1004     content=convertNewline2P(content);
1005     content=createMailLinks(content);
1006     content=createURLLinks(content);
1007     return content;
1008   }
1009
1010   /**
1011    *  createHTML ruft alle regex-methoden zum unwandeln eines nicht
1012    *  htmlcodierten string auf und returnt einen htmlcodierten String
1013    */
1014   public static String createHTML(String content,String producerDocRoot,String mailImage,String extImage,String intImage){
1015     content=convertNewline2Break(content);
1016     content=convertNewline2P(content);
1017     content=createMailLinks(content,producerDocRoot,mailImage);
1018     content=createURLLinks(content,null,producerDocRoot,extImage,intImage);
1019     return content;
1020   }
1021
1022 }
1023