Tests for module 'uniconv/u8-conv-from-enc'.
[gnulib.git] / tests / uniconv / test-u8-conv-from-enc.c
1 /* Test of conversion to UTF-8 from legacy encodings.
2    Copyright (C) 2007 Free Software Foundation, Inc.
3
4    This program is free software; you can redistribute it and/or modify
5    it under the terms of the GNU General Public License as published by
6    the Free Software Foundation; either version 2, or (at your option)
7    any later version.
8
9    This program is distributed in the hope that it will be useful,
10    but WITHOUT ANY WARRANTY; without even the implied warranty of
11    MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
12    GNU General Public License for more details.
13
14    You should have received a copy of the GNU General Public License
15    along with this program; if not, write to the Free Software Foundation,
16    Inc., 51 Franklin Street, Fifth Floor, Boston, MA 02110-1301, USA.  */
17
18 /* Written by Bruno Haible <bruno@clisp.org>, 2007.  */
19
20 #ifdef HAVE_CONFIG_H
21 # include <config.h>
22 #endif
23
24 #include "uniconv.h"
25
26 #include <stdlib.h>
27 #include <string.h>
28
29 #include "unistr.h"
30
31 #define SIZEOF(array) (sizeof (array) / sizeof (array[0]))
32 #define ASSERT(expr) if (!(expr)) abort ();
33
34 /* Magic number for detecting bounds violations.  */
35 #define MAGIC 0x1983EFF1
36
37 static size_t *
38 new_offsets (size_t n)
39 {
40   size_t *offsets = (size_t *) malloc ((n + 1) * sizeof (size_t));
41   offsets[n] = MAGIC;
42   return offsets;
43 }
44
45 int
46 main ()
47 {
48   static enum iconv_ilseq_handler handlers[] =
49     { iconveh_error, iconveh_question_mark, iconveh_escape_sequence };
50   size_t h;
51   size_t o;
52   size_t i;
53
54 #if HAVE_ICONV
55   /* Assume that iconv() supports at least the encodings ASCII, ISO-8859-1,
56      ISO-8859-2, and UTF-8.  */
57
58   /* Test conversion from ISO-8859-1 to UTF-8 with no errors.  */
59   for (h = 0; h < SIZEOF (handlers); h++)
60     {
61       enum iconv_ilseq_handler handler = handlers[h];
62       static const char input[] = "\304rger mit b\366sen B\374bchen ohne Augenma\337";
63       static const uint8_t expected[] = "\303\204rger mit b\303\266sen B\303\274bchen ohne Augenma\303\237";
64       for (o = 0; o < 2; o++)
65         {
66           size_t *offsets = (o ? new_offsets (strlen (input)) : NULL);
67           uint8_t *result = NULL;
68           size_t length = 0;
69           int retval = u8_conv_from_encoding ("ISO-8859-1", handler,
70                                               input, strlen (input),
71                                               offsets,
72                                               &result, &length);
73           ASSERT (retval == 0);
74           ASSERT (length == u8_strlen (expected));
75           ASSERT (result != NULL && u8_cmp (result, expected, u8_strlen (expected)) == 0);
76           if (o)
77             {
78               for (i = 0; i < 37; i++)
79                 ASSERT (offsets[i] == (i < 1 ? i :
80                                        i < 12 ? i + 1 :
81                                        i < 18 ? i + 2 :
82                                        i + 3));
83               ASSERT (offsets[37] == MAGIC);
84               free (offsets);
85             }
86           free (result);
87         }
88     }
89
90   /* Test conversion from ISO-8859-2 to UTF-8 with no errors.  */
91   for (h = 0; h < SIZEOF (handlers); h++)
92     {
93       enum iconv_ilseq_handler handler = handlers[h];
94       static const char input[] = "Rafa\263 Maszkowski"; /* Rafał Maszkowski */
95       static const uint8_t expected[] = "Rafa\305\202 Maszkowski";
96       for (o = 0; o < 2; o++)
97         {
98           size_t *offsets = (o ? new_offsets (strlen (input)) : NULL);
99           uint8_t *result = NULL;
100           size_t length = 0;
101           int retval = u8_conv_from_encoding ("ISO-8859-2", handler,
102                                               input, strlen (input),
103                                               offsets,
104                                               &result, &length);
105           ASSERT (retval == 0);
106           ASSERT (length == u8_strlen (expected));
107           ASSERT (result != NULL && u8_cmp (result, expected, u8_strlen (expected)) == 0);
108           if (o)
109             {
110               for (i = 0; i < 16; i++)
111                 ASSERT (offsets[i] == (i < 5 ? i :
112                                        i + 1));
113               ASSERT (offsets[16] == MAGIC);
114               free (offsets);
115             }
116           free (result);
117         }
118     }
119
120   /* Test conversions from autodetect_jp to UTF-8.  */
121   for (h = 0; h < SIZEOF (handlers); h++)
122     {
123       enum iconv_ilseq_handler handler = handlers[h];
124       static const char input[] = "\244\263\244\363\244\313\244\301\244\317"; /* こんにちは in EUC-JP */
125       static const uint8_t expected[] = "\343\201\223\343\202\223\343\201\253\343\201\241\343\201\257"; /* こんにちは */
126       for (o = 0; o < 2; o++)
127         {
128           size_t *offsets = (o ? new_offsets (strlen (input)) : NULL);
129           uint8_t *result = NULL;
130           size_t length = 0;
131           int retval = u8_conv_from_encoding ("autodetect_jp", handler,
132                                               input, strlen (input),
133                                               offsets,
134                                               &result, &length);
135           ASSERT (retval == 0);
136           ASSERT (length == u8_strlen (expected));
137           ASSERT (result != NULL && u8_cmp (result, expected, u8_strlen (expected)) == 0);
138           if (o)
139             {
140               for (i = 0; i < 10; i++)
141                 ASSERT (offsets[i] == ((i % 2) == 0 ? (i / 2) * 3 : (size_t)(-1)));
142               ASSERT (offsets[10] == MAGIC);
143               free (offsets);
144             }
145           free (result);
146         }
147     }
148   for (h = 0; h < SIZEOF (handlers); h++)
149     {
150       enum iconv_ilseq_handler handler = handlers[h];
151       static const char input[] = "\202\261\202\361\202\311\202\277\202\315"; /* こんにちは in Shift_JIS */
152       static const uint8_t expected[] = "\343\201\223\343\202\223\343\201\253\343\201\241\343\201\257"; /* こんにちは */
153       for (o = 0; o < 2; o++)
154         {
155           size_t *offsets = (o ? new_offsets (strlen (input)) : NULL);
156           uint8_t *result = NULL;
157           size_t length = 0;
158           int retval = u8_conv_from_encoding ("autodetect_jp", handler,
159                                               input, strlen (input),
160                                               offsets,
161                                               &result, &length);
162           ASSERT (retval == 0);
163           ASSERT (length == u8_strlen (expected));
164           ASSERT (result != NULL && u8_cmp (result, expected, u8_strlen (expected)) == 0);
165           if (o)
166             {
167               for (i = 0; i < 10; i++)
168                 ASSERT (offsets[i] == ((i % 2) == 0 ? (i / 2) * 3 : (size_t)(-1)));
169               ASSERT (offsets[10] == MAGIC);
170               free (offsets);
171             }
172           free (result);
173         }
174     }
175   for (h = 0; h < SIZEOF (handlers); h++)
176     {
177       enum iconv_ilseq_handler handler = handlers[h];
178       static const char input[] = "\033$B$3$s$K$A$O\033(B"; /* こんにちは in ISO-2022-JP-2 */
179       static const uint8_t expected[] = "\343\201\223\343\202\223\343\201\253\343\201\241\343\201\257"; /* こんにちは */
180       for (o = 0; o < 2; o++)
181         {
182           size_t *offsets = (o ? new_offsets (strlen (input)) : NULL);
183           uint8_t *result = NULL;
184           size_t length = 0;
185           int retval = u8_conv_from_encoding ("autodetect_jp", handler,
186                                               input, strlen (input),
187                                               offsets,
188                                               &result, &length);
189           ASSERT (retval == 0);
190           ASSERT (length == u8_strlen (expected));
191           ASSERT (result != NULL && u8_cmp (result, expected, u8_strlen (expected)) == 0);
192           if (o)
193             {
194               for (i = 0; i < 16; i++)
195                 ASSERT (offsets[i] == (i == 0 ? 0 :
196                                        i == 5 ? 3 :
197                                        i == 7 ? 6 :
198                                        i == 9 ? 9 :
199                                        i == 11 ? 12 :
200                                        i == 13 ? 15 :
201                                        (size_t)(-1)));
202               ASSERT (offsets[16] == MAGIC);
203               free (offsets);
204             }
205           free (result);
206         }
207     }
208
209 #endif
210
211   return 0;
212 }