break iconv.m4 sync
[gnulib.git] / tests / uniconv / test-u8-conv-from-enc.c
1 /* Test of conversion to UTF-8 from legacy encodings.
2    Copyright (C) 2007 Free Software Foundation, Inc.
3
4    This program is free software; you can redistribute it and/or modify
5    it under the terms of the GNU General Public License as published by
6    the Free Software Foundation; either version 2, or (at your option)
7    any later version.
8
9    This program is distributed in the hope that it will be useful,
10    but WITHOUT ANY WARRANTY; without even the implied warranty of
11    MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
12    GNU General Public License for more details.
13
14    You should have received a copy of the GNU General Public License
15    along with this program; if not, write to the Free Software Foundation,
16    Inc., 51 Franklin Street, Fifth Floor, Boston, MA 02110-1301, USA.  */
17
18 /* Written by Bruno Haible <bruno@clisp.org>, 2007.  */
19
20 #ifdef HAVE_CONFIG_H
21 # include <config.h>
22 #endif
23
24 #include "uniconv.h"
25
26 #include <stdlib.h>
27 #include <string.h>
28
29 #include "unistr.h"
30
31 #define SIZEOF(array) (sizeof (array) / sizeof (array[0]))
32 #define ASSERT(expr) if (!(expr)) abort ();
33
34 /* Magic number for detecting bounds violations.  */
35 #define MAGIC 0x1983EFF1
36
37 static size_t *
38 new_offsets (size_t n)
39 {
40   size_t *offsets = (size_t *) malloc ((n + 1) * sizeof (size_t));
41   offsets[n] = MAGIC;
42   return offsets;
43 }
44
45 int
46 main ()
47 {
48   static enum iconv_ilseq_handler handlers[] =
49     { iconveh_error, iconveh_question_mark, iconveh_escape_sequence };
50   size_t h;
51   size_t o;
52   size_t i;
53
54 #if HAVE_ICONV
55   /* Assume that iconv() supports at least the encodings ASCII, ISO-8859-1,
56      ISO-8859-2, and UTF-8.  */
57
58   /* Test conversion from ISO-8859-1 to UTF-8 with no errors.  */
59   for (h = 0; h < SIZEOF (handlers); h++)
60     {
61       enum iconv_ilseq_handler handler = handlers[h];
62       static const char input[] = "\304rger mit b\366sen B\374bchen ohne Augenma\337";
63       static const uint8_t expected[] = "\303\204rger mit b\303\266sen B\303\274bchen ohne Augenma\303\237";
64       for (o = 0; o < 2; o++)
65         {
66           size_t *offsets = (o ? new_offsets (strlen (input)) : NULL);
67           uint8_t *result = NULL;
68           size_t length = 0;
69           int retval = u8_conv_from_encoding ("ISO-8859-1", handler,
70                                               input, strlen (input),
71                                               offsets,
72                                               &result, &length);
73           ASSERT (retval == 0);
74           ASSERT (length == u8_strlen (expected));
75           ASSERT (result != NULL && u8_cmp (result, expected, u8_strlen (expected)) == 0);
76           if (o)
77             {
78               for (i = 0; i < 37; i++)
79                 ASSERT (offsets[i] == (i < 1 ? i :
80                                        i < 12 ? i + 1 :
81                                        i < 18 ? i + 2 :
82                                        i + 3));
83               ASSERT (offsets[37] == MAGIC);
84               free (offsets);
85             }
86           free (result);
87         }
88     }
89
90   /* Test conversion from ISO-8859-2 to UTF-8 with no errors.  */
91   for (h = 0; h < SIZEOF (handlers); h++)
92     {
93       enum iconv_ilseq_handler handler = handlers[h];
94       static const char input[] = "Rafa\263 Maszkowski"; /* Rafał Maszkowski */
95       static const uint8_t expected[] = "Rafa\305\202 Maszkowski";
96       for (o = 0; o < 2; o++)
97         {
98           size_t *offsets = (o ? new_offsets (strlen (input)) : NULL);
99           uint8_t *result = NULL;
100           size_t length = 0;
101           int retval = u8_conv_from_encoding ("ISO-8859-2", handler,
102                                               input, strlen (input),
103                                               offsets,
104                                               &result, &length);
105           ASSERT (retval == 0);
106           ASSERT (length == u8_strlen (expected));
107           ASSERT (result != NULL && u8_cmp (result, expected, u8_strlen (expected)) == 0);
108           if (o)
109             {
110               for (i = 0; i < 16; i++)
111                 ASSERT (offsets[i] == (i < 5 ? i :
112                                        i + 1));
113               ASSERT (offsets[16] == MAGIC);
114               free (offsets);
115             }
116           free (result);
117         }
118     }
119
120   /* autodetect_jp is only supported when iconv() support ISO-2022-JP-2.  */
121 # if defined _LIBICONV_VERSION || !(defined _AIX || defined __sgi || defined __hpux || defined __osf__)
122   /* Test conversions from autodetect_jp to UTF-8.  */
123   for (h = 0; h < SIZEOF (handlers); h++)
124     {
125       enum iconv_ilseq_handler handler = handlers[h];
126       static const char input[] = "\244\263\244\363\244\313\244\301\244\317"; /* こんにちは in EUC-JP */
127       static const uint8_t expected[] = "\343\201\223\343\202\223\343\201\253\343\201\241\343\201\257"; /* こんにちは */
128       for (o = 0; o < 2; o++)
129         {
130           size_t *offsets = (o ? new_offsets (strlen (input)) : NULL);
131           uint8_t *result = NULL;
132           size_t length = 0;
133           int retval = u8_conv_from_encoding ("autodetect_jp", handler,
134                                               input, strlen (input),
135                                               offsets,
136                                               &result, &length);
137           ASSERT (retval == 0);
138           ASSERT (length == u8_strlen (expected));
139           ASSERT (result != NULL && u8_cmp (result, expected, u8_strlen (expected)) == 0);
140           if (o)
141             {
142               for (i = 0; i < 10; i++)
143                 ASSERT (offsets[i] == ((i % 2) == 0 ? (i / 2) * 3 : (size_t)(-1)));
144               ASSERT (offsets[10] == MAGIC);
145               free (offsets);
146             }
147           free (result);
148         }
149     }
150   for (h = 0; h < SIZEOF (handlers); h++)
151     {
152       enum iconv_ilseq_handler handler = handlers[h];
153       static const char input[] = "\202\261\202\361\202\311\202\277\202\315"; /* こんにちは in Shift_JIS */
154       static const uint8_t expected[] = "\343\201\223\343\202\223\343\201\253\343\201\241\343\201\257"; /* こんにちは */
155       for (o = 0; o < 2; o++)
156         {
157           size_t *offsets = (o ? new_offsets (strlen (input)) : NULL);
158           uint8_t *result = NULL;
159           size_t length = 0;
160           int retval = u8_conv_from_encoding ("autodetect_jp", handler,
161                                               input, strlen (input),
162                                               offsets,
163                                               &result, &length);
164           ASSERT (retval == 0);
165           ASSERT (length == u8_strlen (expected));
166           ASSERT (result != NULL && u8_cmp (result, expected, u8_strlen (expected)) == 0);
167           if (o)
168             {
169               for (i = 0; i < 10; i++)
170                 ASSERT (offsets[i] == ((i % 2) == 0 ? (i / 2) * 3 : (size_t)(-1)));
171               ASSERT (offsets[10] == MAGIC);
172               free (offsets);
173             }
174           free (result);
175         }
176     }
177   for (h = 0; h < SIZEOF (handlers); h++)
178     {
179       enum iconv_ilseq_handler handler = handlers[h];
180       static const char input[] = "\033$B$3$s$K$A$O\033(B"; /* こんにちは in ISO-2022-JP-2 */
181       static const uint8_t expected[] = "\343\201\223\343\202\223\343\201\253\343\201\241\343\201\257"; /* こんにちは */
182       for (o = 0; o < 2; o++)
183         {
184           size_t *offsets = (o ? new_offsets (strlen (input)) : NULL);
185           uint8_t *result = NULL;
186           size_t length = 0;
187           int retval = u8_conv_from_encoding ("autodetect_jp", handler,
188                                               input, strlen (input),
189                                               offsets,
190                                               &result, &length);
191           ASSERT (retval == 0);
192           ASSERT (length == u8_strlen (expected));
193           ASSERT (result != NULL && u8_cmp (result, expected, u8_strlen (expected)) == 0);
194           if (o)
195             {
196               for (i = 0; i < 16; i++)
197                 ASSERT (offsets[i] == (i == 0 ? 0 :
198                                        i == 5 ? 3 :
199                                        i == 7 ? 6 :
200                                        i == 9 ? 9 :
201                                        i == 11 ? 12 :
202                                        i == 13 ? 15 :
203                                        (size_t)(-1)));
204               ASSERT (offsets[16] == MAGIC);
205               free (offsets);
206             }
207           free (result);
208         }
209     }
210 # endif
211
212 #endif
213
214   return 0;
215 }