4bff83f59501a2a80229f3c8eb3312bc959d3ae1
[gnulib.git] / tests / test-mbrtowc.c
1 /* Test of conversion of multibyte character to wide character.
2    Copyright (C) 2008 Free Software Foundation, Inc.
3
4    This program is free software: you can redistribute it and/or modify
5    it under the terms of the GNU General Public License as published by
6    the Free Software Foundation; either version 3 of the License, or
7    (at your option) any later version.
8
9    This program is distributed in the hope that it will be useful,
10    but WITHOUT ANY WARRANTY; without even the implied warranty of
11    MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
12    GNU General Public License for more details.
13
14    You should have received a copy of the GNU General Public License
15    along with this program.  If not, see <http://www.gnu.org/licenses/>.  */
16
17 /* Written by Bruno Haible <bruno@clisp.org>, 2008.  */
18
19 #include <config.h>
20
21 #include <wchar.h>
22
23 #include <locale.h>
24 #include <stdio.h>
25 #include <stdlib.h>
26 #include <string.h>
27
28 #define ASSERT(expr) \
29   do                                                                         \
30     {                                                                        \
31       if (!(expr))                                                           \
32         {                                                                    \
33           fprintf (stderr, "%s:%d: assertion failed\n", __FILE__, __LINE__); \
34           fflush (stderr);                                                   \
35           abort ();                                                          \
36         }                                                                    \
37     }                                                                        \
38   while (0)
39
40 int
41 main (int argc, char *argv[])
42 {
43   mbstate_t state;
44   wchar_t wc;
45   size_t ret;
46
47   /* configure should already have checked that the locale is supported.  */
48   if (setlocale (LC_ALL, "") == NULL)
49     return 1;
50
51   /* Test zero-length input.  */
52   {
53     memset (&state, '\0', sizeof (mbstate_t));
54     wc = 0xBADFACE;
55     ret = mbrtowc (&wc, "x", 0, &state);
56     ASSERT (ret == (size_t)(-2) || ret == 0);
57     ASSERT (mbsinit (&state));
58   }
59
60   /* Test NUL byte input.  */
61   {
62     memset (&state, '\0', sizeof (mbstate_t));
63     wc = 0xBADFACE;
64     ret = mbrtowc (&wc, "", 1, &state);
65     ASSERT (ret == 0);
66     ASSERT (wc == 0);
67     ASSERT (mbsinit (&state));
68     ret = mbrtowc (NULL, "", 1, &state);
69     ASSERT (ret == 0);
70     ASSERT (mbsinit (&state));
71   }
72
73   /* Test single-byte input.  */
74   {
75     int c;
76     char buf[1];
77
78     memset (&state, '\0', sizeof (mbstate_t));
79     for (c = 0; c < 0x100; c++)
80       switch (c)
81         {
82         case '\t': case '\v': case '\f':
83         case ' ': case '!': case '"': case '#': case '%':
84         case '&': case '\'': case '(': case ')': case '*':
85         case '+': case ',': case '-': case '.': case '/':
86         case '0': case '1': case '2': case '3': case '4':
87         case '5': case '6': case '7': case '8': case '9':
88         case ':': case ';': case '<': case '=': case '>':
89         case '?':
90         case 'A': case 'B': case 'C': case 'D': case 'E':
91         case 'F': case 'G': case 'H': case 'I': case 'J':
92         case 'K': case 'L': case 'M': case 'N': case 'O':
93         case 'P': case 'Q': case 'R': case 'S': case 'T':
94         case 'U': case 'V': case 'W': case 'X': case 'Y':
95         case 'Z':
96         case '[': case '\\': case ']': case '^': case '_':
97         case 'a': case 'b': case 'c': case 'd': case 'e':
98         case 'f': case 'g': case 'h': case 'i': case 'j':
99         case 'k': case 'l': case 'm': case 'n': case 'o':
100         case 'p': case 'q': case 'r': case 's': case 't':
101         case 'u': case 'v': case 'w': case 'x': case 'y':
102         case 'z': case '{': case '|': case '}': case '~':
103           /* c is in the ISO C "basic character set".  */
104           buf[0] = c;
105           wc = 0xBADFACE;
106           ret = mbrtowc (&wc, buf, 1, &state);
107           ASSERT (ret == 1);
108           ASSERT (wc == c);
109           ASSERT (mbsinit (&state));
110           ret = mbrtowc (NULL, buf, 1, &state);
111           ASSERT (ret == 1);
112           ASSERT (mbsinit (&state));
113           break;
114         }
115   }
116
117   /* Test special calling convention, passing a NULL pointer.  */
118   {
119     memset (&state, '\0', sizeof (mbstate_t));
120     wc = 0xBADFACE;
121     ret = mbrtowc (&wc, NULL, 5, &state);
122     ASSERT (ret == 0);
123     ASSERT (wc == (wchar_t) 0xBADFACE);
124     ASSERT (mbsinit (&state));
125   }
126
127   if (argc > 1)
128     switch (argv[1][0])
129       {
130       case '1':
131         /* Locale encoding is ISO-8859-1 or ISO-8859-15.  */
132         {
133           char input[] = "B\374\337er"; /* "Büßer" */
134           memset (&state, '\0', sizeof (mbstate_t));
135
136           wc = 0xBADFACE;
137           ret = mbrtowc (&wc, input, 1, &state);
138           ASSERT (ret == 1);
139           ASSERT (wc == 'B');
140           ASSERT (mbsinit (&state));
141           input[0] = '\0';
142
143           wc = 0xBADFACE;
144           ret = mbrtowc (&wc, input + 1, 1, &state);
145           ASSERT (ret == 1);
146           ASSERT (wctob (wc) == (unsigned char) '\374');
147           ASSERT (mbsinit (&state));
148           input[1] = '\0';
149
150           wc = 0xBADFACE;
151           ret = mbrtowc (&wc, input + 2, 3, &state);
152           ASSERT (ret == 1);
153           ASSERT (wctob (wc) == (unsigned char) '\337');
154           ASSERT (mbsinit (&state));
155           input[2] = '\0';
156
157           wc = 0xBADFACE;
158           ret = mbrtowc (&wc, input + 3, 2, &state);
159           ASSERT (ret == 1);
160           ASSERT (wc == 'e');
161           ASSERT (mbsinit (&state));
162           input[3] = '\0';
163
164           wc = 0xBADFACE;
165           ret = mbrtowc (&wc, input + 4, 1, &state);
166           ASSERT (ret == 1);
167           ASSERT (wc == 'r');
168           ASSERT (mbsinit (&state));
169         }
170         return 0;
171
172       case '2':
173         /* Locale encoding is UTF-8.  */
174         {
175           char input[] = "B\303\274\303\237er"; /* "Büßer" */
176           memset (&state, '\0', sizeof (mbstate_t));
177
178           wc = 0xBADFACE;
179           ret = mbrtowc (&wc, input, 1, &state);
180           ASSERT (ret == 1);
181           ASSERT (wc == 'B');
182           ASSERT (mbsinit (&state));
183           input[0] = '\0';
184
185           wc = 0xBADFACE;
186           ret = mbrtowc (&wc, input + 1, 1, &state);
187           ASSERT (ret == (size_t)(-2));
188           ASSERT (wc == (wchar_t) 0xBADFACE);
189           ASSERT (!mbsinit (&state));
190           input[1] = '\0';
191
192           wc = 0xBADFACE;
193           ret = mbrtowc (&wc, input + 2, 5, &state);
194           ASSERT (ret == 1);
195           ASSERT (wctob (wc) == EOF);
196           ASSERT (mbsinit (&state));
197           input[2] = '\0';
198
199           wc = 0xBADFACE;
200           ret = mbrtowc (&wc, input + 3, 4, &state);
201           ASSERT (ret == 2);
202           ASSERT (wctob (wc) == EOF);
203           ASSERT (mbsinit (&state));
204           input[3] = '\0';
205           input[4] = '\0';
206
207           wc = 0xBADFACE;
208           ret = mbrtowc (&wc, input + 5, 2, &state);
209           ASSERT (ret == 1);
210           ASSERT (wc == 'e');
211           ASSERT (mbsinit (&state));
212           input[5] = '\0';
213
214           wc = 0xBADFACE;
215           ret = mbrtowc (&wc, input + 6, 1, &state);
216           ASSERT (ret == 1);
217           ASSERT (wc == 'r');
218           ASSERT (mbsinit (&state));
219         }
220         return 0;
221
222       case '3':
223         /* Locale encoding is EUC-JP.  */
224         {
225           char input[] = "B\217\253\344\217\251\316er"; /* "Büßer" */
226           memset (&state, '\0', sizeof (mbstate_t));
227
228           wc = 0xBADFACE;
229           ret = mbrtowc (&wc, input, 1, &state);
230           ASSERT (ret == 1);
231           ASSERT (wc == 'B');
232           ASSERT (mbsinit (&state));
233           input[0] = '\0';
234
235           wc = 0xBADFACE;
236           ret = mbrtowc (&wc, input + 1, 1, &state);
237           ASSERT (ret == (size_t)(-2));
238           ASSERT (wc == (wchar_t) 0xBADFACE);
239           ASSERT (!mbsinit (&state));
240           input[1] = '\0';
241
242           wc = 0xBADFACE;
243           ret = mbrtowc (&wc, input + 2, 7, &state);
244           ASSERT (ret == 2);
245           ASSERT (wctob (wc) == EOF);
246           ASSERT (mbsinit (&state));
247           input[2] = '\0';
248           input[3] = '\0';
249
250           wc = 0xBADFACE;
251           ret = mbrtowc (&wc, input + 4, 5, &state);
252           ASSERT (ret == 3);
253           ASSERT (wctob (wc) == EOF);
254           ASSERT (mbsinit (&state));
255           input[4] = '\0';
256           input[5] = '\0';
257           input[6] = '\0';
258
259           wc = 0xBADFACE;
260           ret = mbrtowc (&wc, input + 7, 2, &state);
261           ASSERT (ret == 1);
262           ASSERT (wc == 'e');
263           ASSERT (mbsinit (&state));
264           input[5] = '\0';
265
266           wc = 0xBADFACE;
267           ret = mbrtowc (&wc, input + 8, 1, &state);
268           ASSERT (ret == 1);
269           ASSERT (wc == 'r');
270           ASSERT (mbsinit (&state));
271         }
272         return 0;
273
274       case '4':
275         /* Locale encoding is GB18030.  */
276         {
277           char input[] = "B\250\271\201\060\211\070er"; /* "Büßer" */
278           memset (&state, '\0', sizeof (mbstate_t));
279
280           wc = 0xBADFACE;
281           ret = mbrtowc (&wc, input, 1, &state);
282           ASSERT (ret == 1);
283           ASSERT (wc == 'B');
284           ASSERT (mbsinit (&state));
285           input[0] = '\0';
286
287           wc = 0xBADFACE;
288           ret = mbrtowc (&wc, input + 1, 1, &state);
289           ASSERT (ret == (size_t)(-2));
290           ASSERT (wc == (wchar_t) 0xBADFACE);
291           ASSERT (!mbsinit (&state));
292           input[1] = '\0';
293
294           wc = 0xBADFACE;
295           ret = mbrtowc (&wc, input + 2, 7, &state);
296           ASSERT (ret == 1);
297           ASSERT (wctob (wc) == EOF);
298           ASSERT (mbsinit (&state));
299           input[2] = '\0';
300
301           wc = 0xBADFACE;
302           ret = mbrtowc (&wc, input + 3, 6, &state);
303           ASSERT (ret == 4);
304           ASSERT (wctob (wc) == EOF);
305           ASSERT (mbsinit (&state));
306           input[3] = '\0';
307           input[4] = '\0';
308           input[5] = '\0';
309           input[6] = '\0';
310
311           wc = 0xBADFACE;
312           ret = mbrtowc (&wc, input + 7, 2, &state);
313           ASSERT (ret == 1);
314           ASSERT (wc == 'e');
315           ASSERT (mbsinit (&state));
316           input[5] = '\0';
317
318           wc = 0xBADFACE;
319           ret = mbrtowc (&wc, input + 8, 1, &state);
320           ASSERT (ret == 1);
321           ASSERT (wc == 'r');
322           ASSERT (mbsinit (&state));
323         }
324         return 0;
325       }
326
327   return 1;
328 }