Optimize SPARC T4 MONTMUL support.
[openssl.git] / crypto / bn / bn_exp.c
1 /* crypto/bn/bn_exp.c */
2 /* Copyright (C) 1995-1998 Eric Young (eay@cryptsoft.com)
3  * All rights reserved.
4  *
5  * This package is an SSL implementation written
6  * by Eric Young (eay@cryptsoft.com).
7  * The implementation was written so as to conform with Netscapes SSL.
8  * 
9  * This library is free for commercial and non-commercial use as long as
10  * the following conditions are aheared to.  The following conditions
11  * apply to all code found in this distribution, be it the RC4, RSA,
12  * lhash, DES, etc., code; not just the SSL code.  The SSL documentation
13  * included with this distribution is covered by the same copyright terms
14  * except that the holder is Tim Hudson (tjh@cryptsoft.com).
15  * 
16  * Copyright remains Eric Young's, and as such any Copyright notices in
17  * the code are not to be removed.
18  * If this package is used in a product, Eric Young should be given attribution
19  * as the author of the parts of the library used.
20  * This can be in the form of a textual message at program startup or
21  * in documentation (online or textual) provided with the package.
22  * 
23  * Redistribution and use in source and binary forms, with or without
24  * modification, are permitted provided that the following conditions
25  * are met:
26  * 1. Redistributions of source code must retain the copyright
27  *    notice, this list of conditions and the following disclaimer.
28  * 2. Redistributions in binary form must reproduce the above copyright
29  *    notice, this list of conditions and the following disclaimer in the
30  *    documentation and/or other materials provided with the distribution.
31  * 3. All advertising materials mentioning features or use of this software
32  *    must display the following acknowledgement:
33  *    "This product includes cryptographic software written by
34  *     Eric Young (eay@cryptsoft.com)"
35  *    The word 'cryptographic' can be left out if the rouines from the library
36  *    being used are not cryptographic related :-).
37  * 4. If you include any Windows specific code (or a derivative thereof) from 
38  *    the apps directory (application code) you must include an acknowledgement:
39  *    "This product includes software written by Tim Hudson (tjh@cryptsoft.com)"
40  * 
41  * THIS SOFTWARE IS PROVIDED BY ERIC YOUNG ``AS IS'' AND
42  * ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE
43  * IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE
44  * ARE DISCLAIMED.  IN NO EVENT SHALL THE AUTHOR OR CONTRIBUTORS BE LIABLE
45  * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL
46  * DAMAGES (INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS
47  * OR SERVICES; LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION)
48  * HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT
49  * LIABILITY, OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY
50  * OUT OF THE USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF
51  * SUCH DAMAGE.
52  * 
53  * The licence and distribution terms for any publically available version or
54  * derivative of this code cannot be changed.  i.e. this code cannot simply be
55  * copied and put under another distribution licence
56  * [including the GNU Public Licence.]
57  */
58 /* ====================================================================
59  * Copyright (c) 1998-2005 The OpenSSL Project.  All rights reserved.
60  *
61  * Redistribution and use in source and binary forms, with or without
62  * modification, are permitted provided that the following conditions
63  * are met:
64  *
65  * 1. Redistributions of source code must retain the above copyright
66  *    notice, this list of conditions and the following disclaimer. 
67  *
68  * 2. Redistributions in binary form must reproduce the above copyright
69  *    notice, this list of conditions and the following disclaimer in
70  *    the documentation and/or other materials provided with the
71  *    distribution.
72  *
73  * 3. All advertising materials mentioning features or use of this
74  *    software must display the following acknowledgment:
75  *    "This product includes software developed by the OpenSSL Project
76  *    for use in the OpenSSL Toolkit. (http://www.openssl.org/)"
77  *
78  * 4. The names "OpenSSL Toolkit" and "OpenSSL Project" must not be used to
79  *    endorse or promote products derived from this software without
80  *    prior written permission. For written permission, please contact
81  *    openssl-core@openssl.org.
82  *
83  * 5. Products derived from this software may not be called "OpenSSL"
84  *    nor may "OpenSSL" appear in their names without prior written
85  *    permission of the OpenSSL Project.
86  *
87  * 6. Redistributions of any form whatsoever must retain the following
88  *    acknowledgment:
89  *    "This product includes software developed by the OpenSSL Project
90  *    for use in the OpenSSL Toolkit (http://www.openssl.org/)"
91  *
92  * THIS SOFTWARE IS PROVIDED BY THE OpenSSL PROJECT ``AS IS'' AND ANY
93  * EXPRESSED OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE
94  * IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR
95  * PURPOSE ARE DISCLAIMED.  IN NO EVENT SHALL THE OpenSSL PROJECT OR
96  * ITS CONTRIBUTORS BE LIABLE FOR ANY DIRECT, INDIRECT, INCIDENTAL,
97  * SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING, BUT
98  * NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES;
99  * LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION)
100  * HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT,
101  * STRICT LIABILITY, OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE)
102  * ARISING IN ANY WAY OUT OF THE USE OF THIS SOFTWARE, EVEN IF ADVISED
103  * OF THE POSSIBILITY OF SUCH DAMAGE.
104  * ====================================================================
105  *
106  * This product includes cryptographic software written by Eric Young
107  * (eay@cryptsoft.com).  This product includes software written by Tim
108  * Hudson (tjh@cryptsoft.com).
109  *
110  */
111
112 #define OPENSSL_FIPSAPI
113
114 #include "cryptlib.h"
115 #include "bn_lcl.h"
116
117 #include <stdlib.h>
118 #ifdef _WIN32
119 # include <malloc.h>
120 # ifndef alloca
121 #  define alloca _alloca
122 # endif
123 #elif defined(__GNUC__)
124 # ifndef alloca
125 #  define alloca(s) __builtin_alloca((s))
126 # endif
127 #endif
128
129 #if defined(OPENSSL_BN_ASM_MONT) && (defined(__sparc__) || defined(__sparc))
130 # include "sparc_arch.h"
131 extern unsigned int OPENSSL_sparcv9cap_P[];
132 #endif
133
134 /* maximum precomputation table size for *variable* sliding windows */
135 #define TABLE_SIZE      32
136
137 /* this one works - simple but works */
138 int BN_exp(BIGNUM *r, const BIGNUM *a, const BIGNUM *p, BN_CTX *ctx)
139         {
140         int i,bits,ret=0;
141         BIGNUM *v,*rr;
142
143         if (BN_get_flags(p, BN_FLG_CONSTTIME) != 0)
144                 {
145                 /* BN_FLG_CONSTTIME only supported by BN_mod_exp_mont() */
146                 BNerr(BN_F_BN_EXP,ERR_R_SHOULD_NOT_HAVE_BEEN_CALLED);
147                 return -1;
148                 }
149
150         BN_CTX_start(ctx);
151         if ((r == a) || (r == p))
152                 rr = BN_CTX_get(ctx);
153         else
154                 rr = r;
155         v = BN_CTX_get(ctx);
156         if (rr == NULL || v == NULL) goto err;
157
158         if (BN_copy(v,a) == NULL) goto err;
159         bits=BN_num_bits(p);
160
161         if (BN_is_odd(p))
162                 { if (BN_copy(rr,a) == NULL) goto err; }
163         else    { if (!BN_one(rr)) goto err; }
164
165         for (i=1; i<bits; i++)
166                 {
167                 if (!BN_sqr(v,v,ctx)) goto err;
168                 if (BN_is_bit_set(p,i))
169                         {
170                         if (!BN_mul(rr,rr,v,ctx)) goto err;
171                         }
172                 }
173         ret=1;
174 err:
175         if (r != rr) BN_copy(r,rr);
176         BN_CTX_end(ctx);
177         bn_check_top(r);
178         return(ret);
179         }
180
181
182 int BN_mod_exp(BIGNUM *r, const BIGNUM *a, const BIGNUM *p, const BIGNUM *m,
183                BN_CTX *ctx)
184         {
185         int ret;
186
187         bn_check_top(a);
188         bn_check_top(p);
189         bn_check_top(m);
190
191         /* For even modulus  m = 2^k*m_odd,  it might make sense to compute
192          * a^p mod m_odd  and  a^p mod 2^k  separately (with Montgomery
193          * exponentiation for the odd part), using appropriate exponent
194          * reductions, and combine the results using the CRT.
195          *
196          * For now, we use Montgomery only if the modulus is odd; otherwise,
197          * exponentiation using the reciprocal-based quick remaindering
198          * algorithm is used.
199          *
200          * (Timing obtained with expspeed.c [computations  a^p mod m
201          * where  a, p, m  are of the same length: 256, 512, 1024, 2048,
202          * 4096, 8192 bits], compared to the running time of the
203          * standard algorithm:
204          *
205          *   BN_mod_exp_mont   33 .. 40 %  [AMD K6-2, Linux, debug configuration]
206          *                     55 .. 77 %  [UltraSparc processor, but
207          *                                  debug-solaris-sparcv8-gcc conf.]
208          * 
209          *   BN_mod_exp_recp   50 .. 70 %  [AMD K6-2, Linux, debug configuration]
210          *                     62 .. 118 % [UltraSparc, debug-solaris-sparcv8-gcc]
211          *
212          * On the Sparc, BN_mod_exp_recp was faster than BN_mod_exp_mont
213          * at 2048 and more bits, but at 512 and 1024 bits, it was
214          * slower even than the standard algorithm!
215          *
216          * "Real" timings [linux-elf, solaris-sparcv9-gcc configurations]
217          * should be obtained when the new Montgomery reduction code
218          * has been integrated into OpenSSL.)
219          */
220
221 #define MONT_MUL_MOD
222 #define MONT_EXP_WORD
223 #define RECP_MUL_MOD
224
225 #ifdef MONT_MUL_MOD
226         /* I have finally been able to take out this pre-condition of
227          * the top bit being set.  It was caused by an error in BN_div
228          * with negatives.  There was also another problem when for a^b%m
229          * a >= m.  eay 07-May-97 */
230 /*      if ((m->d[m->top-1]&BN_TBIT) && BN_is_odd(m)) */
231
232         if (BN_is_odd(m))
233                 {
234 #  ifdef MONT_EXP_WORD
235                 if (a->top == 1 && !a->neg && (BN_get_flags(p, BN_FLG_CONSTTIME) == 0))
236                         {
237                         BN_ULONG A = a->d[0];
238                         ret=BN_mod_exp_mont_word(r,A,p,m,ctx,NULL);
239                         }
240                 else
241 #  endif
242                         ret=BN_mod_exp_mont(r,a,p,m,ctx,NULL);
243                 }
244         else
245 #endif
246 #ifdef RECP_MUL_MOD
247                 { ret=BN_mod_exp_recp(r,a,p,m,ctx); }
248 #else
249                 { ret=BN_mod_exp_simple(r,a,p,m,ctx); }
250 #endif
251
252         bn_check_top(r);
253         return(ret);
254         }
255
256
257 int BN_mod_exp_recp(BIGNUM *r, const BIGNUM *a, const BIGNUM *p,
258                     const BIGNUM *m, BN_CTX *ctx)
259         {
260         int i,j,bits,ret=0,wstart,wend,window,wvalue;
261         int start=1;
262         BIGNUM *aa;
263         /* Table of variables obtained from 'ctx' */
264         BIGNUM *val[TABLE_SIZE];
265         BN_RECP_CTX recp;
266
267         if (BN_get_flags(p, BN_FLG_CONSTTIME) != 0)
268                 {
269                 /* BN_FLG_CONSTTIME only supported by BN_mod_exp_mont() */
270                 BNerr(BN_F_BN_MOD_EXP_RECP,ERR_R_SHOULD_NOT_HAVE_BEEN_CALLED);
271                 return -1;
272                 }
273
274         bits=BN_num_bits(p);
275
276         if (bits == 0)
277                 {
278                 ret = BN_one(r);
279                 return ret;
280                 }
281
282         BN_CTX_start(ctx);
283         aa = BN_CTX_get(ctx);
284         val[0] = BN_CTX_get(ctx);
285         if(!aa || !val[0]) goto err;
286
287         BN_RECP_CTX_init(&recp);
288         if (m->neg)
289                 {
290                 /* ignore sign of 'm' */
291                 if (!BN_copy(aa, m)) goto err;
292                 aa->neg = 0;
293                 if (BN_RECP_CTX_set(&recp,aa,ctx) <= 0) goto err;
294                 }
295         else
296                 {
297                 if (BN_RECP_CTX_set(&recp,m,ctx) <= 0) goto err;
298                 }
299
300         if (!BN_nnmod(val[0],a,m,ctx)) goto err;                /* 1 */
301         if (BN_is_zero(val[0]))
302                 {
303                 BN_zero(r);
304                 ret = 1;
305                 goto err;
306                 }
307
308         window = BN_window_bits_for_exponent_size(bits);
309         if (window > 1)
310                 {
311                 if (!BN_mod_mul_reciprocal(aa,val[0],val[0],&recp,ctx))
312                         goto err;                               /* 2 */
313                 j=1<<(window-1);
314                 for (i=1; i<j; i++)
315                         {
316                         if(((val[i] = BN_CTX_get(ctx)) == NULL) ||
317                                         !BN_mod_mul_reciprocal(val[i],val[i-1],
318                                                 aa,&recp,ctx))
319                                 goto err;
320                         }
321                 }
322                 
323         start=1;        /* This is used to avoid multiplication etc
324                          * when there is only the value '1' in the
325                          * buffer. */
326         wvalue=0;       /* The 'value' of the window */
327         wstart=bits-1;  /* The top bit of the window */
328         wend=0;         /* The bottom bit of the window */
329
330         if (!BN_one(r)) goto err;
331
332         for (;;)
333                 {
334                 if (BN_is_bit_set(p,wstart) == 0)
335                         {
336                         if (!start)
337                                 if (!BN_mod_mul_reciprocal(r,r,r,&recp,ctx))
338                                 goto err;
339                         if (wstart == 0) break;
340                         wstart--;
341                         continue;
342                         }
343                 /* We now have wstart on a 'set' bit, we now need to work out
344                  * how bit a window to do.  To do this we need to scan
345                  * forward until the last set bit before the end of the
346                  * window */
347                 j=wstart;
348                 wvalue=1;
349                 wend=0;
350                 for (i=1; i<window; i++)
351                         {
352                         if (wstart-i < 0) break;
353                         if (BN_is_bit_set(p,wstart-i))
354                                 {
355                                 wvalue<<=(i-wend);
356                                 wvalue|=1;
357                                 wend=i;
358                                 }
359                         }
360
361                 /* wend is the size of the current window */
362                 j=wend+1;
363                 /* add the 'bytes above' */
364                 if (!start)
365                         for (i=0; i<j; i++)
366                                 {
367                                 if (!BN_mod_mul_reciprocal(r,r,r,&recp,ctx))
368                                         goto err;
369                                 }
370                 
371                 /* wvalue will be an odd number < 2^window */
372                 if (!BN_mod_mul_reciprocal(r,r,val[wvalue>>1],&recp,ctx))
373                         goto err;
374
375                 /* move the 'window' down further */
376                 wstart-=wend+1;
377                 wvalue=0;
378                 start=0;
379                 if (wstart < 0) break;
380                 }
381         ret=1;
382 err:
383         BN_CTX_end(ctx);
384         BN_RECP_CTX_free(&recp);
385         bn_check_top(r);
386         return(ret);
387         }
388
389
390 int BN_mod_exp_mont(BIGNUM *rr, const BIGNUM *a, const BIGNUM *p,
391                     const BIGNUM *m, BN_CTX *ctx, BN_MONT_CTX *in_mont)
392         {
393         int i,j,bits,ret=0,wstart,wend,window,wvalue;
394         int start=1;
395         BIGNUM *d,*r;
396         const BIGNUM *aa;
397         /* Table of variables obtained from 'ctx' */
398         BIGNUM *val[TABLE_SIZE];
399         BN_MONT_CTX *mont=NULL;
400
401         if (BN_get_flags(p, BN_FLG_CONSTTIME) != 0)
402                 {
403                 return BN_mod_exp_mont_consttime(rr, a, p, m, ctx, in_mont);
404                 }
405
406         bn_check_top(a);
407         bn_check_top(p);
408         bn_check_top(m);
409
410         if (!BN_is_odd(m))
411                 {
412                 BNerr(BN_F_BN_MOD_EXP_MONT,BN_R_CALLED_WITH_EVEN_MODULUS);
413                 return(0);
414                 }
415         bits=BN_num_bits(p);
416         if (bits == 0)
417                 {
418                 ret = BN_one(rr);
419                 return ret;
420                 }
421
422         BN_CTX_start(ctx);
423         d = BN_CTX_get(ctx);
424         r = BN_CTX_get(ctx);
425         val[0] = BN_CTX_get(ctx);
426         if (!d || !r || !val[0]) goto err;
427
428         /* If this is not done, things will break in the montgomery
429          * part */
430
431         if (in_mont != NULL)
432                 mont=in_mont;
433         else
434                 {
435                 if ((mont=BN_MONT_CTX_new()) == NULL) goto err;
436                 if (!BN_MONT_CTX_set(mont,m,ctx)) goto err;
437                 }
438
439         if (a->neg || BN_ucmp(a,m) >= 0)
440                 {
441                 if (!BN_nnmod(val[0],a,m,ctx))
442                         goto err;
443                 aa= val[0];
444                 }
445         else
446                 aa=a;
447         if (BN_is_zero(aa))
448                 {
449                 BN_zero(rr);
450                 ret = 1;
451                 goto err;
452                 }
453         if (!BN_to_montgomery(val[0],aa,mont,ctx)) goto err; /* 1 */
454
455         window = BN_window_bits_for_exponent_size(bits);
456         if (window > 1)
457                 {
458                 if (!BN_mod_mul_montgomery(d,val[0],val[0],mont,ctx)) goto err; /* 2 */
459                 j=1<<(window-1);
460                 for (i=1; i<j; i++)
461                         {
462                         if(((val[i] = BN_CTX_get(ctx)) == NULL) ||
463                                         !BN_mod_mul_montgomery(val[i],val[i-1],
464                                                 d,mont,ctx))
465                                 goto err;
466                         }
467                 }
468
469         start=1;        /* This is used to avoid multiplication etc
470                          * when there is only the value '1' in the
471                          * buffer. */
472         wvalue=0;       /* The 'value' of the window */
473         wstart=bits-1;  /* The top bit of the window */
474         wend=0;         /* The bottom bit of the window */
475
476 #if 1   /* by Shay Gueron's suggestion */
477         j = mont->N.top;        /* borrow j */
478         if (bn_wexpand(r,j) == NULL) goto err;
479         r->d[0] = (0-m->d[0])&BN_MASK2;         /* 2^(top*BN_BITS2) - m */
480         for(i=1;i<j;i++) r->d[i] = (~m->d[i])&BN_MASK2;
481         r->top = j;
482 #else
483         if (!BN_to_montgomery(r,BN_value_one(),mont,ctx)) goto err;
484 #endif
485         for (;;)
486                 {
487                 if (BN_is_bit_set(p,wstart) == 0)
488                         {
489                         if (!start)
490                                 {
491                                 if (!BN_mod_mul_montgomery(r,r,r,mont,ctx))
492                                 goto err;
493                                 }
494                         if (wstart == 0) break;
495                         wstart--;
496                         continue;
497                         }
498                 /* We now have wstart on a 'set' bit, we now need to work out
499                  * how bit a window to do.  To do this we need to scan
500                  * forward until the last set bit before the end of the
501                  * window */
502                 j=wstart;
503                 wvalue=1;
504                 wend=0;
505                 for (i=1; i<window; i++)
506                         {
507                         if (wstart-i < 0) break;
508                         if (BN_is_bit_set(p,wstart-i))
509                                 {
510                                 wvalue<<=(i-wend);
511                                 wvalue|=1;
512                                 wend=i;
513                                 }
514                         }
515
516                 /* wend is the size of the current window */
517                 j=wend+1;
518                 /* add the 'bytes above' */
519                 if (!start)
520                         for (i=0; i<j; i++)
521                                 {
522                                 if (!BN_mod_mul_montgomery(r,r,r,mont,ctx))
523                                         goto err;
524                                 }
525                 
526                 /* wvalue will be an odd number < 2^window */
527                 if (!BN_mod_mul_montgomery(r,r,val[wvalue>>1],mont,ctx))
528                         goto err;
529
530                 /* move the 'window' down further */
531                 wstart-=wend+1;
532                 wvalue=0;
533                 start=0;
534                 if (wstart < 0) break;
535                 }
536 #if defined(OPENSSL_BN_ASM_MONT) && (defined(__sparc__) || defined(__sparc))
537         if (OPENSSL_sparcv9cap_P[0]&(SPARCV9_VIS3|SPARCV9_PREFER_FPU))
538                 {
539                 j = mont->N.top;        /* borrow j */
540                 val[0]->d[0] = 1;       /* borrow val[0] */
541                 for (i=1;i<j;i++) val[0]->d[i] = 0;
542                 val[0]->top = j;
543                 if (!BN_mod_mul_montgomery(rr,r,val[0],mont,ctx)) goto err;
544                 }
545         else
546 #endif
547         if (!BN_from_montgomery(rr,r,mont,ctx)) goto err;
548         ret=1;
549 err:
550         if ((in_mont == NULL) && (mont != NULL)) BN_MONT_CTX_free(mont);
551         BN_CTX_end(ctx);
552         bn_check_top(rr);
553         return(ret);
554         }
555
556 #if defined(OPENSSL_BN_ASM_MONT) && (defined(__sparc__) || defined(__sparc))
557 static BN_ULONG bn_get_bits(const BIGNUM *a, int bitpos)
558         {
559         BN_ULONG ret=0;
560         int wordpos;
561
562         wordpos = bitpos/BN_BITS2;
563         bitpos %= BN_BITS2;
564         if (wordpos>=0 && wordpos < a->top)
565                 {
566                 ret = a->d[wordpos]&BN_MASK2;
567                 if (bitpos)
568                         {
569                         ret >>= bitpos;
570                         if (++wordpos < a->top)
571                                 ret |= a->d[wordpos]<<(BN_BITS2-bitpos);
572                         }
573                 }
574
575         return ret&BN_MASK2;
576 }
577 #endif
578
579 /* BN_mod_exp_mont_consttime() stores the precomputed powers in a specific layout
580  * so that accessing any of these table values shows the same access pattern as far
581  * as cache lines are concerned.  The following functions are used to transfer a BIGNUM
582  * from/to that table. */
583
584 static int MOD_EXP_CTIME_COPY_TO_PREBUF(const BIGNUM *b, int top, unsigned char *buf, int idx, int width)
585         {
586         size_t i, j;
587
588         if (top > b->top)
589                 top = b->top; /* this works because 'buf' is explicitly zeroed */
590         for (i = 0, j=idx; i < top * sizeof b->d[0]; i++, j+=width)
591                 {
592                 buf[j] = ((unsigned char*)b->d)[i];
593                 }
594
595         return 1;
596         }
597
598 static int MOD_EXP_CTIME_COPY_FROM_PREBUF(BIGNUM *b, int top, unsigned char *buf, int idx, int width)
599         {
600         size_t i, j;
601
602         if (bn_wexpand(b, top) == NULL)
603                 return 0;
604
605         for (i=0, j=idx; i < top * sizeof b->d[0]; i++, j+=width)
606                 {
607                 ((unsigned char*)b->d)[i] = buf[j];
608                 }
609
610         b->top = top;
611         bn_correct_top(b);
612         return 1;
613         }       
614
615 /* Given a pointer value, compute the next address that is a cache line multiple. */
616 #define MOD_EXP_CTIME_ALIGN(x_) \
617         ((unsigned char*)(x_) + (MOD_EXP_CTIME_MIN_CACHE_LINE_WIDTH - (((size_t)(x_)) & (MOD_EXP_CTIME_MIN_CACHE_LINE_MASK))))
618
619 /* This variant of BN_mod_exp_mont() uses fixed windows and the special
620  * precomputation memory layout to limit data-dependency to a minimum
621  * to protect secret exponents (cf. the hyper-threading timing attacks
622  * pointed out by Colin Percival,
623  * http://www.daemonology.net/hyperthreading-considered-harmful/)
624  */
625 int BN_mod_exp_mont_consttime(BIGNUM *rr, const BIGNUM *a, const BIGNUM *p,
626                     const BIGNUM *m, BN_CTX *ctx, BN_MONT_CTX *in_mont)
627         {
628         int i,bits,ret=0,window,wvalue;
629         int top;
630         BN_MONT_CTX *mont=NULL;
631
632         int numPowers;
633         unsigned char *powerbufFree=NULL;
634         int powerbufLen = 0;
635         unsigned char *powerbuf=NULL;
636         BIGNUM tmp, am;
637 #if defined(OPENSSL_BN_ASM_MONT) && (defined(__sparc__) || defined(__sparc))
638         unsigned int t4=0;
639 #endif
640
641         bn_check_top(a);
642         bn_check_top(p);
643         bn_check_top(m);
644
645         top = m->top;
646
647         if (!(m->d[0] & 1))
648                 {
649                 BNerr(BN_F_BN_MOD_EXP_MONT_CONSTTIME,BN_R_CALLED_WITH_EVEN_MODULUS);
650                 return(0);
651                 }
652         bits=BN_num_bits(p);
653         if (bits == 0)
654                 {
655                 ret = BN_one(rr);
656                 return ret;
657                 }
658
659         BN_CTX_start(ctx);
660
661         /* Allocate a montgomery context if it was not supplied by the caller.
662          * If this is not done, things will break in the montgomery part.
663          */
664         if (in_mont != NULL)
665                 mont=in_mont;
666         else
667                 {
668                 if ((mont=BN_MONT_CTX_new()) == NULL) goto err;
669                 if (!BN_MONT_CTX_set(mont,m,ctx)) goto err;
670                 }
671
672         /* Get the window size to use with size of p. */
673         window = BN_window_bits_for_ctime_exponent_size(bits);
674 #if defined(OPENSSL_BN_ASM_MONT) && (defined(__sparc__) || defined(__sparc))
675         if (window>=5 && (top&15)==0 && top<=64 &&
676             (OPENSSL_sparcv9cap_P[1]&(CFR_MONTMUL|CFR_MONTSQR))==
677                                      (CFR_MONTMUL|CFR_MONTSQR) &&
678             (t4=OPENSSL_sparcv9cap_P[0]))
679                 window=5;
680         else
681 #endif
682 #if defined(OPENSSL_BN_ASM_MONT5)
683         if (window==6 && bits<=1024) window=5;  /* ~5% improvement of 2048-bit RSA sign */
684 #endif
685         (void)0;
686
687         /* Allocate a buffer large enough to hold all of the pre-computed
688          * powers of am, am itself and tmp.
689          */
690         numPowers = 1 << window;
691         powerbufLen = sizeof(m->d[0])*(top*numPowers +
692                                 ((2*top)>numPowers?(2*top):numPowers));
693 #ifdef alloca
694         if (powerbufLen < 3072)
695                 powerbufFree = alloca(powerbufLen+MOD_EXP_CTIME_MIN_CACHE_LINE_WIDTH);
696         else
697 #endif
698         if ((powerbufFree=(unsigned char*)OPENSSL_malloc(powerbufLen+MOD_EXP_CTIME_MIN_CACHE_LINE_WIDTH)) == NULL)
699                 goto err;
700                 
701         powerbuf = MOD_EXP_CTIME_ALIGN(powerbufFree);
702         memset(powerbuf, 0, powerbufLen);
703
704 #ifdef alloca
705         if (powerbufLen < 3072)
706                 powerbufFree = NULL;
707 #endif
708
709         /* lay down tmp and am right after powers table */
710         tmp.d     = (BN_ULONG *)(powerbuf + sizeof(m->d[0])*top*numPowers);
711         am.d      = tmp.d + top;
712         tmp.top   = am.top  = 0;
713         tmp.dmax  = am.dmax = top;
714         tmp.neg   = am.neg  = 0;
715         tmp.flags = am.flags = BN_FLG_STATIC_DATA;
716
717         /* prepare a^0 in Montgomery domain */
718 #if 1   /* by Shay Gueron's suggestion */
719         tmp.d[0] = (0-m->d[0])&BN_MASK2;        /* 2^(top*BN_BITS2) - m */
720         for (i=1;i<top;i++)
721                 tmp.d[i] = (~m->d[i])&BN_MASK2;
722         tmp.top = top;
723 #else
724         if (!BN_to_montgomery(&tmp,BN_value_one(),mont,ctx))    goto err;
725 #endif
726
727         /* prepare a^1 in Montgomery domain */
728         if (a->neg || BN_ucmp(a,m) >= 0)
729                 {
730                 if (!BN_mod(&am,a,m,ctx))                       goto err;
731                 if (!BN_to_montgomery(&am,&am,mont,ctx))        goto err;
732                 }
733         else    if (!BN_to_montgomery(&am,a,mont,ctx))          goto err;
734
735 #if defined(OPENSSL_BN_ASM_MONT) && (defined(__sparc__) || defined(__sparc))
736     if (t4)
737         {
738         typedef int (*bn_pwr5_mont_f)(BN_ULONG *tp,const BN_ULONG *np,
739                         const BN_ULONG *n0,const void *table,int power,int bits);
740         int bn_pwr5_mont_t4_8(BN_ULONG *tp,const BN_ULONG *np,
741                         const BN_ULONG *n0,const void *table,int power,int bits);
742         int bn_pwr5_mont_t4_16(BN_ULONG *tp,const BN_ULONG *np,
743                         const BN_ULONG *n0,const void *table,int power,int bits);
744         int bn_pwr5_mont_t4_24(BN_ULONG *tp,const BN_ULONG *np,
745                         const BN_ULONG *n0,const void *table,int power,int bits);
746         int bn_pwr5_mont_t4_32(BN_ULONG *tp,const BN_ULONG *np,
747                         const BN_ULONG *n0,const void *table,int power,int bits);
748         static const bn_pwr5_mont_f pwr5_funcs[4] = {
749                         bn_pwr5_mont_t4_8,      bn_pwr5_mont_t4_16,
750                         bn_pwr5_mont_t4_24,     bn_pwr5_mont_t4_32 };
751         bn_pwr5_mont_f pwr5_worker = pwr5_funcs[top/16-1];
752
753         typedef int (*bn_mul_mont_f)(BN_ULONG *rp,const BN_ULONG *ap,
754                         const void *bp,const BN_ULONG *np,const BN_ULONG *n0);
755         int bn_mul_mont_t4_8(BN_ULONG *rp,const BN_ULONG *ap,
756                         const void *bp,const BN_ULONG *np,const BN_ULONG *n0);
757         int bn_mul_mont_t4_16(BN_ULONG *rp,const BN_ULONG *ap,
758                         const void *bp,const BN_ULONG *np,const BN_ULONG *n0);
759         int bn_mul_mont_t4_24(BN_ULONG *rp,const BN_ULONG *ap,
760                         const void *bp,const BN_ULONG *np,const BN_ULONG *n0);
761         int bn_mul_mont_t4_32(BN_ULONG *rp,const BN_ULONG *ap,
762                         const void *bp,const BN_ULONG *np,const BN_ULONG *n0);
763         static const bn_mul_mont_f mul_funcs[4] = {
764                         bn_mul_mont_t4_8,       bn_mul_mont_t4_16,
765                         bn_mul_mont_t4_24,      bn_mul_mont_t4_32 };
766         bn_mul_mont_f mul_worker = mul_funcs[top/16-1];
767
768         void bn_mul_mont_vis3(BN_ULONG *rp,const BN_ULONG *ap,
769                         const void *bp,const BN_ULONG *np,
770                         const BN_ULONG *n0,int num);
771         void bn_mul_mont_t4(BN_ULONG *rp,const BN_ULONG *ap,
772                         const void *bp,const BN_ULONG *np,
773                         const BN_ULONG *n0,int num);
774         void bn_mul_mont_gather5_t4(BN_ULONG *rp,const BN_ULONG *ap,
775                         const void *table,const BN_ULONG *np,
776                         const BN_ULONG *n0,int num,int power);
777         void bn_flip_n_scatter5_t4(const BN_ULONG *inp,size_t num,
778                         void *table,size_t power);
779         void bn_gather5_t4(BN_ULONG *out,size_t num,
780                         void *table,size_t power);
781         void bn_flip_t4(BN_ULONG *dst,BN_ULONG *src,size_t num);
782
783         BN_ULONG *np=mont->N.d, *n0=mont->n0;
784         int stride = 5*(6-(top/16-1));  /* multiple of 5, but less than 32 */
785
786         /* BN_to_montgomery can contaminate words above .top
787          * [in BN_DEBUG[_DEBUG] build]... */
788         for (i=am.top; i<top; i++)      am.d[i]=0;
789         for (i=tmp.top; i<top; i++)     tmp.d[i]=0;
790
791         bn_flip_n_scatter5_t4(tmp.d,top,powerbuf,0);
792         bn_flip_n_scatter5_t4(am.d,top,powerbuf,1);
793         if (!(*mul_worker)(tmp.d,am.d,am.d,np,n0) &&
794             !(*mul_worker)(tmp.d,am.d,am.d,np,n0))
795                 bn_mul_mont_vis3(tmp.d,am.d,am.d,np,n0,top);
796         bn_flip_n_scatter5_t4(tmp.d,top,powerbuf,2);
797
798         for (i=3; i<32; i++)
799                 {
800                 /* Calculate a^i = a^(i-1) * a */
801                 if (!(*mul_worker)(tmp.d,tmp.d,am.d,np,n0) &&
802                     !(*mul_worker)(tmp.d,tmp.d,am.d,np,n0))
803                         bn_mul_mont_vis3(tmp.d,tmp.d,am.d,np,n0,top);
804                 bn_flip_n_scatter5_t4(tmp.d,top,powerbuf,i);
805                 }
806
807         /* switch to 64-bit domain */ 
808         np = alloca(top*sizeof(BN_ULONG));
809         top /= 2;
810         bn_flip_t4(np,mont->N.d,top);
811
812         bits--;
813         for (wvalue=0, i=bits%5; i>=0; i--,bits--)
814                 wvalue = (wvalue<<1)+BN_is_bit_set(p,bits);
815         bn_gather5_t4(tmp.d,top,powerbuf,wvalue);
816
817         /* Scan the exponent one window at a time starting from the most
818          * significant bits.
819          */
820         while (bits >= 0)
821                 {
822                 if (bits < stride) stride = bits+1;
823                 bits -= stride;
824                 wvalue = bn_get_bits(p,bits+1);
825
826                 if ((*pwr5_worker)(tmp.d,np,n0,powerbuf,wvalue,stride)) continue;
827                 /* retry once and fall back */
828                 if ((*pwr5_worker)(tmp.d,np,n0,powerbuf,wvalue,stride)) continue;
829
830                 bits += stride-5;
831                 wvalue >>= stride-5;
832                 wvalue &= 31;
833                 bn_mul_mont_t4(tmp.d,tmp.d,tmp.d,np,n0,top);
834                 bn_mul_mont_t4(tmp.d,tmp.d,tmp.d,np,n0,top);
835                 bn_mul_mont_t4(tmp.d,tmp.d,tmp.d,np,n0,top);
836                 bn_mul_mont_t4(tmp.d,tmp.d,tmp.d,np,n0,top);
837                 bn_mul_mont_t4(tmp.d,tmp.d,tmp.d,np,n0,top);
838                 bn_mul_mont_gather5_t4(tmp.d,tmp.d,powerbuf,np,n0,top,wvalue);
839                 }
840
841         bn_flip_t4(tmp.d,tmp.d,top);
842         top *= 2;
843         /* back to 32-bit domain */
844         tmp.top=top;
845         bn_correct_top(&tmp);
846         OPENSSL_cleanse(np,top*sizeof(BN_ULONG));
847         }
848     else
849 #endif
850 #if defined(OPENSSL_BN_ASM_MONT5)
851     /* This optimization uses ideas from http://eprint.iacr.org/2011/239,
852      * specifically optimization of cache-timing attack countermeasures
853      * and pre-computation optimization. */
854
855     /* Dedicated window==4 case improves 512-bit RSA sign by ~15%, but as
856      * 512-bit RSA is hardly relevant, we omit it to spare size... */ 
857     if (window==5)
858         {
859         void bn_mul_mont_gather5(BN_ULONG *rp,const BN_ULONG *ap,
860                         const void *table,const BN_ULONG *np,
861                         const BN_ULONG *n0,int num,int power);
862         void bn_scatter5(const BN_ULONG *inp,size_t num,
863                         void *table,size_t power);
864         void bn_gather5(BN_ULONG *out,size_t num,
865                         void *table,size_t power);
866
867         BN_ULONG *np=mont->N.d, *n0=mont->n0;
868
869         /* BN_to_montgomery can contaminate words above .top
870          * [in BN_DEBUG[_DEBUG] build]... */
871         for (i=am.top; i<top; i++)      am.d[i]=0;
872         for (i=tmp.top; i<top; i++)     tmp.d[i]=0;
873
874         bn_scatter5(tmp.d,top,powerbuf,0);
875         bn_scatter5(am.d,am.top,powerbuf,1);
876         bn_mul_mont(tmp.d,am.d,am.d,np,n0,top);
877         bn_scatter5(tmp.d,top,powerbuf,2);
878
879 #if 0
880         for (i=3; i<32; i++)
881                 {
882                 /* Calculate a^i = a^(i-1) * a */
883                 bn_mul_mont_gather5(tmp.d,am.d,powerbuf,np,n0,top,i-1);
884                 bn_scatter5(tmp.d,top,powerbuf,i);
885                 }
886 #else
887         /* same as above, but uses squaring for 1/2 of operations */
888         for (i=4; i<32; i*=2)
889                 {
890                 bn_mul_mont(tmp.d,tmp.d,tmp.d,np,n0,top);
891                 bn_scatter5(tmp.d,top,powerbuf,i);
892                 }
893         for (i=3; i<8; i+=2)
894                 {
895                 int j;
896                 bn_mul_mont_gather5(tmp.d,am.d,powerbuf,np,n0,top,i-1);
897                 bn_scatter5(tmp.d,top,powerbuf,i);
898                 for (j=2*i; j<32; j*=2)
899                         {
900                         bn_mul_mont(tmp.d,tmp.d,tmp.d,np,n0,top);
901                         bn_scatter5(tmp.d,top,powerbuf,j);
902                         }
903                 }
904         for (; i<16; i+=2)
905                 {
906                 bn_mul_mont_gather5(tmp.d,am.d,powerbuf,np,n0,top,i-1);
907                 bn_scatter5(tmp.d,top,powerbuf,i);
908                 bn_mul_mont(tmp.d,tmp.d,tmp.d,np,n0,top);
909                 bn_scatter5(tmp.d,top,powerbuf,2*i);
910                 }
911         for (; i<32; i+=2)
912                 {
913                 bn_mul_mont_gather5(tmp.d,am.d,powerbuf,np,n0,top,i-1);
914                 bn_scatter5(tmp.d,top,powerbuf,i);
915                 }
916 #endif
917         bits--;
918         for (wvalue=0, i=bits%5; i>=0; i--,bits--)
919                 wvalue = (wvalue<<1)+BN_is_bit_set(p,bits);
920         bn_gather5(tmp.d,top,powerbuf,wvalue);
921
922         /* Scan the exponent one window at a time starting from the most
923          * significant bits.
924          */
925         while (bits >= 0)
926                 {
927                 for (wvalue=0, i=0; i<5; i++,bits--)
928                         wvalue = (wvalue<<1)+BN_is_bit_set(p,bits);
929
930                 bn_mul_mont(tmp.d,tmp.d,tmp.d,np,n0,top);
931                 bn_mul_mont(tmp.d,tmp.d,tmp.d,np,n0,top);
932                 bn_mul_mont(tmp.d,tmp.d,tmp.d,np,n0,top);
933                 bn_mul_mont(tmp.d,tmp.d,tmp.d,np,n0,top);
934                 bn_mul_mont(tmp.d,tmp.d,tmp.d,np,n0,top);
935                 bn_mul_mont_gather5(tmp.d,tmp.d,powerbuf,np,n0,top,wvalue);
936                 }
937
938         tmp.top=top;
939         bn_correct_top(&tmp);
940         }
941     else
942 #endif
943         {
944         if (!MOD_EXP_CTIME_COPY_TO_PREBUF(&tmp, top, powerbuf, 0, numPowers)) goto err;
945         if (!MOD_EXP_CTIME_COPY_TO_PREBUF(&am,  top, powerbuf, 1, numPowers)) goto err;
946
947         /* If the window size is greater than 1, then calculate
948          * val[i=2..2^winsize-1]. Powers are computed as a*a^(i-1)
949          * (even powers could instead be computed as (a^(i/2))^2
950          * to use the slight performance advantage of sqr over mul).
951          */
952         if (window > 1)
953                 {
954                 if (!BN_mod_mul_montgomery(&tmp,&am,&am,mont,ctx))      goto err;
955                 if (!MOD_EXP_CTIME_COPY_TO_PREBUF(&tmp, top, powerbuf, 2, numPowers)) goto err;
956                 for (i=3; i<numPowers; i++)
957                         {
958                         /* Calculate a^i = a^(i-1) * a */
959                         if (!BN_mod_mul_montgomery(&tmp,&am,&tmp,mont,ctx))
960                                 goto err;
961                         if (!MOD_EXP_CTIME_COPY_TO_PREBUF(&tmp, top, powerbuf, i, numPowers)) goto err;
962                         }
963                 }
964
965         bits--;
966         for (wvalue=0, i=bits%window; i>=0; i--,bits--)
967                 wvalue = (wvalue<<1)+BN_is_bit_set(p,bits);
968         if (!MOD_EXP_CTIME_COPY_FROM_PREBUF(&tmp,top,powerbuf,wvalue,numPowers)) goto err;
969  
970         /* Scan the exponent one window at a time starting from the most
971          * significant bits.
972          */
973         while (bits >= 0)
974                 {
975                 wvalue=0; /* The 'value' of the window */
976                 
977                 /* Scan the window, squaring the result as we go */
978                 for (i=0; i<window; i++,bits--)
979                         {
980                         if (!BN_mod_mul_montgomery(&tmp,&tmp,&tmp,mont,ctx))    goto err;
981                         wvalue = (wvalue<<1)+BN_is_bit_set(p,bits);
982                         }
983                 
984                 /* Fetch the appropriate pre-computed value from the pre-buf */
985                 if (!MOD_EXP_CTIME_COPY_FROM_PREBUF(&am, top, powerbuf, wvalue, numPowers)) goto err;
986
987                 /* Multiply the result into the intermediate result */
988                 if (!BN_mod_mul_montgomery(&tmp,&tmp,&am,mont,ctx)) goto err;
989                 }
990         }
991
992         /* Convert the final result from montgomery to standard format */
993 #if defined(OPENSSL_BN_ASM_MONT) && (defined(__sparc__) || defined(__sparc))
994         if (OPENSSL_sparcv9cap_P[0]&(SPARCV9_VIS3|SPARCV9_PREFER_FPU))
995                 {
996                 am.d[0] = 1;    /* borrow am */
997                 for (i=1;i<top;i++) am.d[i] = 0;
998                 if (!BN_mod_mul_montgomery(rr,&tmp,&am,mont,ctx)) goto err;
999                 }
1000         else
1001 #endif
1002         if (!BN_from_montgomery(rr,&tmp,mont,ctx)) goto err;
1003         ret=1;
1004 err:
1005         if ((in_mont == NULL) && (mont != NULL)) BN_MONT_CTX_free(mont);
1006         if (powerbuf!=NULL)
1007                 {
1008                 OPENSSL_cleanse(powerbuf,powerbufLen);
1009                 if (powerbufFree) OPENSSL_free(powerbufFree);
1010                 }
1011         BN_CTX_end(ctx);
1012         return(ret);
1013         }
1014
1015 int BN_mod_exp_mont_word(BIGNUM *rr, BN_ULONG a, const BIGNUM *p,
1016                          const BIGNUM *m, BN_CTX *ctx, BN_MONT_CTX *in_mont)
1017         {
1018         BN_MONT_CTX *mont = NULL;
1019         int b, bits, ret=0;
1020         int r_is_one;
1021         BN_ULONG w, next_w;
1022         BIGNUM *d, *r, *t;
1023         BIGNUM *swap_tmp;
1024 #define BN_MOD_MUL_WORD(r, w, m) \
1025                 (BN_mul_word(r, (w)) && \
1026                 (/* BN_ucmp(r, (m)) < 0 ? 1 :*/  \
1027                         (BN_mod(t, r, m, ctx) && (swap_tmp = r, r = t, t = swap_tmp, 1))))
1028                 /* BN_MOD_MUL_WORD is only used with 'w' large,
1029                  * so the BN_ucmp test is probably more overhead
1030                  * than always using BN_mod (which uses BN_copy if
1031                  * a similar test returns true). */
1032                 /* We can use BN_mod and do not need BN_nnmod because our
1033                  * accumulator is never negative (the result of BN_mod does
1034                  * not depend on the sign of the modulus).
1035                  */
1036 #define BN_TO_MONTGOMERY_WORD(r, w, mont) \
1037                 (BN_set_word(r, (w)) && BN_to_montgomery(r, r, (mont), ctx))
1038
1039         if (BN_get_flags(p, BN_FLG_CONSTTIME) != 0)
1040                 {
1041                 /* BN_FLG_CONSTTIME only supported by BN_mod_exp_mont() */
1042                 BNerr(BN_F_BN_MOD_EXP_MONT_WORD,ERR_R_SHOULD_NOT_HAVE_BEEN_CALLED);
1043                 return -1;
1044                 }
1045
1046         bn_check_top(p);
1047         bn_check_top(m);
1048
1049         if (!BN_is_odd(m))
1050                 {
1051                 BNerr(BN_F_BN_MOD_EXP_MONT_WORD,BN_R_CALLED_WITH_EVEN_MODULUS);
1052                 return(0);
1053                 }
1054         if (m->top == 1)
1055                 a %= m->d[0]; /* make sure that 'a' is reduced */
1056
1057         bits = BN_num_bits(p);
1058         if (bits == 0)
1059                 {
1060                 /* x**0 mod 1 is still zero. */
1061                 if (BN_is_one(m))
1062                         {
1063                         ret = 1;
1064                         BN_zero(rr);
1065                         }
1066                 else
1067                         ret = BN_one(rr);
1068                 return ret;
1069                 }
1070         if (a == 0)
1071                 {
1072                 BN_zero(rr);
1073                 ret = 1;
1074                 return ret;
1075                 }
1076
1077         BN_CTX_start(ctx);
1078         d = BN_CTX_get(ctx);
1079         r = BN_CTX_get(ctx);
1080         t = BN_CTX_get(ctx);
1081         if (d == NULL || r == NULL || t == NULL) goto err;
1082
1083         if (in_mont != NULL)
1084                 mont=in_mont;
1085         else
1086                 {
1087                 if ((mont = BN_MONT_CTX_new()) == NULL) goto err;
1088                 if (!BN_MONT_CTX_set(mont, m, ctx)) goto err;
1089                 }
1090
1091         r_is_one = 1; /* except for Montgomery factor */
1092
1093         /* bits-1 >= 0 */
1094
1095         /* The result is accumulated in the product r*w. */
1096         w = a; /* bit 'bits-1' of 'p' is always set */
1097         for (b = bits-2; b >= 0; b--)
1098                 {
1099                 /* First, square r*w. */
1100                 next_w = w*w;
1101                 if ((next_w/w) != w) /* overflow */
1102                         {
1103                         if (r_is_one)
1104                                 {
1105                                 if (!BN_TO_MONTGOMERY_WORD(r, w, mont)) goto err;
1106                                 r_is_one = 0;
1107                                 }
1108                         else
1109                                 {
1110                                 if (!BN_MOD_MUL_WORD(r, w, m)) goto err;
1111                                 }
1112                         next_w = 1;
1113                         }
1114                 w = next_w;
1115                 if (!r_is_one)
1116                         {
1117                         if (!BN_mod_mul_montgomery(r, r, r, mont, ctx)) goto err;
1118                         }
1119
1120                 /* Second, multiply r*w by 'a' if exponent bit is set. */
1121                 if (BN_is_bit_set(p, b))
1122                         {
1123                         next_w = w*a;
1124                         if ((next_w/a) != w) /* overflow */
1125                                 {
1126                                 if (r_is_one)
1127                                         {
1128                                         if (!BN_TO_MONTGOMERY_WORD(r, w, mont)) goto err;
1129                                         r_is_one = 0;
1130                                         }
1131                                 else
1132                                         {
1133                                         if (!BN_MOD_MUL_WORD(r, w, m)) goto err;
1134                                         }
1135                                 next_w = a;
1136                                 }
1137                         w = next_w;
1138                         }
1139                 }
1140
1141         /* Finally, set r:=r*w. */
1142         if (w != 1)
1143                 {
1144                 if (r_is_one)
1145                         {
1146                         if (!BN_TO_MONTGOMERY_WORD(r, w, mont)) goto err;
1147                         r_is_one = 0;
1148                         }
1149                 else
1150                         {
1151                         if (!BN_MOD_MUL_WORD(r, w, m)) goto err;
1152                         }
1153                 }
1154
1155         if (r_is_one) /* can happen only if a == 1*/
1156                 {
1157                 if (!BN_one(rr)) goto err;
1158                 }
1159         else
1160                 {
1161                 if (!BN_from_montgomery(rr, r, mont, ctx)) goto err;
1162                 }
1163         ret = 1;
1164 err:
1165         if ((in_mont == NULL) && (mont != NULL)) BN_MONT_CTX_free(mont);
1166         BN_CTX_end(ctx);
1167         bn_check_top(rr);
1168         return(ret);
1169         }
1170
1171
1172 /* The old fallback, simple version :-) */
1173 int BN_mod_exp_simple(BIGNUM *r, const BIGNUM *a, const BIGNUM *p,
1174                 const BIGNUM *m, BN_CTX *ctx)
1175         {
1176         int i,j,bits,ret=0,wstart,wend,window,wvalue;
1177         int start=1;
1178         BIGNUM *d;
1179         /* Table of variables obtained from 'ctx' */
1180         BIGNUM *val[TABLE_SIZE];
1181
1182         if (BN_get_flags(p, BN_FLG_CONSTTIME) != 0)
1183                 {
1184                 /* BN_FLG_CONSTTIME only supported by BN_mod_exp_mont() */
1185                 BNerr(BN_F_BN_MOD_EXP_SIMPLE,ERR_R_SHOULD_NOT_HAVE_BEEN_CALLED);
1186                 return -1;
1187                 }
1188
1189         bits=BN_num_bits(p);
1190
1191         if (bits == 0)
1192                 {
1193                 ret = BN_one(r);
1194                 return ret;
1195                 }
1196
1197         BN_CTX_start(ctx);
1198         d = BN_CTX_get(ctx);
1199         val[0] = BN_CTX_get(ctx);
1200         if(!d || !val[0]) goto err;
1201
1202         if (!BN_nnmod(val[0],a,m,ctx)) goto err;                /* 1 */
1203         if (BN_is_zero(val[0]))
1204                 {
1205                 BN_zero(r);
1206                 ret = 1;
1207                 goto err;
1208                 }
1209
1210         window = BN_window_bits_for_exponent_size(bits);
1211         if (window > 1)
1212                 {
1213                 if (!BN_mod_mul(d,val[0],val[0],m,ctx))
1214                         goto err;                               /* 2 */
1215                 j=1<<(window-1);
1216                 for (i=1; i<j; i++)
1217                         {
1218                         if(((val[i] = BN_CTX_get(ctx)) == NULL) ||
1219                                         !BN_mod_mul(val[i],val[i-1],d,m,ctx))
1220                                 goto err;
1221                         }
1222                 }
1223
1224         start=1;        /* This is used to avoid multiplication etc
1225                          * when there is only the value '1' in the
1226                          * buffer. */
1227         wvalue=0;       /* The 'value' of the window */
1228         wstart=bits-1;  /* The top bit of the window */
1229         wend=0;         /* The bottom bit of the window */
1230
1231         if (!BN_one(r)) goto err;
1232
1233         for (;;)
1234                 {
1235                 if (BN_is_bit_set(p,wstart) == 0)
1236                         {
1237                         if (!start)
1238                                 if (!BN_mod_mul(r,r,r,m,ctx))
1239                                 goto err;
1240                         if (wstart == 0) break;
1241                         wstart--;
1242                         continue;
1243                         }
1244                 /* We now have wstart on a 'set' bit, we now need to work out
1245                  * how bit a window to do.  To do this we need to scan
1246                  * forward until the last set bit before the end of the
1247                  * window */
1248                 j=wstart;
1249                 wvalue=1;
1250                 wend=0;
1251                 for (i=1; i<window; i++)
1252                         {
1253                         if (wstart-i < 0) break;
1254                         if (BN_is_bit_set(p,wstart-i))
1255                                 {
1256                                 wvalue<<=(i-wend);
1257                                 wvalue|=1;
1258                                 wend=i;
1259                                 }
1260                         }
1261
1262                 /* wend is the size of the current window */
1263                 j=wend+1;
1264                 /* add the 'bytes above' */
1265                 if (!start)
1266                         for (i=0; i<j; i++)
1267                                 {
1268                                 if (!BN_mod_mul(r,r,r,m,ctx))
1269                                         goto err;
1270                                 }
1271                 
1272                 /* wvalue will be an odd number < 2^window */
1273                 if (!BN_mod_mul(r,r,val[wvalue>>1],m,ctx))
1274                         goto err;
1275
1276                 /* move the 'window' down further */
1277                 wstart-=wend+1;
1278                 wvalue=0;
1279                 start=0;
1280                 if (wstart < 0) break;
1281                 }
1282         ret=1;
1283 err:
1284         BN_CTX_end(ctx);
1285         bn_check_top(r);
1286         return(ret);
1287         }