60f2d999325dc904647ef69e05842f40b02ab965
[openssl.git] / crypto / bn / bn_exp.c
1 /* crypto/bn/bn_exp.c */
2 /* Copyright (C) 1995-1998 Eric Young (eay@cryptsoft.com)
3  * All rights reserved.
4  *
5  * This package is an SSL implementation written
6  * by Eric Young (eay@cryptsoft.com).
7  * The implementation was written so as to conform with Netscapes SSL.
8  * 
9  * This library is free for commercial and non-commercial use as long as
10  * the following conditions are aheared to.  The following conditions
11  * apply to all code found in this distribution, be it the RC4, RSA,
12  * lhash, DES, etc., code; not just the SSL code.  The SSL documentation
13  * included with this distribution is covered by the same copyright terms
14  * except that the holder is Tim Hudson (tjh@cryptsoft.com).
15  * 
16  * Copyright remains Eric Young's, and as such any Copyright notices in
17  * the code are not to be removed.
18  * If this package is used in a product, Eric Young should be given attribution
19  * as the author of the parts of the library used.
20  * This can be in the form of a textual message at program startup or
21  * in documentation (online or textual) provided with the package.
22  * 
23  * Redistribution and use in source and binary forms, with or without
24  * modification, are permitted provided that the following conditions
25  * are met:
26  * 1. Redistributions of source code must retain the copyright
27  *    notice, this list of conditions and the following disclaimer.
28  * 2. Redistributions in binary form must reproduce the above copyright
29  *    notice, this list of conditions and the following disclaimer in the
30  *    documentation and/or other materials provided with the distribution.
31  * 3. All advertising materials mentioning features or use of this software
32  *    must display the following acknowledgement:
33  *    "This product includes cryptographic software written by
34  *     Eric Young (eay@cryptsoft.com)"
35  *    The word 'cryptographic' can be left out if the rouines from the library
36  *    being used are not cryptographic related :-).
37  * 4. If you include any Windows specific code (or a derivative thereof) from 
38  *    the apps directory (application code) you must include an acknowledgement:
39  *    "This product includes software written by Tim Hudson (tjh@cryptsoft.com)"
40  * 
41  * THIS SOFTWARE IS PROVIDED BY ERIC YOUNG ``AS IS'' AND
42  * ANY EXPRESS OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE
43  * IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR PURPOSE
44  * ARE DISCLAIMED.  IN NO EVENT SHALL THE AUTHOR OR CONTRIBUTORS BE LIABLE
45  * FOR ANY DIRECT, INDIRECT, INCIDENTAL, SPECIAL, EXEMPLARY, OR CONSEQUENTIAL
46  * DAMAGES (INCLUDING, BUT NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS
47  * OR SERVICES; LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION)
48  * HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT
49  * LIABILITY, OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY
50  * OUT OF THE USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF
51  * SUCH DAMAGE.
52  * 
53  * The licence and distribution terms for any publically available version or
54  * derivative of this code cannot be changed.  i.e. this code cannot simply be
55  * copied and put under another distribution licence
56  * [including the GNU Public Licence.]
57  */
58 /* ====================================================================
59  * Copyright (c) 1998-2005 The OpenSSL Project.  All rights reserved.
60  *
61  * Redistribution and use in source and binary forms, with or without
62  * modification, are permitted provided that the following conditions
63  * are met:
64  *
65  * 1. Redistributions of source code must retain the above copyright
66  *    notice, this list of conditions and the following disclaimer. 
67  *
68  * 2. Redistributions in binary form must reproduce the above copyright
69  *    notice, this list of conditions and the following disclaimer in
70  *    the documentation and/or other materials provided with the
71  *    distribution.
72  *
73  * 3. All advertising materials mentioning features or use of this
74  *    software must display the following acknowledgment:
75  *    "This product includes software developed by the OpenSSL Project
76  *    for use in the OpenSSL Toolkit. (http://www.openssl.org/)"
77  *
78  * 4. The names "OpenSSL Toolkit" and "OpenSSL Project" must not be used to
79  *    endorse or promote products derived from this software without
80  *    prior written permission. For written permission, please contact
81  *    openssl-core@openssl.org.
82  *
83  * 5. Products derived from this software may not be called "OpenSSL"
84  *    nor may "OpenSSL" appear in their names without prior written
85  *    permission of the OpenSSL Project.
86  *
87  * 6. Redistributions of any form whatsoever must retain the following
88  *    acknowledgment:
89  *    "This product includes software developed by the OpenSSL Project
90  *    for use in the OpenSSL Toolkit (http://www.openssl.org/)"
91  *
92  * THIS SOFTWARE IS PROVIDED BY THE OpenSSL PROJECT ``AS IS'' AND ANY
93  * EXPRESSED OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE
94  * IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR
95  * PURPOSE ARE DISCLAIMED.  IN NO EVENT SHALL THE OpenSSL PROJECT OR
96  * ITS CONTRIBUTORS BE LIABLE FOR ANY DIRECT, INDIRECT, INCIDENTAL,
97  * SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING, BUT
98  * NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES;
99  * LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION)
100  * HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT,
101  * STRICT LIABILITY, OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE)
102  * ARISING IN ANY WAY OUT OF THE USE OF THIS SOFTWARE, EVEN IF ADVISED
103  * OF THE POSSIBILITY OF SUCH DAMAGE.
104  * ====================================================================
105  *
106  * This product includes cryptographic software written by Eric Young
107  * (eay@cryptsoft.com).  This product includes software written by Tim
108  * Hudson (tjh@cryptsoft.com).
109  *
110  */
111
112 #define OPENSSL_FIPSAPI
113
114 #include "cryptlib.h"
115 #include "bn_lcl.h"
116
117 #include <stdlib.h>
118 #ifdef _WIN32
119 # include <malloc.h>
120 # ifndef alloca
121 #  define alloca _alloca
122 # endif
123 #elif defined(__GNUC__)
124 # ifndef alloca
125 #  define alloca(s) __builtin_alloca((s))
126 # endif
127 #endif
128
129 #if defined(OPENSSL_BN_ASM_MONT) && (defined(__sparc__) || defined(__sparc))
130 # include "sparc_arch.h"
131 extern unsigned int OPENSSL_sparcv9cap_P[];
132 #endif
133
134 /* maximum precomputation table size for *variable* sliding windows */
135 #define TABLE_SIZE      32
136
137 /* this one works - simple but works */
138 int BN_exp(BIGNUM *r, const BIGNUM *a, const BIGNUM *p, BN_CTX *ctx)
139         {
140         int i,bits,ret=0;
141         BIGNUM *v,*rr;
142
143         if (BN_get_flags(p, BN_FLG_CONSTTIME) != 0)
144                 {
145                 /* BN_FLG_CONSTTIME only supported by BN_mod_exp_mont() */
146                 BNerr(BN_F_BN_EXP,ERR_R_SHOULD_NOT_HAVE_BEEN_CALLED);
147                 return -1;
148                 }
149
150         BN_CTX_start(ctx);
151         if ((r == a) || (r == p))
152                 rr = BN_CTX_get(ctx);
153         else
154                 rr = r;
155         v = BN_CTX_get(ctx);
156         if (rr == NULL || v == NULL) goto err;
157
158         if (BN_copy(v,a) == NULL) goto err;
159         bits=BN_num_bits(p);
160
161         if (BN_is_odd(p))
162                 { if (BN_copy(rr,a) == NULL) goto err; }
163         else    { if (!BN_one(rr)) goto err; }
164
165         for (i=1; i<bits; i++)
166                 {
167                 if (!BN_sqr(v,v,ctx)) goto err;
168                 if (BN_is_bit_set(p,i))
169                         {
170                         if (!BN_mul(rr,rr,v,ctx)) goto err;
171                         }
172                 }
173         ret=1;
174 err:
175         if (r != rr) BN_copy(r,rr);
176         BN_CTX_end(ctx);
177         bn_check_top(r);
178         return(ret);
179         }
180
181
182 int BN_mod_exp(BIGNUM *r, const BIGNUM *a, const BIGNUM *p, const BIGNUM *m,
183                BN_CTX *ctx)
184         {
185         int ret;
186
187         bn_check_top(a);
188         bn_check_top(p);
189         bn_check_top(m);
190
191         /* For even modulus  m = 2^k*m_odd,  it might make sense to compute
192          * a^p mod m_odd  and  a^p mod 2^k  separately (with Montgomery
193          * exponentiation for the odd part), using appropriate exponent
194          * reductions, and combine the results using the CRT.
195          *
196          * For now, we use Montgomery only if the modulus is odd; otherwise,
197          * exponentiation using the reciprocal-based quick remaindering
198          * algorithm is used.
199          *
200          * (Timing obtained with expspeed.c [computations  a^p mod m
201          * where  a, p, m  are of the same length: 256, 512, 1024, 2048,
202          * 4096, 8192 bits], compared to the running time of the
203          * standard algorithm:
204          *
205          *   BN_mod_exp_mont   33 .. 40 %  [AMD K6-2, Linux, debug configuration]
206          *                     55 .. 77 %  [UltraSparc processor, but
207          *                                  debug-solaris-sparcv8-gcc conf.]
208          * 
209          *   BN_mod_exp_recp   50 .. 70 %  [AMD K6-2, Linux, debug configuration]
210          *                     62 .. 118 % [UltraSparc, debug-solaris-sparcv8-gcc]
211          *
212          * On the Sparc, BN_mod_exp_recp was faster than BN_mod_exp_mont
213          * at 2048 and more bits, but at 512 and 1024 bits, it was
214          * slower even than the standard algorithm!
215          *
216          * "Real" timings [linux-elf, solaris-sparcv9-gcc configurations]
217          * should be obtained when the new Montgomery reduction code
218          * has been integrated into OpenSSL.)
219          */
220
221 #define MONT_MUL_MOD
222 #define MONT_EXP_WORD
223 #define RECP_MUL_MOD
224
225 #ifdef MONT_MUL_MOD
226         /* I have finally been able to take out this pre-condition of
227          * the top bit being set.  It was caused by an error in BN_div
228          * with negatives.  There was also another problem when for a^b%m
229          * a >= m.  eay 07-May-97 */
230 /*      if ((m->d[m->top-1]&BN_TBIT) && BN_is_odd(m)) */
231
232         if (BN_is_odd(m))
233                 {
234 #  ifdef MONT_EXP_WORD
235                 if (a->top == 1 && !a->neg && (BN_get_flags(p, BN_FLG_CONSTTIME) == 0))
236                         {
237                         BN_ULONG A = a->d[0];
238                         ret=BN_mod_exp_mont_word(r,A,p,m,ctx,NULL);
239                         }
240                 else
241 #  endif
242                         ret=BN_mod_exp_mont(r,a,p,m,ctx,NULL);
243                 }
244         else
245 #endif
246 #ifdef RECP_MUL_MOD
247                 { ret=BN_mod_exp_recp(r,a,p,m,ctx); }
248 #else
249                 { ret=BN_mod_exp_simple(r,a,p,m,ctx); }
250 #endif
251
252         bn_check_top(r);
253         return(ret);
254         }
255
256
257 int BN_mod_exp_recp(BIGNUM *r, const BIGNUM *a, const BIGNUM *p,
258                     const BIGNUM *m, BN_CTX *ctx)
259         {
260         int i,j,bits,ret=0,wstart,wend,window,wvalue;
261         int start=1;
262         BIGNUM *aa;
263         /* Table of variables obtained from 'ctx' */
264         BIGNUM *val[TABLE_SIZE];
265         BN_RECP_CTX recp;
266
267         if (BN_get_flags(p, BN_FLG_CONSTTIME) != 0)
268                 {
269                 /* BN_FLG_CONSTTIME only supported by BN_mod_exp_mont() */
270                 BNerr(BN_F_BN_MOD_EXP_RECP,ERR_R_SHOULD_NOT_HAVE_BEEN_CALLED);
271                 return -1;
272                 }
273
274         bits=BN_num_bits(p);
275
276         if (bits == 0)
277                 {
278                 ret = BN_one(r);
279                 return ret;
280                 }
281
282         BN_CTX_start(ctx);
283         aa = BN_CTX_get(ctx);
284         val[0] = BN_CTX_get(ctx);
285         if(!aa || !val[0]) goto err;
286
287         BN_RECP_CTX_init(&recp);
288         if (m->neg)
289                 {
290                 /* ignore sign of 'm' */
291                 if (!BN_copy(aa, m)) goto err;
292                 aa->neg = 0;
293                 if (BN_RECP_CTX_set(&recp,aa,ctx) <= 0) goto err;
294                 }
295         else
296                 {
297                 if (BN_RECP_CTX_set(&recp,m,ctx) <= 0) goto err;
298                 }
299
300         if (!BN_nnmod(val[0],a,m,ctx)) goto err;                /* 1 */
301         if (BN_is_zero(val[0]))
302                 {
303                 BN_zero(r);
304                 ret = 1;
305                 goto err;
306                 }
307
308         window = BN_window_bits_for_exponent_size(bits);
309         if (window > 1)
310                 {
311                 if (!BN_mod_mul_reciprocal(aa,val[0],val[0],&recp,ctx))
312                         goto err;                               /* 2 */
313                 j=1<<(window-1);
314                 for (i=1; i<j; i++)
315                         {
316                         if(((val[i] = BN_CTX_get(ctx)) == NULL) ||
317                                         !BN_mod_mul_reciprocal(val[i],val[i-1],
318                                                 aa,&recp,ctx))
319                                 goto err;
320                         }
321                 }
322                 
323         start=1;        /* This is used to avoid multiplication etc
324                          * when there is only the value '1' in the
325                          * buffer. */
326         wvalue=0;       /* The 'value' of the window */
327         wstart=bits-1;  /* The top bit of the window */
328         wend=0;         /* The bottom bit of the window */
329
330         if (!BN_one(r)) goto err;
331
332         for (;;)
333                 {
334                 if (BN_is_bit_set(p,wstart) == 0)
335                         {
336                         if (!start)
337                                 if (!BN_mod_mul_reciprocal(r,r,r,&recp,ctx))
338                                 goto err;
339                         if (wstart == 0) break;
340                         wstart--;
341                         continue;
342                         }
343                 /* We now have wstart on a 'set' bit, we now need to work out
344                  * how bit a window to do.  To do this we need to scan
345                  * forward until the last set bit before the end of the
346                  * window */
347                 j=wstart;
348                 wvalue=1;
349                 wend=0;
350                 for (i=1; i<window; i++)
351                         {
352                         if (wstart-i < 0) break;
353                         if (BN_is_bit_set(p,wstart-i))
354                                 {
355                                 wvalue<<=(i-wend);
356                                 wvalue|=1;
357                                 wend=i;
358                                 }
359                         }
360
361                 /* wend is the size of the current window */
362                 j=wend+1;
363                 /* add the 'bytes above' */
364                 if (!start)
365                         for (i=0; i<j; i++)
366                                 {
367                                 if (!BN_mod_mul_reciprocal(r,r,r,&recp,ctx))
368                                         goto err;
369                                 }
370                 
371                 /* wvalue will be an odd number < 2^window */
372                 if (!BN_mod_mul_reciprocal(r,r,val[wvalue>>1],&recp,ctx))
373                         goto err;
374
375                 /* move the 'window' down further */
376                 wstart-=wend+1;
377                 wvalue=0;
378                 start=0;
379                 if (wstart < 0) break;
380                 }
381         ret=1;
382 err:
383         BN_CTX_end(ctx);
384         BN_RECP_CTX_free(&recp);
385         bn_check_top(r);
386         return(ret);
387         }
388
389
390 int BN_mod_exp_mont(BIGNUM *rr, const BIGNUM *a, const BIGNUM *p,
391                     const BIGNUM *m, BN_CTX *ctx, BN_MONT_CTX *in_mont)
392         {
393         int i,j,bits,ret=0,wstart,wend,window,wvalue;
394         int start=1;
395         BIGNUM *d,*r;
396         const BIGNUM *aa;
397         /* Table of variables obtained from 'ctx' */
398         BIGNUM *val[TABLE_SIZE];
399         BN_MONT_CTX *mont=NULL;
400
401         if (BN_get_flags(p, BN_FLG_CONSTTIME) != 0)
402                 {
403                 return BN_mod_exp_mont_consttime(rr, a, p, m, ctx, in_mont);
404                 }
405
406         bn_check_top(a);
407         bn_check_top(p);
408         bn_check_top(m);
409
410         if (!BN_is_odd(m))
411                 {
412                 BNerr(BN_F_BN_MOD_EXP_MONT,BN_R_CALLED_WITH_EVEN_MODULUS);
413                 return(0);
414                 }
415         bits=BN_num_bits(p);
416         if (bits == 0)
417                 {
418                 ret = BN_one(rr);
419                 return ret;
420                 }
421
422         BN_CTX_start(ctx);
423         d = BN_CTX_get(ctx);
424         r = BN_CTX_get(ctx);
425         val[0] = BN_CTX_get(ctx);
426         if (!d || !r || !val[0]) goto err;
427
428         /* If this is not done, things will break in the montgomery
429          * part */
430
431         if (in_mont != NULL)
432                 mont=in_mont;
433         else
434                 {
435                 if ((mont=BN_MONT_CTX_new()) == NULL) goto err;
436                 if (!BN_MONT_CTX_set(mont,m,ctx)) goto err;
437                 }
438
439         if (a->neg || BN_ucmp(a,m) >= 0)
440                 {
441                 if (!BN_nnmod(val[0],a,m,ctx))
442                         goto err;
443                 aa= val[0];
444                 }
445         else
446                 aa=a;
447         if (BN_is_zero(aa))
448                 {
449                 BN_zero(rr);
450                 ret = 1;
451                 goto err;
452                 }
453         if (!BN_to_montgomery(val[0],aa,mont,ctx)) goto err; /* 1 */
454
455         window = BN_window_bits_for_exponent_size(bits);
456         if (window > 1)
457                 {
458                 if (!BN_mod_mul_montgomery(d,val[0],val[0],mont,ctx)) goto err; /* 2 */
459                 j=1<<(window-1);
460                 for (i=1; i<j; i++)
461                         {
462                         if(((val[i] = BN_CTX_get(ctx)) == NULL) ||
463                                         !BN_mod_mul_montgomery(val[i],val[i-1],
464                                                 d,mont,ctx))
465                                 goto err;
466                         }
467                 }
468
469         start=1;        /* This is used to avoid multiplication etc
470                          * when there is only the value '1' in the
471                          * buffer. */
472         wvalue=0;       /* The 'value' of the window */
473         wstart=bits-1;  /* The top bit of the window */
474         wend=0;         /* The bottom bit of the window */
475
476         if (!BN_to_montgomery(r,BN_value_one(),mont,ctx)) goto err;
477         for (;;)
478                 {
479                 if (BN_is_bit_set(p,wstart) == 0)
480                         {
481                         if (!start)
482                                 {
483                                 if (!BN_mod_mul_montgomery(r,r,r,mont,ctx))
484                                 goto err;
485                                 }
486                         if (wstart == 0) break;
487                         wstart--;
488                         continue;
489                         }
490                 /* We now have wstart on a 'set' bit, we now need to work out
491                  * how bit a window to do.  To do this we need to scan
492                  * forward until the last set bit before the end of the
493                  * window */
494                 j=wstart;
495                 wvalue=1;
496                 wend=0;
497                 for (i=1; i<window; i++)
498                         {
499                         if (wstart-i < 0) break;
500                         if (BN_is_bit_set(p,wstart-i))
501                                 {
502                                 wvalue<<=(i-wend);
503                                 wvalue|=1;
504                                 wend=i;
505                                 }
506                         }
507
508                 /* wend is the size of the current window */
509                 j=wend+1;
510                 /* add the 'bytes above' */
511                 if (!start)
512                         for (i=0; i<j; i++)
513                                 {
514                                 if (!BN_mod_mul_montgomery(r,r,r,mont,ctx))
515                                         goto err;
516                                 }
517                 
518                 /* wvalue will be an odd number < 2^window */
519                 if (!BN_mod_mul_montgomery(r,r,val[wvalue>>1],mont,ctx))
520                         goto err;
521
522                 /* move the 'window' down further */
523                 wstart-=wend+1;
524                 wvalue=0;
525                 start=0;
526                 if (wstart < 0) break;
527                 }
528         if (!BN_from_montgomery(rr,r,mont,ctx)) goto err;
529         ret=1;
530 err:
531         if ((in_mont == NULL) && (mont != NULL)) BN_MONT_CTX_free(mont);
532         BN_CTX_end(ctx);
533         bn_check_top(rr);
534         return(ret);
535         }
536
537
538 /* BN_mod_exp_mont_consttime() stores the precomputed powers in a specific layout
539  * so that accessing any of these table values shows the same access pattern as far
540  * as cache lines are concerned.  The following functions are used to transfer a BIGNUM
541  * from/to that table. */
542
543 static int MOD_EXP_CTIME_COPY_TO_PREBUF(const BIGNUM *b, int top, unsigned char *buf, int idx, int width)
544         {
545         size_t i, j;
546
547         if (top > b->top)
548                 top = b->top; /* this works because 'buf' is explicitly zeroed */
549         for (i = 0, j=idx; i < top * sizeof b->d[0]; i++, j+=width)
550                 {
551                 buf[j] = ((unsigned char*)b->d)[i];
552                 }
553
554         return 1;
555         }
556
557 static int MOD_EXP_CTIME_COPY_FROM_PREBUF(BIGNUM *b, int top, unsigned char *buf, int idx, int width)
558         {
559         size_t i, j;
560
561         if (bn_wexpand(b, top) == NULL)
562                 return 0;
563
564         for (i=0, j=idx; i < top * sizeof b->d[0]; i++, j+=width)
565                 {
566                 ((unsigned char*)b->d)[i] = buf[j];
567                 }
568
569         b->top = top;
570         bn_correct_top(b);
571         return 1;
572         }       
573
574 /* Given a pointer value, compute the next address that is a cache line multiple. */
575 #define MOD_EXP_CTIME_ALIGN(x_) \
576         ((unsigned char*)(x_) + (MOD_EXP_CTIME_MIN_CACHE_LINE_WIDTH - (((size_t)(x_)) & (MOD_EXP_CTIME_MIN_CACHE_LINE_MASK))))
577
578 /* This variant of BN_mod_exp_mont() uses fixed windows and the special
579  * precomputation memory layout to limit data-dependency to a minimum
580  * to protect secret exponents (cf. the hyper-threading timing attacks
581  * pointed out by Colin Percival,
582  * http://www.daemonology.net/hyperthreading-considered-harmful/)
583  */
584 int BN_mod_exp_mont_consttime(BIGNUM *rr, const BIGNUM *a, const BIGNUM *p,
585                     const BIGNUM *m, BN_CTX *ctx, BN_MONT_CTX *in_mont)
586         {
587         int i,bits,ret=0,window,wvalue;
588         int top;
589         BN_MONT_CTX *mont=NULL;
590
591         int numPowers;
592         unsigned char *powerbufFree=NULL;
593         int powerbufLen = 0;
594         unsigned char *powerbuf=NULL;
595         BIGNUM tmp, am;
596 #if defined(OPENSSL_BN_ASM_MONT) && (defined(__sparc__) || defined(__sparc))
597         unsigned int t4=0;
598 #endif
599
600         bn_check_top(a);
601         bn_check_top(p);
602         bn_check_top(m);
603
604         top = m->top;
605
606         if (!(m->d[0] & 1))
607                 {
608                 BNerr(BN_F_BN_MOD_EXP_MONT_CONSTTIME,BN_R_CALLED_WITH_EVEN_MODULUS);
609                 return(0);
610                 }
611         bits=BN_num_bits(p);
612         if (bits == 0)
613                 {
614                 ret = BN_one(rr);
615                 return ret;
616                 }
617
618         BN_CTX_start(ctx);
619
620         /* Allocate a montgomery context if it was not supplied by the caller.
621          * If this is not done, things will break in the montgomery part.
622          */
623         if (in_mont != NULL)
624                 mont=in_mont;
625         else
626                 {
627                 if ((mont=BN_MONT_CTX_new()) == NULL) goto err;
628                 if (!BN_MONT_CTX_set(mont,m,ctx)) goto err;
629                 }
630
631         /* Get the window size to use with size of p. */
632         window = BN_window_bits_for_ctime_exponent_size(bits);
633 #if defined(OPENSSL_BN_ASM_MONT) && (defined(__sparc__) || defined(__sparc))
634         if (window>=5 && (top&15)==0 && top<=64 &&
635             (OPENSSL_sparcv9cap_P[1]&(CFR_MONTMUL|CFR_MONTSQR))==
636                                      (CFR_MONTMUL|CFR_MONTSQR) &&
637             (t4=OPENSSL_sparcv9cap_P[0]))
638                 window=5;
639         else
640 #endif
641 #if defined(OPENSSL_BN_ASM_MONT5)
642         if (window==6 && bits<=1024) window=5;  /* ~5% improvement of 2048-bit RSA sign */
643 #endif
644         (void)0;
645
646         /* Allocate a buffer large enough to hold all of the pre-computed
647          * powers of am, am itself and tmp.
648          */
649         numPowers = 1 << window;
650         powerbufLen = sizeof(m->d[0])*(top*numPowers +
651                                 ((2*top)>numPowers?(2*top):numPowers));
652 #ifdef alloca
653         if (powerbufLen < 3072)
654                 powerbufFree = alloca(powerbufLen+MOD_EXP_CTIME_MIN_CACHE_LINE_WIDTH);
655         else
656 #endif
657         if ((powerbufFree=(unsigned char*)OPENSSL_malloc(powerbufLen+MOD_EXP_CTIME_MIN_CACHE_LINE_WIDTH)) == NULL)
658                 goto err;
659                 
660         powerbuf = MOD_EXP_CTIME_ALIGN(powerbufFree);
661         memset(powerbuf, 0, powerbufLen);
662
663 #ifdef alloca
664         if (powerbufLen < 3072)
665                 powerbufFree = NULL;
666 #endif
667
668         /* lay down tmp and am right after powers table */
669         tmp.d     = (BN_ULONG *)(powerbuf + sizeof(m->d[0])*top*numPowers);
670         am.d      = tmp.d + top;
671         tmp.top   = am.top  = 0;
672         tmp.dmax  = am.dmax = top;
673         tmp.neg   = am.neg  = 0;
674         tmp.flags = am.flags = BN_FLG_STATIC_DATA;
675
676         /* prepare a^0 in Montgomery domain */
677 #if 1
678         if (!BN_to_montgomery(&tmp,BN_value_one(),mont,ctx))    goto err;
679 #else
680         tmp.d[0] = (0-m->d[0])&BN_MASK2;        /* 2^(top*BN_BITS2) - m */
681         for (i=1;i<top;i++)
682                 tmp.d[i] = (~m->d[i])&BN_MASK2;
683         tmp.top = top;
684 #endif
685
686         /* prepare a^1 in Montgomery domain */
687         if (a->neg || BN_ucmp(a,m) >= 0)
688                 {
689                 if (!BN_mod(&am,a,m,ctx))                       goto err;
690                 if (!BN_to_montgomery(&am,&am,mont,ctx))        goto err;
691                 }
692         else    if (!BN_to_montgomery(&am,a,mont,ctx))          goto err;
693
694 #if defined(OPENSSL_BN_ASM_MONT) && (defined(__sparc__) || defined(__sparc))
695     if (t4)
696         {
697         typedef int (*bn_pwr5_mont_f)(BN_ULONG *tp,const BN_ULONG *np,
698                         const BN_ULONG *n0,const void *table,int power);
699         int bn_pwr5_mont_t4_8(BN_ULONG *tp,const BN_ULONG *np,
700                         const BN_ULONG *n0,const void *table,int power);
701         int bn_pwr5_mont_t4_16(BN_ULONG *tp,const BN_ULONG *np,
702                         const BN_ULONG *n0,const void *table,int power);
703         int bn_pwr5_mont_t4_24(BN_ULONG *tp,const BN_ULONG *np,
704                         const BN_ULONG *n0,const void *table,int power);
705         int bn_pwr5_mont_t4_32(BN_ULONG *tp,const BN_ULONG *np,
706                         const BN_ULONG *n0,const void *table,int power);
707         static const bn_pwr5_mont_f funcs[4] = {
708                         bn_pwr5_mont_t4_8,      bn_pwr5_mont_t4_16,
709                         bn_pwr5_mont_t4_24,     bn_pwr5_mont_t4_32 };
710         bn_pwr5_mont_f worker = funcs[top/16-1];
711
712         void bn_mul_mont_t4(BN_ULONG *rp,const BN_ULONG *ap,
713                         const void *bp,const BN_ULONG *np,
714                         const BN_ULONG *n0,int num);
715         void bn_mul_mont_gather5_t4(BN_ULONG *rp,const BN_ULONG *ap,
716                         const void *table,const BN_ULONG *np,
717                         const BN_ULONG *n0,int num,int power);
718         void bn_scatter5_t4(const BN_ULONG *inp,size_t num,
719                         void *table,size_t power);
720         void bn_gather5_t4(BN_ULONG *out,size_t num,
721                         void *table,size_t power);
722         void bn_flip_t4(BN_ULONG *dst,BN_ULONG *src,size_t num);
723
724         BN_ULONG *np=alloca(top*sizeof(BN_ULONG)), *n0=mont->n0;
725
726         /* BN_to_montgomery can contaminate words above .top
727          * [in BN_DEBUG[_DEBUG] build]... */
728         for (i=am.top; i<top; i++)      am.d[i]=0;
729         for (i=tmp.top; i<top; i++)     tmp.d[i]=0;
730
731         /* switch to 64-bit domain */ 
732         top /= 2;
733         bn_flip_t4(np,mont->N.d,top);
734         bn_flip_t4(tmp.d,tmp.d,top);
735         bn_flip_t4(am.d,am.d,top);
736
737         bn_scatter5_t4(tmp.d,top,powerbuf,0);
738         bn_scatter5_t4(am.d,top,powerbuf,1);
739         bn_mul_mont_t4(tmp.d,am.d,am.d,np,n0,top);
740         bn_scatter5_t4(tmp.d,top,powerbuf,2);
741
742         for (i=3; i<32; i++)
743                 {
744                 /* Calculate a^i = a^(i-1) * a */
745                 bn_mul_mont_gather5_t4(tmp.d,am.d,powerbuf,np,n0,top,i-1);
746                 bn_scatter5_t4(tmp.d,top,powerbuf,i);
747                 }
748
749         bits--;
750         for (wvalue=0, i=bits%5; i>=0; i--,bits--)
751                 wvalue = (wvalue<<1)+BN_is_bit_set(p,bits);
752         bn_gather5_t4(tmp.d,top,powerbuf,wvalue);
753
754         /* Scan the exponent one window at a time starting from the most
755          * significant bits.
756          */
757         while (bits >= 0)
758                 {
759                 for (wvalue=0, i=0; i<5; i++,bits--)
760                         wvalue = (wvalue<<1)+BN_is_bit_set(p,bits);
761
762                 if ((*worker)(tmp.d,np,n0,powerbuf,wvalue)) continue;
763                 /* retry once and fall back */
764                 if ((*worker)(tmp.d,np,n0,powerbuf,wvalue)) continue;
765                 bn_mul_mont_t4(tmp.d,tmp.d,tmp.d,np,n0,top);
766                 bn_mul_mont_t4(tmp.d,tmp.d,tmp.d,np,n0,top);
767                 bn_mul_mont_t4(tmp.d,tmp.d,tmp.d,np,n0,top);
768                 bn_mul_mont_t4(tmp.d,tmp.d,tmp.d,np,n0,top);
769                 bn_mul_mont_t4(tmp.d,tmp.d,tmp.d,np,n0,top);
770                 bn_mul_mont_gather5_t4(tmp.d,tmp.d,powerbuf,np,n0,top,wvalue);
771                 }
772
773         bn_flip_t4(tmp.d,tmp.d,top);
774         top *= 2;
775         /* back to 32-bit domain */
776         tmp.top=top;
777         bn_correct_top(&tmp);
778         OPENSSL_cleanse(np,top*sizeof(BN_ULONG));
779         }
780     else
781 #endif
782 #if defined(OPENSSL_BN_ASM_MONT5)
783     /* This optimization uses ideas from http://eprint.iacr.org/2011/239,
784      * specifically optimization of cache-timing attack countermeasures
785      * and pre-computation optimization. */
786
787     /* Dedicated window==4 case improves 512-bit RSA sign by ~15%, but as
788      * 512-bit RSA is hardly relevant, we omit it to spare size... */ 
789     if (window==5)
790         {
791         void bn_mul_mont_gather5(BN_ULONG *rp,const BN_ULONG *ap,
792                         const void *table,const BN_ULONG *np,
793                         const BN_ULONG *n0,int num,int power);
794         void bn_scatter5(const BN_ULONG *inp,size_t num,
795                         void *table,size_t power);
796         void bn_gather5(BN_ULONG *out,size_t num,
797                         void *table,size_t power);
798
799         BN_ULONG *np=mont->N.d, *n0=mont->n0;
800
801         /* BN_to_montgomery can contaminate words above .top
802          * [in BN_DEBUG[_DEBUG] build]... */
803         for (i=am.top; i<top; i++)      am.d[i]=0;
804         for (i=tmp.top; i<top; i++)     tmp.d[i]=0;
805
806         bn_scatter5(tmp.d,top,powerbuf,0);
807         bn_scatter5(am.d,am.top,powerbuf,1);
808         bn_mul_mont(tmp.d,am.d,am.d,np,n0,top);
809         bn_scatter5(tmp.d,top,powerbuf,2);
810
811 #if 0
812         for (i=3; i<32; i++)
813                 {
814                 /* Calculate a^i = a^(i-1) * a */
815                 bn_mul_mont_gather5(tmp.d,am.d,powerbuf,np,n0,top,i-1);
816                 bn_scatter5(tmp.d,top,powerbuf,i);
817                 }
818 #else
819         /* same as above, but uses squaring for 1/2 of operations */
820         for (i=4; i<32; i*=2)
821                 {
822                 bn_mul_mont(tmp.d,tmp.d,tmp.d,np,n0,top);
823                 bn_scatter5(tmp.d,top,powerbuf,i);
824                 }
825         for (i=3; i<8; i+=2)
826                 {
827                 int j;
828                 bn_mul_mont_gather5(tmp.d,am.d,powerbuf,np,n0,top,i-1);
829                 bn_scatter5(tmp.d,top,powerbuf,i);
830                 for (j=2*i; j<32; j*=2)
831                         {
832                         bn_mul_mont(tmp.d,tmp.d,tmp.d,np,n0,top);
833                         bn_scatter5(tmp.d,top,powerbuf,j);
834                         }
835                 }
836         for (; i<16; i+=2)
837                 {
838                 bn_mul_mont_gather5(tmp.d,am.d,powerbuf,np,n0,top,i-1);
839                 bn_scatter5(tmp.d,top,powerbuf,i);
840                 bn_mul_mont(tmp.d,tmp.d,tmp.d,np,n0,top);
841                 bn_scatter5(tmp.d,top,powerbuf,2*i);
842                 }
843         for (; i<32; i+=2)
844                 {
845                 bn_mul_mont_gather5(tmp.d,am.d,powerbuf,np,n0,top,i-1);
846                 bn_scatter5(tmp.d,top,powerbuf,i);
847                 }
848 #endif
849         bits--;
850         for (wvalue=0, i=bits%5; i>=0; i--,bits--)
851                 wvalue = (wvalue<<1)+BN_is_bit_set(p,bits);
852         bn_gather5(tmp.d,top,powerbuf,wvalue);
853
854         /* Scan the exponent one window at a time starting from the most
855          * significant bits.
856          */
857         while (bits >= 0)
858                 {
859                 for (wvalue=0, i=0; i<5; i++,bits--)
860                         wvalue = (wvalue<<1)+BN_is_bit_set(p,bits);
861
862                 bn_mul_mont(tmp.d,tmp.d,tmp.d,np,n0,top);
863                 bn_mul_mont(tmp.d,tmp.d,tmp.d,np,n0,top);
864                 bn_mul_mont(tmp.d,tmp.d,tmp.d,np,n0,top);
865                 bn_mul_mont(tmp.d,tmp.d,tmp.d,np,n0,top);
866                 bn_mul_mont(tmp.d,tmp.d,tmp.d,np,n0,top);
867                 bn_mul_mont_gather5(tmp.d,tmp.d,powerbuf,np,n0,top,wvalue);
868                 }
869
870         tmp.top=top;
871         bn_correct_top(&tmp);
872         }
873     else
874 #endif
875         {
876         if (!MOD_EXP_CTIME_COPY_TO_PREBUF(&tmp, top, powerbuf, 0, numPowers)) goto err;
877         if (!MOD_EXP_CTIME_COPY_TO_PREBUF(&am,  top, powerbuf, 1, numPowers)) goto err;
878
879         /* If the window size is greater than 1, then calculate
880          * val[i=2..2^winsize-1]. Powers are computed as a*a^(i-1)
881          * (even powers could instead be computed as (a^(i/2))^2
882          * to use the slight performance advantage of sqr over mul).
883          */
884         if (window > 1)
885                 {
886                 if (!BN_mod_mul_montgomery(&tmp,&am,&am,mont,ctx))      goto err;
887                 if (!MOD_EXP_CTIME_COPY_TO_PREBUF(&tmp, top, powerbuf, 2, numPowers)) goto err;
888                 for (i=3; i<numPowers; i++)
889                         {
890                         /* Calculate a^i = a^(i-1) * a */
891                         if (!BN_mod_mul_montgomery(&tmp,&am,&tmp,mont,ctx))
892                                 goto err;
893                         if (!MOD_EXP_CTIME_COPY_TO_PREBUF(&tmp, top, powerbuf, i, numPowers)) goto err;
894                         }
895                 }
896
897         bits--;
898         for (wvalue=0, i=bits%window; i>=0; i--,bits--)
899                 wvalue = (wvalue<<1)+BN_is_bit_set(p,bits);
900         if (!MOD_EXP_CTIME_COPY_FROM_PREBUF(&tmp,top,powerbuf,wvalue,numPowers)) goto err;
901  
902         /* Scan the exponent one window at a time starting from the most
903          * significant bits.
904          */
905         while (bits >= 0)
906                 {
907                 wvalue=0; /* The 'value' of the window */
908                 
909                 /* Scan the window, squaring the result as we go */
910                 for (i=0; i<window; i++,bits--)
911                         {
912                         if (!BN_mod_mul_montgomery(&tmp,&tmp,&tmp,mont,ctx))    goto err;
913                         wvalue = (wvalue<<1)+BN_is_bit_set(p,bits);
914                         }
915                 
916                 /* Fetch the appropriate pre-computed value from the pre-buf */
917                 if (!MOD_EXP_CTIME_COPY_FROM_PREBUF(&am, top, powerbuf, wvalue, numPowers)) goto err;
918
919                 /* Multiply the result into the intermediate result */
920                 if (!BN_mod_mul_montgomery(&tmp,&tmp,&am,mont,ctx)) goto err;
921                 }
922         }
923
924         /* Convert the final result from montgomery to standard format */
925         if (!BN_from_montgomery(rr,&tmp,mont,ctx)) goto err;
926         ret=1;
927 err:
928         if ((in_mont == NULL) && (mont != NULL)) BN_MONT_CTX_free(mont);
929         if (powerbuf!=NULL)
930                 {
931                 OPENSSL_cleanse(powerbuf,powerbufLen);
932                 if (powerbufFree) OPENSSL_free(powerbufFree);
933                 }
934         BN_CTX_end(ctx);
935         return(ret);
936         }
937
938 int BN_mod_exp_mont_word(BIGNUM *rr, BN_ULONG a, const BIGNUM *p,
939                          const BIGNUM *m, BN_CTX *ctx, BN_MONT_CTX *in_mont)
940         {
941         BN_MONT_CTX *mont = NULL;
942         int b, bits, ret=0;
943         int r_is_one;
944         BN_ULONG w, next_w;
945         BIGNUM *d, *r, *t;
946         BIGNUM *swap_tmp;
947 #define BN_MOD_MUL_WORD(r, w, m) \
948                 (BN_mul_word(r, (w)) && \
949                 (/* BN_ucmp(r, (m)) < 0 ? 1 :*/  \
950                         (BN_mod(t, r, m, ctx) && (swap_tmp = r, r = t, t = swap_tmp, 1))))
951                 /* BN_MOD_MUL_WORD is only used with 'w' large,
952                  * so the BN_ucmp test is probably more overhead
953                  * than always using BN_mod (which uses BN_copy if
954                  * a similar test returns true). */
955                 /* We can use BN_mod and do not need BN_nnmod because our
956                  * accumulator is never negative (the result of BN_mod does
957                  * not depend on the sign of the modulus).
958                  */
959 #define BN_TO_MONTGOMERY_WORD(r, w, mont) \
960                 (BN_set_word(r, (w)) && BN_to_montgomery(r, r, (mont), ctx))
961
962         if (BN_get_flags(p, BN_FLG_CONSTTIME) != 0)
963                 {
964                 /* BN_FLG_CONSTTIME only supported by BN_mod_exp_mont() */
965                 BNerr(BN_F_BN_MOD_EXP_MONT_WORD,ERR_R_SHOULD_NOT_HAVE_BEEN_CALLED);
966                 return -1;
967                 }
968
969         bn_check_top(p);
970         bn_check_top(m);
971
972         if (!BN_is_odd(m))
973                 {
974                 BNerr(BN_F_BN_MOD_EXP_MONT_WORD,BN_R_CALLED_WITH_EVEN_MODULUS);
975                 return(0);
976                 }
977         if (m->top == 1)
978                 a %= m->d[0]; /* make sure that 'a' is reduced */
979
980         bits = BN_num_bits(p);
981         if (bits == 0)
982                 {
983                 /* x**0 mod 1 is still zero. */
984                 if (BN_is_one(m))
985                         {
986                         ret = 1;
987                         BN_zero(rr);
988                         }
989                 else
990                         ret = BN_one(rr);
991                 return ret;
992                 }
993         if (a == 0)
994                 {
995                 BN_zero(rr);
996                 ret = 1;
997                 return ret;
998                 }
999
1000         BN_CTX_start(ctx);
1001         d = BN_CTX_get(ctx);
1002         r = BN_CTX_get(ctx);
1003         t = BN_CTX_get(ctx);
1004         if (d == NULL || r == NULL || t == NULL) goto err;
1005
1006         if (in_mont != NULL)
1007                 mont=in_mont;
1008         else
1009                 {
1010                 if ((mont = BN_MONT_CTX_new()) == NULL) goto err;
1011                 if (!BN_MONT_CTX_set(mont, m, ctx)) goto err;
1012                 }
1013
1014         r_is_one = 1; /* except for Montgomery factor */
1015
1016         /* bits-1 >= 0 */
1017
1018         /* The result is accumulated in the product r*w. */
1019         w = a; /* bit 'bits-1' of 'p' is always set */
1020         for (b = bits-2; b >= 0; b--)
1021                 {
1022                 /* First, square r*w. */
1023                 next_w = w*w;
1024                 if ((next_w/w) != w) /* overflow */
1025                         {
1026                         if (r_is_one)
1027                                 {
1028                                 if (!BN_TO_MONTGOMERY_WORD(r, w, mont)) goto err;
1029                                 r_is_one = 0;
1030                                 }
1031                         else
1032                                 {
1033                                 if (!BN_MOD_MUL_WORD(r, w, m)) goto err;
1034                                 }
1035                         next_w = 1;
1036                         }
1037                 w = next_w;
1038                 if (!r_is_one)
1039                         {
1040                         if (!BN_mod_mul_montgomery(r, r, r, mont, ctx)) goto err;
1041                         }
1042
1043                 /* Second, multiply r*w by 'a' if exponent bit is set. */
1044                 if (BN_is_bit_set(p, b))
1045                         {
1046                         next_w = w*a;
1047                         if ((next_w/a) != w) /* overflow */
1048                                 {
1049                                 if (r_is_one)
1050                                         {
1051                                         if (!BN_TO_MONTGOMERY_WORD(r, w, mont)) goto err;
1052                                         r_is_one = 0;
1053                                         }
1054                                 else
1055                                         {
1056                                         if (!BN_MOD_MUL_WORD(r, w, m)) goto err;
1057                                         }
1058                                 next_w = a;
1059                                 }
1060                         w = next_w;
1061                         }
1062                 }
1063
1064         /* Finally, set r:=r*w. */
1065         if (w != 1)
1066                 {
1067                 if (r_is_one)
1068                         {
1069                         if (!BN_TO_MONTGOMERY_WORD(r, w, mont)) goto err;
1070                         r_is_one = 0;
1071                         }
1072                 else
1073                         {
1074                         if (!BN_MOD_MUL_WORD(r, w, m)) goto err;
1075                         }
1076                 }
1077
1078         if (r_is_one) /* can happen only if a == 1*/
1079                 {
1080                 if (!BN_one(rr)) goto err;
1081                 }
1082         else
1083                 {
1084                 if (!BN_from_montgomery(rr, r, mont, ctx)) goto err;
1085                 }
1086         ret = 1;
1087 err:
1088         if ((in_mont == NULL) && (mont != NULL)) BN_MONT_CTX_free(mont);
1089         BN_CTX_end(ctx);
1090         bn_check_top(rr);
1091         return(ret);
1092         }
1093
1094
1095 /* The old fallback, simple version :-) */
1096 int BN_mod_exp_simple(BIGNUM *r, const BIGNUM *a, const BIGNUM *p,
1097                 const BIGNUM *m, BN_CTX *ctx)
1098         {
1099         int i,j,bits,ret=0,wstart,wend,window,wvalue;
1100         int start=1;
1101         BIGNUM *d;
1102         /* Table of variables obtained from 'ctx' */
1103         BIGNUM *val[TABLE_SIZE];
1104
1105         if (BN_get_flags(p, BN_FLG_CONSTTIME) != 0)
1106                 {
1107                 /* BN_FLG_CONSTTIME only supported by BN_mod_exp_mont() */
1108                 BNerr(BN_F_BN_MOD_EXP_SIMPLE,ERR_R_SHOULD_NOT_HAVE_BEEN_CALLED);
1109                 return -1;
1110                 }
1111
1112         bits=BN_num_bits(p);
1113
1114         if (bits == 0)
1115                 {
1116                 ret = BN_one(r);
1117                 return ret;
1118                 }
1119
1120         BN_CTX_start(ctx);
1121         d = BN_CTX_get(ctx);
1122         val[0] = BN_CTX_get(ctx);
1123         if(!d || !val[0]) goto err;
1124
1125         if (!BN_nnmod(val[0],a,m,ctx)) goto err;                /* 1 */
1126         if (BN_is_zero(val[0]))
1127                 {
1128                 BN_zero(r);
1129                 ret = 1;
1130                 goto err;
1131                 }
1132
1133         window = BN_window_bits_for_exponent_size(bits);
1134         if (window > 1)
1135                 {
1136                 if (!BN_mod_mul(d,val[0],val[0],m,ctx))
1137                         goto err;                               /* 2 */
1138                 j=1<<(window-1);
1139                 for (i=1; i<j; i++)
1140                         {
1141                         if(((val[i] = BN_CTX_get(ctx)) == NULL) ||
1142                                         !BN_mod_mul(val[i],val[i-1],d,m,ctx))
1143                                 goto err;
1144                         }
1145                 }
1146
1147         start=1;        /* This is used to avoid multiplication etc
1148                          * when there is only the value '1' in the
1149                          * buffer. */
1150         wvalue=0;       /* The 'value' of the window */
1151         wstart=bits-1;  /* The top bit of the window */
1152         wend=0;         /* The bottom bit of the window */
1153
1154         if (!BN_one(r)) goto err;
1155
1156         for (;;)
1157                 {
1158                 if (BN_is_bit_set(p,wstart) == 0)
1159                         {
1160                         if (!start)
1161                                 if (!BN_mod_mul(r,r,r,m,ctx))
1162                                 goto err;
1163                         if (wstart == 0) break;
1164                         wstart--;
1165                         continue;
1166                         }
1167                 /* We now have wstart on a 'set' bit, we now need to work out
1168                  * how bit a window to do.  To do this we need to scan
1169                  * forward until the last set bit before the end of the
1170                  * window */
1171                 j=wstart;
1172                 wvalue=1;
1173                 wend=0;
1174                 for (i=1; i<window; i++)
1175                         {
1176                         if (wstart-i < 0) break;
1177                         if (BN_is_bit_set(p,wstart-i))
1178                                 {
1179                                 wvalue<<=(i-wend);
1180                                 wvalue|=1;
1181                                 wend=i;
1182                                 }
1183                         }
1184
1185                 /* wend is the size of the current window */
1186                 j=wend+1;
1187                 /* add the 'bytes above' */
1188                 if (!start)
1189                         for (i=0; i<j; i++)
1190                                 {
1191                                 if (!BN_mod_mul(r,r,r,m,ctx))
1192                                         goto err;
1193                                 }
1194                 
1195                 /* wvalue will be an odd number < 2^window */
1196                 if (!BN_mod_mul(r,r,val[wvalue>>1],m,ctx))
1197                         goto err;
1198
1199                 /* move the 'window' down further */
1200                 wstart-=wend+1;
1201                 wvalue=0;
1202                 start=0;
1203                 if (wstart < 0) break;
1204                 }
1205         ret=1;
1206 err:
1207         BN_CTX_end(ctx);
1208         bn_check_top(r);
1209         return(ret);
1210         }