Support for SPARC T4 MONT[MUL|SQR] instructions.
[openssl.git] / crypto / bn / asm / sparct4-mont.pl
1 #!/usr/bin/env perl
2
3 # ====================================================================
4 # Written by David S. Miller <davem@devemloft.net> and Andy Polyakov
5 # <appro@openssl.org>. The module is licensed under 2-clause BSD
6 # license. November 2012. All rights reserved.
7 # ====================================================================
8
9 ######################################################################
10 # Montgomery squaring-n-multiplication module for SPARC T4.
11 #
12 # The module consists of three parts:
13 #
14 # 1) collection of "single-op" subroutines that perform single
15 #    operation, Montgomery squaring or multiplication, on 512-,
16 #    1024-, 1536- and 2048-bit operands;
17 # 2) collection of "multi-op" subroutines that perform 5 squaring and
18 #    1 multiplication operations on operands of above lengths;
19 # 3) fall-back and helper VIS3 subroutines.
20 #
21 # RSA sign is dominated by multi-op subroutine, while RSA verify and
22 # DSA - by single-op. Special note about 4096-bit RSA verify result.
23 # Operands are too long for dedicated hardware and it's handled by
24 # VIS3 code, which is why you don't see any improvement. It's surely
25 # possible to improve it [by deploying 'mpmul' instruction], maybe in
26 # the future...
27 #
28 # Performance improvement.
29 #
30 # 64-bit process, VIS3:
31 #                   sign    verify    sign/s verify/s
32 # rsa 1024 bits 0.000633s 0.000033s   1578.9  30513.3
33 # rsa 2048 bits 0.003297s 0.000116s    303.3   8585.8
34 # rsa 4096 bits 0.026000s 0.000387s     38.5   2587.0
35 # dsa 1024 bits 0.000301s 0.000332s   3323.7   3013.9
36 # dsa 2048 bits 0.001056s 0.001233s    946.9    810.8
37 #
38 # 64-bit process, this module:
39 #                   sign    verify    sign/s verify/s
40 # rsa 1024 bits 0.000341s 0.000021s   2931.5  46873.8
41 # rsa 2048 bits 0.001244s 0.000044s    803.9  22569.1
42 # rsa 4096 bits 0.006203s 0.000387s    161.2   2586.3
43 # dsa 1024 bits 0.000179s 0.000195s   5573.9   5115.6
44 # dsa 2048 bits 0.000311s 0.000350s   3212.3   2856.6
45 #
46 ######################################################################
47 # 32-bit process, VIS3:
48 #                   sign    verify    sign/s verify/s
49 # rsa 1024 bits 0.000675s 0.000033s   1480.9  30159.0
50 # rsa 2048 bits 0.003383s 0.000118s    295.6   8499.9
51 # rsa 4096 bits 0.026178s 0.000394s     38.2   2541.3
52 # dsa 1024 bits 0.000326s 0.000343s   3070.0   2918.8
53 # dsa 2048 bits 0.001121s 0.001291s    891.9    774.4
54 #
55 # 32-bit process, this module:
56 #                   sign    verify    sign/s verify/s
57 # rsa 1024 bits 0.000386s 0.000022s   2589.6  45704.9
58 # rsa 2048 bits 0.001335s 0.000046s    749.3  21766.8
59 # rsa 4096 bits 0.006390s 0.000393s    156.5   2544.8
60 # dsa 1024 bits 0.000208s 0.000204s   4817.6   4896.6
61 # dsa 2048 bits 0.000345s 0.000364s   2898.8   2747.3
62 #
63 # 32-bit code is prone to performance degradation as interrupt rate
64 # dispatched to CPU executing the code grows. This is because in
65 # standard process of handling interrupt in 32-bit process context
66 # upper halves of most integer registers used as input or output are
67 # zeroed. This renders result invalid, and operation has to be re-run.
68 # If CPU is "bothered" with timer interrupts only, the penalty is
69 # hardly measurable. But in order to mitigate this problem for higher
70 # interrupt rates contemporary Linux kernel recognizes biased stack
71 # even in 32-bit process context and preserves full register contents.
72 # See http://git.kernel.org/?p=linux/kernel/git/torvalds/linux.git;h=517ffce4e1a03aea979fe3a18a3dd1761a24fafb
73 # for details.
74
75 $0 =~ m/(.*[\/\\])[^\/\\]+$/; $dir=$1;
76 push(@INC,"${dir}","${dir}../../perlasm");
77 require "sparcv9_modes.pl";
78
79 $code.=<<___;
80 #include "sparc_arch.h"
81
82 #ifdef  __arch64__
83 .register       %g2,#scratch
84 .register       %g3,#scratch
85 #endif
86
87 .section        ".text",#alloc,#execinstr
88
89 #ifdef  __PIC__
90 SPARC_PIC_THUNK(%g1)
91 #endif
92 ___
93
94 ########################################################################
95 # Register layout for mont[mul|sqr] instructions.
96 # For details see "Oracle SPARC Architecture 2011" manual at
97 # http://www.oracle.com/technetwork/server-storage/sun-sparc-enterprise/documentation/.
98 #
99 my @R=map("%f".2*$_,(0..11,30,31,12..29));
100 my @N=(map("%l$_",(0..7)),map("%o$_",(0..5))); @N=(@N,@N,@N[0..3]);
101 my @B=(map("%o$_",(0..5)),@N[0..13],@N[0..11]);
102 my @A=(@N[0..13],@R[14..31]);
103 \f
104 ########################################################################
105 # int bn_mul_mont_t4_$NUM(u64 *rp,const u64 *ap,const u64 *bp,
106 #                         const u64 *np,const BN_ULONG *n0);
107 #
108 sub generate_bn_mul_mont_t4() {
109 my $NUM=shift;
110 my ($rp,$ap,$bp,$np,$sentinel)=map("%g$_",(1..5));
111
112 $code.=<<___;
113 .globl  bn_mul_mont_t4_$NUM
114 .align  32
115 bn_mul_mont_t4_$NUM:
116 #ifdef  __arch64__
117         mov     0,$sentinel
118         mov     -128,%g4
119 #elif defined(SPARCV9_64BIT_STACK)
120         SPARC_LOAD_ADDRESS_LEAF(OPENSSL_sparcv9cap_P,%g1,%g5)
121         ld      [%g1+0],%g1     ! OPENSSL_sparcv9_P[0]
122         mov     -2047,%g4
123         and     %g1,SPARCV9_64BIT_STACK,%g1
124         movrz   %g1,0,%g4
125         mov     -1,$sentinel
126         add     %g4,-128,%g4
127 #else
128         mov     -1,$sentinel
129         mov     -128,%g4
130 #endif
131         sllx    $sentinel,32,$sentinel
132         save    %sp,%g4,%sp
133 #ifndef __arch64__
134         save    %sp,-128,%sp    ! warm it up
135         save    %sp,-128,%sp
136         save    %sp,-128,%sp
137         save    %sp,-128,%sp
138         save    %sp,-128,%sp
139         save    %sp,-128,%sp
140         restore
141         restore
142         restore
143         restore
144         restore
145         restore
146 #endif
147         and     %sp,1,%g4
148         or      $sentinel,%fp,%fp
149         or      %g4,$sentinel,$sentinel
150
151         ! copy arguments to global registers
152         mov     %i0,$rp
153         mov     %i1,$ap
154         mov     %i2,$bp
155         mov     %i3,$np
156         ld      [%i4+0],%f1     ! load *n0
157         ld      [%i4+4],%f0
158         fsrc2   %f0,%f60
159 ___
160 \f
161 # load ap[$NUM] ########################################################
162 $code.=<<___;
163         save    %sp,-128,%sp;           or      $sentinel,%fp,%fp
164 ___
165 for($i=0; $i<14 && $i<$NUM; $i++) {
166 my $lo=$i<13?@A[$i+1]:"%o7";
167 $code.=<<___;
168         ld      [$ap+$i*8+0],$lo
169         ld      [$ap+$i*8+4],@A[$i]
170         sllx    @A[$i],32,@A[$i]
171         or      $lo,@A[$i],@A[$i]
172 ___
173 }
174 for(; $i<$NUM; $i++) {
175 my ($hi,$lo)=("%f".2*($i%4),"%f".(2*($i%4)+1));
176 $code.=<<___;
177         ld      [$ap+$i*8+0],$lo
178         ld      [$ap+$i*8+4],$hi
179         fsrc2   $hi,@A[$i]
180 ___
181 }
182 # load np[$NUM] ########################################################
183 $code.=<<___;
184         save    %sp,-128,%sp;           or      $sentinel,%fp,%fp
185 ___
186 for($i=0; $i<14 && $i<$NUM; $i++) {
187 my $lo=$i<13?@N[$i+1]:"%o7";
188 $code.=<<___;
189         ld      [$np+$i*8+0],$lo
190         ld      [$np+$i*8+4],@N[$i]
191         sllx    @N[$i],32,@N[$i]
192         or      $lo,@N[$i],@N[$i]
193 ___
194 }
195 $code.=<<___;
196         save    %sp,-128,%sp;           or      $sentinel,%fp,%fp
197 ___
198 for(; $i<28 && $i<$NUM; $i++) {
199 my $lo=$i<27?@N[$i+1]:"%o7";
200 $code.=<<___;
201         ld      [$np+$i*8+0],$lo
202         ld      [$np+$i*8+4],@N[$i]
203         sllx    @N[$i],32,@N[$i]
204         or      $lo,@N[$i],@N[$i]
205 ___
206 }
207 $code.=<<___;
208         save    %sp,-128,%sp;           or      $sentinel,%fp,%fp
209 ___
210 for(; $i<$NUM; $i++) {
211 my $lo=($i<$NUM-1)?@N[$i+1]:"%o7";
212 $code.=<<___;
213         ld      [$np+$i*8+0],$lo
214         ld      [$np+$i*8+4],@N[$i]
215         sllx    @N[$i],32,@N[$i]
216         or      $lo,@N[$i],@N[$i]
217 ___
218 }
219 $code.=<<___;
220         cmp     $ap,$bp
221         be      SIZE_T_CC,.Lmsquare_$NUM
222         nop
223 ___
224 \f
225 # load bp[$NUM] ########################################################
226 for($i=0; $i<6 && $i<$NUM; $i++) {
227 my $lo=$i<5?@B[$i+1]:"%o7";
228 $code.=<<___;
229         ld      [$bp+$i*8+0],$lo
230         ld      [$bp+$i*8+4],@B[$i]
231         sllx    @B[$i],32,@B[$i]
232         or      $lo,@B[$i],@B[$i]
233 ___
234 }
235 $code.=<<___;
236         save    %sp,-128,%sp;           or      $sentinel,%fp,%fp
237 ___
238 for(; $i<20 && $i<$NUM; $i++) {
239 my $lo=$i<19?@B[$i+1]:"%o7";
240 $code.=<<___;
241         ld      [$bp+$i*8+0],$lo
242         ld      [$bp+$i*8+4],@B[$i]
243         sllx    @B[$i],32,@B[$i]
244         or      $lo,@B[$i],@B[$i]
245 ___
246 }
247 $code.=<<___;
248         save    %sp,-128,%sp;           or      $sentinel,%fp,%fp
249 ___
250 for(; $i<$NUM; $i++) {
251 my $lo=($i<$NUM-1)?@B[$i+1]:"%o7";
252 $code.=<<___;
253         ld      [$bp+$i*8+0],$lo
254         ld      [$bp+$i*8+4],@B[$i]
255         sllx    @B[$i],32,@B[$i]
256         or      $lo,@B[$i],@B[$i]
257 ___
258 }
259 # magic ################################################################
260 $code.=<<___;
261         .word   0x81b02920+$NUM-1       ! montmul       $NUM-1
262 .Lmresume_$NUM:
263         fbu,pn  %fcc3,.Lmabort_$NUM
264 #ifndef __arch64__
265         and     %fp,$sentinel,$sentinel
266         brz,pn  $sentinel,.Lmabort_$NUM
267 #endif
268         nop
269 #ifdef  __arch64__
270         restore
271         restore
272         restore
273         restore
274         restore
275 #else
276         restore;                and     %fp,$sentinel,$sentinel
277         restore;                and     %fp,$sentinel,$sentinel
278         restore;                and     %fp,$sentinel,$sentinel
279         restore;                and     %fp,$sentinel,$sentinel
280          brz,pn $sentinel,.Lmabort1_$NUM
281         restore
282 #endif
283 ___
284 \f
285 # save tp[$NUM] ########################################################
286 for($i=0; $i<14 && $i<$NUM; $i++) {
287 $code.=<<___;
288         movxtod @A[$i],@R[$i]
289 ___
290 }
291 $code.=<<___;
292 #ifdef  __arch64__
293         restore
294 #else
295          and    %fp,$sentinel,$sentinel
296         restore
297          and    $sentinel,1,%o7
298          and    %fp,$sentinel,$sentinel
299          srl    %fp,0,%fp               ! just in case?
300          or     %o7,$sentinel,$sentinel
301         brz,a,pn $sentinel,.Lmdone_$NUM
302         mov     0,%i0           ! return failure
303 #endif
304 ___
305 for($i=0; $i<12 && $i<$NUM; $i++) {
306 @R[$i] =~ /%f([0-9]+)/;
307 my $lo = "%f".($1+1);
308 $code.=<<___;
309         st      $lo,[$rp+$i*8+0]
310         st      @R[$i],[$rp+$i*8+4]
311 ___
312 }
313 for(; $i<$NUM; $i++) {
314 my ($hi,$lo)=("%f".2*($i%4),"%f".(2*($i%4)+1));
315 $code.=<<___;
316         fsrc2   @R[$i],$hi
317         st      $lo,[$rp+$i*8+0]
318         st      $hi,[$rp+$i*8+4]
319 ___
320 }
321 $code.=<<___;
322         mov     1,%i0           ! return success
323 .Lmdone_$NUM:
324         ret
325         restore
326
327 .Lmabort_$NUM:
328         restore
329         restore
330         restore
331         restore
332         restore
333 .Lmabort1_$NUM:
334         restore
335
336         mov     0,%i0           ! return failure
337         ret
338         restore
339
340 .align  32
341 .Lmsquare_$NUM:
342         save    %sp,-128,%sp;           or      $sentinel,%fp,%fp
343         save    %sp,-128,%sp;           or      $sentinel,%fp,%fp
344         .word   0x81b02940+$NUM-1       ! montsqr       $NUM-1
345         ba      .Lmresume_$NUM
346         nop
347 .type   bn_mul_mont_t4_$NUM, #function
348 .size   bn_mul_mont_t4_$NUM, .-bn_mul_mont_t4_$NUM
349 ___
350 }
351
352 for ($i=8;$i<=32;$i+=8) {
353         &generate_bn_mul_mont_t4($i);
354 }
355 \f
356 ########################################################################
357 #
358 sub load_fcc() {
359 my ($ptbl,$pwr,$tmp)=@_;
360 $code.=<<___;
361         sethi   %hi(.Lmagic-1f),$tmp
362 1:      call    .+8
363         add     %o7,    $tmp,   %o7
364         inc     %lo(.Lmagic-1b),%o7
365         and     $pwr,   7<<2,   $tmp    ! offset within "magic table"
366         add     $tmp,   %o7,    %o7
367         and     $pwr,   3,      $tmp
368         sll     $tmp,   3,      $tmp    ! offset within first cache line
369         add     $tmp,   $ptbl,  $ptbl   ! of the pwrtbl
370
371         ! "magic table" is organized in such way that below comparisons
372         ! make %fcc3:%fcc2:%fcc1:%fcc0 form a byte of 1s with one 0,
373         ! e.g. 0b11011111, with 0 denoting relevant cache line.
374         ld      [%o7+0],        %f0     ! load column
375         ld      [%o7+32],       %f1
376         ld      [%o7+64],       %f2
377         fcmps   %fcc0,  %f0,    %f1
378         ld      [%o7+96],       %f3
379         fcmps   %fcc1,  %f1,    %f2
380         fcmps   %fcc2,  %f2,    %f3
381         fcmps   %fcc3,  %f3,    %f0
382 ___
383 }
384 sub load_f16() {
385 my $ptbl=shift;
386 $code.=<<___;
387         ldd     [$ptbl+0*32],%f0        ! load all cache lines
388         ldd     [$ptbl+1*32],%f2
389         ldd     [$ptbl+2*32],%f4
390         fmovdg  %fcc0,%f0,%f16          ! pick one value
391         ldd     [$ptbl+3*32],%f6
392         fmovdl  %fcc0,%f2,%f16
393         ldd     [$ptbl+4*32],%f8
394         fmovdg  %fcc1,%f4,%f16
395         ldd     [$ptbl+5*32],%f10
396         fmovdl  %fcc1,%f6,%f16
397         ldd     [$ptbl+6*32],%f12
398         fmovdg  %fcc2,%f8,%f16
399         ldd     [$ptbl+7*32],%f14
400         fmovdl  %fcc2,%f10,%f16
401         fmovdg  %fcc3,%f12,%f16
402         fmovdl  %fcc3,%f14,%f16
403         add     $ptbl,8*32,$ptbl
404 ___
405 }
406 \f
407 ########################################################################
408 # int bn_pwr5_mont_t4_$NUM(u64 *tp,const u64 *np,const BN_ULONG *n0,
409 #                          const u64 *pwrtbl,int pwr);
410 #
411 sub generate_bn_pwr5_mont_t4() {
412 my $NUM=shift;
413 my ($tp,$np,$pwrtbl,$pwr,$sentinel)=map("%g$_",(1..5));
414
415 $code.=<<___;
416 .globl  bn_pwr5_mont_t4_$NUM
417 .align  32
418 bn_pwr5_mont_t4_$NUM:
419 #ifdef  __arch64__
420         mov     0,$sentinel
421         mov     -128,%g4
422 #elif defined(SPARCV9_64BIT_STACK)
423         SPARC_LOAD_ADDRESS_LEAF(OPENSSL_sparcv9cap_P,%g1,%g5)
424         ld      [%g1+0],%g1     ! OPENSSL_sparcv9_P[0]
425         mov     -2047,%g4
426         and     %g1,SPARCV9_64BIT_STACK,%g1
427         movrz   %g1,0,%g4
428         mov     -1,$sentinel
429         add     %g4,-128,%g4
430 #else
431         mov     -1,$sentinel
432         mov     -128,%g4
433 #endif
434         sllx    $sentinel,32,$sentinel
435         save    %sp,%g4,%sp
436 #ifndef __arch64__
437         save    %sp,-128,%sp    ! warm it up
438         save    %sp,-128,%sp
439         save    %sp,-128,%sp
440         save    %sp,-128,%sp
441         save    %sp,-128,%sp
442         save    %sp,-128,%sp
443         restore
444         restore
445         restore
446         restore
447         restore
448         restore
449 #endif
450         and     %sp,1,%g4
451         or      $sentinel,%fp,%fp
452         or      %g4,$sentinel,$sentinel
453
454         ! copy arguments to global registers
455         mov     %i0,$tp
456         mov     %i1,$np
457         ld      [%i2+0],%f1     ! load *n0
458         ld      [%i2+4],%f0
459         mov     %i3,$pwrtbl
460         mov     %i4,$pwr
461         fsrc2   %f0,%f60
462 ___
463 \f
464 # load tp[$NUM] ########################################################
465 $code.=<<___;
466         save    %sp,-128,%sp;           or      $sentinel,%fp,%fp
467 ___
468 for($i=0; $i<14 && $i<$NUM; $i++) {
469 $code.=<<___;
470         ldx     [$tp+$i*8],@A[$i]
471 ___
472 }
473 for(; $i<$NUM; $i++) {
474 $code.=<<___;
475         ldd     [$tp+$i*8],@A[$i]
476 ___
477 }
478 # load np[$NUM] ########################################################
479 $code.=<<___;
480         save    %sp,-128,%sp;           or      $sentinel,%fp,%fp
481 ___
482 for($i=0; $i<14 && $i<$NUM; $i++) {
483 $code.=<<___;
484         ldx     [$np+$i*8],@N[$i]
485 ___
486 }
487 $code.=<<___;
488         save    %sp,-128,%sp;           or      $sentinel,%fp,%fp
489 ___
490 for(; $i<28 && $i<$NUM; $i++) {
491 $code.=<<___;
492         ldx     [$np+$i*8],@N[$i]
493 ___
494 }
495 $code.=<<___;
496         save    %sp,-128,%sp;           or      $sentinel,%fp,%fp
497 ___
498 for(; $i<$NUM; $i++) {
499 $code.=<<___;
500         ldx     [$np+$i*8],@N[$i]
501 ___
502 }
503 # load pwrtbl[pwr] ########################################################
504         &load_fcc($pwrtbl,$pwr,@B[0]);
505 for($i=0; $i<6 && $i<$NUM; $i++) {
506         &load_f16($pwrtbl);
507 $code.=<<___;
508         movdtox %f16,@B[$i]
509 ___
510 }
511 $code.=<<___;
512         save    %sp,-128,%sp;           or      $sentinel,%fp,%fp
513 ___
514 for(; $i<20 && $i<$NUM; $i++) {
515         &load_f16($pwrtbl);
516 $code.=<<___;
517         movdtox %f16,@B[$i]
518 ___
519 }
520 $code.=<<___;
521         save    %sp,-128,%sp;           or      $sentinel,%fp,%fp
522 ___
523 for(; $i<$NUM; $i++) {
524         &load_f16($pwrtbl);
525 $code.=<<___;
526         movdtox %f16,@B[$i]
527 ___
528 }
529 \f
530 # magic ################################################################
531 for($i=0; $i<5; $i++) {
532 $code.=<<___;
533         .word   0x81b02940+$NUM-1       ! montsqr       $NUM-1
534         fbu,pn  %fcc3,.Labort_$NUM
535 #ifndef __arch64__
536         and     %fp,$sentinel,$sentinel
537         brz,pn  $sentinel,.Labort_$NUM
538 #endif
539         nop
540 ___
541 }
542 $code.=<<___;
543         .word   0x81b02920+$NUM-1       ! montmul       $NUM-1
544         fbu,pn  %fcc3,.Labort_$NUM
545 #ifndef __arch64__
546         and     %fp,$sentinel,$sentinel
547         brz,pn  $sentinel,.Labort_$NUM
548 #endif
549         nop
550
551 #ifdef  __arch64__
552         restore
553         restore
554         restore
555         restore
556         restore
557 #else
558         restore;                and     %fp,$sentinel,$sentinel
559         restore;                and     %fp,$sentinel,$sentinel
560         restore;                and     %fp,$sentinel,$sentinel
561         restore;                and     %fp,$sentinel,$sentinel
562          brz,pn $sentinel,.Labort1_$NUM
563         restore
564 #endif
565 ___
566 \f
567 # save tp[$NUM] ########################################################
568 for($i=0; $i<14 && $i<$NUM; $i++) {
569 $code.=<<___;
570         movxtod @A[$i],@R[$i]
571 ___
572 }
573 $code.=<<___;
574 #ifdef  __arch64__
575         restore
576 #else
577          and    %fp,$sentinel,$sentinel
578         restore
579          and    $sentinel,1,%o7
580          and    %fp,$sentinel,$sentinel
581          srl    %fp,0,%fp               ! just in case?
582          or     %o7,$sentinel,$sentinel
583         brz,a,pn $sentinel,.Ldone_$NUM
584         mov     0,%i0           ! return failure
585 #endif
586 ___
587 for($i=0; $i<$NUM; $i++) {
588 $code.=<<___;
589         std     @R[$i],[$tp+$i*8]
590 ___
591 }
592 $code.=<<___;
593         mov     1,%i0           ! return success
594 .Ldone_$NUM:
595         ret
596         restore
597
598 .Labort_$NUM:
599         restore
600         restore
601         restore
602         restore
603         restore
604 .Labort1_$NUM:
605         restore
606
607         mov     0,%i0           ! return failure
608         ret
609         restore
610 .type   bn_pwr5_mont_t4_$NUM, #function
611 .size   bn_pwr5_mont_t4_$NUM, .-bn_pwr5_mont_t4_$NUM
612 ___
613 }
614
615 for ($i=8;$i<=32;$i+=8) {
616         &generate_bn_pwr5_mont_t4($i);
617 }
618 \f
619 {
620 ########################################################################
621 # Fall-back subroutines
622 #
623 # copy of bn_mul_mont_vis3 adjusted for vectors of 64-bit values
624 #
625 ($n0,$m0,$m1,$lo0,$hi0, $lo1,$hi1,$aj,$alo,$nj,$nlo,$tj)=
626         (map("%g$_",(1..5)),map("%o$_",(0..5,7)));
627
628 # int bn_mul_mont(
629 $rp="%o0";      # u64 *rp,
630 $ap="%o1";      # const u64 *ap,
631 $bp="%o2";      # const u64 *bp,
632 $np="%o3";      # const u64 *np,
633 $n0p="%o4";     # const BN_ULONG *n0,
634 $num="%o5";     # int num);     # caller ensures that num is >=3
635 $code.=<<___;
636 .globl  bn_mul_mont_t4
637 .align  32
638 bn_mul_mont_t4:
639         add     %sp,    STACK_BIAS,     %g4     ! real top of stack
640         sll     $num,   3,      $num            ! size in bytes
641         add     $num,   63,     %g1
642         andn    %g1,    63,     %g1             ! buffer size rounded up to 64 bytes
643         sub     %g4,    %g1,    %g1
644         andn    %g1,    63,     %g1             ! align at 64 byte
645         sub     %g1,    STACK_FRAME,    %g1     ! new top of stack
646         sub     %g1,    %g4,    %g1
647
648         save    %sp,    %g1,    %sp
649 ___
650 #       +-------------------------------+<----- %sp
651 #       .                               .
652 #       +-------------------------------+<----- aligned at 64 bytes
653 #       | __int64 tmp[0]                |
654 #       +-------------------------------+
655 #       .                               .
656 #       .                               .
657 #       +-------------------------------+<----- aligned at 64 bytes
658 #       .                               .
659 ($rp,$ap,$bp,$np,$n0p,$num)=map("%i$_",(0..5));
660 ($t0,$t1,$t2,$t3,$cnt,$tp,$bufsz)=map("%l$_",(0..7));
661 ($ovf,$i)=($t0,$t1);
662 $code.=<<___;
663         ld      [$n0p+0],       $t0     ! pull n0[0..1] value
664         ld      [$n0p+4],       $t1
665         add     %sp, STACK_BIAS+STACK_FRAME, $tp
666         ldx     [$bp+0],        $m0     ! m0=bp[0]
667         sllx    $t1,    32,     $n0
668         add     $bp,    8,      $bp
669         or      $t0,    $n0,    $n0
670 \f
671         ldx     [$ap+0],        $aj     ! ap[0]
672
673         mulx    $aj,    $m0,    $lo0    ! ap[0]*bp[0]
674         umulxhi $aj,    $m0,    $hi0
675
676         ldx     [$ap+8],        $aj     ! ap[1]
677         add     $ap,    16,     $ap
678         ldx     [$np+0],        $nj     ! np[0]
679
680         mulx    $lo0,   $n0,    $m1     ! "tp[0]"*n0
681
682         mulx    $aj,    $m0,    $alo    ! ap[1]*bp[0]
683         umulxhi $aj,    $m0,    $aj     ! ahi=aj
684
685         mulx    $nj,    $m1,    $lo1    ! np[0]*m1
686         umulxhi $nj,    $m1,    $hi1
687
688         ldx     [$np+8],        $nj     ! np[1]
689
690         addcc   $lo0,   $lo1,   $lo1
691         add     $np,    16,     $np
692         addxc   %g0,    $hi1,   $hi1
693
694         mulx    $nj,    $m1,    $nlo    ! np[1]*m1
695         umulxhi $nj,    $m1,    $nj     ! nhi=nj
696 \f
697         ba      .L1st
698         sub     $num,   24,     $cnt    ! cnt=num-3
699
700 .align  16
701 .L1st:
702         addcc   $alo,   $hi0,   $lo0
703         addxc   $aj,    %g0,    $hi0
704
705         ldx     [$ap+0],        $aj     ! ap[j]
706         addcc   $nlo,   $hi1,   $lo1
707         add     $ap,    8,      $ap
708         addxc   $nj,    %g0,    $hi1    ! nhi=nj
709
710         ldx     [$np+0],        $nj     ! np[j]
711         mulx    $aj,    $m0,    $alo    ! ap[j]*bp[0]
712         add     $np,    8,      $np
713         umulxhi $aj,    $m0,    $aj     ! ahi=aj
714
715         mulx    $nj,    $m1,    $nlo    ! np[j]*m1
716         addcc   $lo0,   $lo1,   $lo1    ! np[j]*m1+ap[j]*bp[0]
717         umulxhi $nj,    $m1,    $nj     ! nhi=nj
718         addxc   %g0,    $hi1,   $hi1
719         stxa    $lo1,   [$tp]0xe2       ! tp[j-1]
720         add     $tp,    8,      $tp     ! tp++
721
722         brnz,pt $cnt,   .L1st
723         sub     $cnt,   8,      $cnt    ! j--
724 !.L1st
725         addcc   $alo,   $hi0,   $lo0
726         addxc   $aj,    %g0,    $hi0    ! ahi=aj
727
728         addcc   $nlo,   $hi1,   $lo1
729         addxc   $nj,    %g0,    $hi1
730         addcc   $lo0,   $lo1,   $lo1    ! np[j]*m1+ap[j]*bp[0]
731         addxc   %g0,    $hi1,   $hi1
732         stxa    $lo1,   [$tp]0xe2       ! tp[j-1]
733         add     $tp,    8,      $tp
734
735         addcc   $hi0,   $hi1,   $hi1
736         addxc   %g0,    %g0,    $ovf    ! upmost overflow bit
737         stxa    $hi1,   [$tp]0xe2
738         add     $tp,    8,      $tp
739 \f
740         ba      .Louter
741         sub     $num,   16,     $i      ! i=num-2
742
743 .align  16
744 .Louter:
745         ldx     [$bp+0],        $m0     ! m0=bp[i]
746         add     $bp,    8,      $bp
747
748         sub     $ap,    $num,   $ap     ! rewind
749         sub     $np,    $num,   $np
750         sub     $tp,    $num,   $tp
751
752         ldx     [$ap+0],        $aj     ! ap[0]
753         ldx     [$np+0],        $nj     ! np[0]
754
755         mulx    $aj,    $m0,    $lo0    ! ap[0]*bp[i]
756         ldx     [$tp],          $tj     ! tp[0]
757         umulxhi $aj,    $m0,    $hi0
758         ldx     [$ap+8],        $aj     ! ap[1]
759         addcc   $lo0,   $tj,    $lo0    ! ap[0]*bp[i]+tp[0]
760         mulx    $aj,    $m0,    $alo    ! ap[1]*bp[i]
761         addxc   %g0,    $hi0,   $hi0
762         mulx    $lo0,   $n0,    $m1     ! tp[0]*n0
763         umulxhi $aj,    $m0,    $aj     ! ahi=aj
764         mulx    $nj,    $m1,    $lo1    ! np[0]*m1
765         add     $ap,    16,     $ap
766         umulxhi $nj,    $m1,    $hi1
767         ldx     [$np+8],        $nj     ! np[1]
768         add     $np,    16,     $np
769         addcc   $lo1,   $lo0,   $lo1
770         mulx    $nj,    $m1,    $nlo    ! np[1]*m1
771         addxc   %g0,    $hi1,   $hi1
772         umulxhi $nj,    $m1,    $nj     ! nhi=nj
773 \f
774         ba      .Linner
775         sub     $num,   24,     $cnt    ! cnt=num-3
776 .align  16
777 .Linner:
778         addcc   $alo,   $hi0,   $lo0
779         ldx     [$tp+8],        $tj     ! tp[j]
780         addxc   $aj,    %g0,    $hi0    ! ahi=aj
781         ldx     [$ap+0],        $aj     ! ap[j]
782         add     $ap,    8,      $ap
783         addcc   $nlo,   $hi1,   $lo1
784         mulx    $aj,    $m0,    $alo    ! ap[j]*bp[i]
785         addxc   $nj,    %g0,    $hi1    ! nhi=nj
786         ldx     [$np+0],        $nj     ! np[j]
787         add     $np,    8,      $np
788         umulxhi $aj,    $m0,    $aj     ! ahi=aj
789         addcc   $lo0,   $tj,    $lo0    ! ap[j]*bp[i]+tp[j]
790         mulx    $nj,    $m1,    $nlo    ! np[j]*m1
791         addxc   %g0,    $hi0,   $hi0
792         umulxhi $nj,    $m1,    $nj     ! nhi=nj
793         addcc   $lo1,   $lo0,   $lo1    ! np[j]*m1+ap[j]*bp[i]+tp[j]
794         addxc   %g0,    $hi1,   $hi1
795         stx     $lo1,   [$tp]           ! tp[j-1]
796         add     $tp,    8,      $tp
797         brnz,pt $cnt,   .Linner
798         sub     $cnt,   8,      $cnt
799 !.Linner
800         ldx     [$tp+8],        $tj     ! tp[j]
801         addcc   $alo,   $hi0,   $lo0
802         addxc   $aj,    %g0,    $hi0    ! ahi=aj
803         addcc   $lo0,   $tj,    $lo0    ! ap[j]*bp[i]+tp[j]
804         addxc   %g0,    $hi0,   $hi0
805
806         addcc   $nlo,   $hi1,   $lo1
807         addxc   $nj,    %g0,    $hi1    ! nhi=nj
808         addcc   $lo1,   $lo0,   $lo1    ! np[j]*m1+ap[j]*bp[i]+tp[j]
809         addxc   %g0,    $hi1,   $hi1
810         stx     $lo1,   [$tp]           ! tp[j-1]
811
812         subcc   %g0,    $ovf,   %g0     ! move upmost overflow to CCR.xcc
813         addxccc $hi1,   $hi0,   $hi1
814         addxc   %g0,    %g0,    $ovf
815         stx     $hi1,   [$tp+8]
816         add     $tp,    16,     $tp
817
818         brnz,pt $i,     .Louter
819         sub     $i,     8,      $i
820 \f
821         sub     $ap,    $num,   $ap     ! rewind
822         sub     $np,    $num,   $np
823         sub     $tp,    $num,   $tp
824         ba      .Lsub
825         subcc   $num,   8,      $cnt    ! cnt=num-1 and clear CCR.xcc
826
827 .align  16
828 .Lsub:
829         ldx     [$tp],          $tj
830         add     $tp,    8,      $tp
831         ldx     [$np+0],        $nj
832         add     $np,    8,      $np
833         subccc  $tj,    $nj,    $t2     ! tp[j]-np[j]
834         srlx    $tj,    32,     $tj
835         srlx    $nj,    32,     $nj
836         subccc  $tj,    $nj,    $t3
837         add     $rp,    8,      $rp
838         st      $t2,    [$rp-4]         ! reverse order
839         st      $t3,    [$rp-8]
840         brnz,pt $cnt,   .Lsub
841         sub     $cnt,   8,      $cnt
842
843         sub     $np,    $num,   $np     ! rewind
844         sub     $tp,    $num,   $tp
845         sub     $rp,    $num,   $rp
846
847         subc    $ovf,   %g0,    $ovf    ! handle upmost overflow bit
848         and     $tp,    $ovf,   $ap
849         andn    $rp,    $ovf,   $np
850         or      $np,    $ap,    $ap     ! ap=borrow?tp:rp
851         ba      .Lcopy
852         sub     $num,   8,      $cnt
853
854 .align  16
855 .Lcopy:                                 ! copy or in-place refresh
856         ldx     [$ap+0],        $t2
857         add     $ap,    8,      $ap
858         stx     %g0,    [$tp]           ! zap
859         add     $tp,    8,      $tp
860         stx     $t2,    [$rp+0]
861         add     $rp,    8,      $rp
862         brnz    $cnt,   .Lcopy
863         sub     $cnt,   8,      $cnt
864
865         mov     1,      %o0
866         ret
867         restore
868 .type   bn_mul_mont_t4, #function
869 .size   bn_mul_mont_t4, .-bn_mul_mont_t4
870 ___
871 \f
872 # int bn_mul_mont_gather5(
873 $rp="%o0";      # u64 *rp,
874 $ap="%o1";      # const u64 *ap,
875 $bp="%o2";      # const u64 *pwrtbl,
876 $np="%o3";      # const u64 *np,
877 $n0p="%o4";     # const BN_ULONG *n0,
878 $num="%o5";     # int num,      # caller ensures that num is >=3
879                 # int power);
880 $code.=<<___;
881 .globl  bn_mul_mont_gather5_t4
882 .align  32
883 bn_mul_mont_gather5_t4:
884         add     %sp,    STACK_BIAS,     %g4     ! real top of stack
885         sll     $num,   3,      $num            ! size in bytes
886         add     $num,   63,     %g1
887         andn    %g1,    63,     %g1             ! buffer size rounded up to 64 bytes
888         sub     %g4,    %g1,    %g1
889         andn    %g1,    63,     %g1             ! align at 64 byte
890         sub     %g1,    STACK_FRAME,    %g1     ! new top of stack
891         sub     %g1,    %g4,    %g1
892         LDPTR   [%sp+STACK_7thARG],     %g4     ! load power, 7th argument
893
894         save    %sp,    %g1,    %sp
895 ___
896 #       +-------------------------------+<----- %sp
897 #       .                               .
898 #       +-------------------------------+<----- aligned at 64 bytes
899 #       | __int64 tmp[0]                |
900 #       +-------------------------------+
901 #       .                               .
902 #       .                               .
903 #       +-------------------------------+<----- aligned at 64 bytes
904 #       .                               .
905 ($rp,$ap,$bp,$np,$n0p,$num)=map("%i$_",(0..5));
906 ($t0,$t1,$t2,$t3,$cnt,$tp,$bufsz)=map("%l$_",(0..7));
907 ($ovf,$i)=($t0,$t1);
908         &load_fcc($bp,"%g4","%g1");
909         &load_f16($bp);
910 $code.=<<___;
911         movdtox %f16,   $m0             ! m0=bp[0]
912
913         ld      [$n0p+0],       $t0     ! pull n0[0..1] value
914         ld      [$n0p+4],       $t1
915         add     %sp, STACK_BIAS+STACK_FRAME, $tp
916         sllx    $t1,    32,     $n0
917         or      $t0,    $n0,    $n0
918 \f
919         ldx     [$ap+0],        $aj     ! ap[0]
920
921         mulx    $aj,    $m0,    $lo0    ! ap[0]*bp[0]
922         umulxhi $aj,    $m0,    $hi0
923
924         ldx     [$ap+8],        $aj     ! ap[1]
925         add     $ap,    16,     $ap
926         ldx     [$np+0],        $nj     ! np[0]
927
928         mulx    $lo0,   $n0,    $m1     ! "tp[0]"*n0
929
930         mulx    $aj,    $m0,    $alo    ! ap[1]*bp[0]
931         umulxhi $aj,    $m0,    $aj     ! ahi=aj
932
933         mulx    $nj,    $m1,    $lo1    ! np[0]*m1
934         umulxhi $nj,    $m1,    $hi1
935
936         ldx     [$np+8],        $nj     ! np[1]
937
938         addcc   $lo0,   $lo1,   $lo1
939         add     $np,    16,     $np
940         addxc   %g0,    $hi1,   $hi1
941
942         mulx    $nj,    $m1,    $nlo    ! np[1]*m1
943         umulxhi $nj,    $m1,    $nj     ! nhi=nj
944 \f
945         ba      .L1st_g5
946         sub     $num,   24,     $cnt    ! cnt=num-3
947
948 .align  16
949 .L1st_g5:
950         addcc   $alo,   $hi0,   $lo0
951         addxc   $aj,    %g0,    $hi0
952
953         ldx     [$ap+0],        $aj     ! ap[j]
954         addcc   $nlo,   $hi1,   $lo1
955         add     $ap,    8,      $ap
956         addxc   $nj,    %g0,    $hi1    ! nhi=nj
957
958         ldx     [$np+0],        $nj     ! np[j]
959         mulx    $aj,    $m0,    $alo    ! ap[j]*bp[0]
960         add     $np,    8,      $np
961         umulxhi $aj,    $m0,    $aj     ! ahi=aj
962
963         mulx    $nj,    $m1,    $nlo    ! np[j]*m1
964         addcc   $lo0,   $lo1,   $lo1    ! np[j]*m1+ap[j]*bp[0]
965         umulxhi $nj,    $m1,    $nj     ! nhi=nj
966         addxc   %g0,    $hi1,   $hi1
967         stxa    $lo1,   [$tp]0xe2       ! tp[j-1]
968         add     $tp,    8,      $tp     ! tp++
969
970         brnz,pt $cnt,   .L1st_g5
971         sub     $cnt,   8,      $cnt    ! j--
972 !.L1st_g5
973         addcc   $alo,   $hi0,   $lo0
974         addxc   $aj,    %g0,    $hi0    ! ahi=aj
975
976         addcc   $nlo,   $hi1,   $lo1
977         addxc   $nj,    %g0,    $hi1
978         addcc   $lo0,   $lo1,   $lo1    ! np[j]*m1+ap[j]*bp[0]
979         addxc   %g0,    $hi1,   $hi1
980         stxa    $lo1,   [$tp]0xe2       ! tp[j-1]
981         add     $tp,    8,      $tp
982
983         addcc   $hi0,   $hi1,   $hi1
984         addxc   %g0,    %g0,    $ovf    ! upmost overflow bit
985         stxa    $hi1,   [$tp]0xe2
986         add     $tp,    8,      $tp
987 \f
988         ba      .Louter_g5
989         sub     $num,   16,     $i      ! i=num-2
990
991 .align  16
992 .Louter_g5:
993 ___
994         &load_f16($bp);
995 $code.=<<___;
996         movdtox %f16,   $m0             ! m0=bp[i]
997
998         sub     $ap,    $num,   $ap     ! rewind
999         sub     $np,    $num,   $np
1000         sub     $tp,    $num,   $tp
1001
1002         ldx     [$ap+0],        $aj     ! ap[0]
1003         ldx     [$np+0],        $nj     ! np[0]
1004
1005         mulx    $aj,    $m0,    $lo0    ! ap[0]*bp[i]
1006         ldx     [$tp],          $tj     ! tp[0]
1007         umulxhi $aj,    $m0,    $hi0
1008         ldx     [$ap+8],        $aj     ! ap[1]
1009         addcc   $lo0,   $tj,    $lo0    ! ap[0]*bp[i]+tp[0]
1010         mulx    $aj,    $m0,    $alo    ! ap[1]*bp[i]
1011         addxc   %g0,    $hi0,   $hi0
1012         mulx    $lo0,   $n0,    $m1     ! tp[0]*n0
1013         umulxhi $aj,    $m0,    $aj     ! ahi=aj
1014         mulx    $nj,    $m1,    $lo1    ! np[0]*m1
1015         add     $ap,    16,     $ap
1016         umulxhi $nj,    $m1,    $hi1
1017         ldx     [$np+8],        $nj     ! np[1]
1018         add     $np,    16,     $np
1019         addcc   $lo1,   $lo0,   $lo1
1020         mulx    $nj,    $m1,    $nlo    ! np[1]*m1
1021         addxc   %g0,    $hi1,   $hi1
1022         umulxhi $nj,    $m1,    $nj     ! nhi=nj
1023 \f
1024         ba      .Linner_g5
1025         sub     $num,   24,     $cnt    ! cnt=num-3
1026 .align  16
1027 .Linner_g5:
1028         addcc   $alo,   $hi0,   $lo0
1029         ldx     [$tp+8],        $tj     ! tp[j]
1030         addxc   $aj,    %g0,    $hi0    ! ahi=aj
1031         ldx     [$ap+0],        $aj     ! ap[j]
1032         add     $ap,    8,      $ap
1033         addcc   $nlo,   $hi1,   $lo1
1034         mulx    $aj,    $m0,    $alo    ! ap[j]*bp[i]
1035         addxc   $nj,    %g0,    $hi1    ! nhi=nj
1036         ldx     [$np+0],        $nj     ! np[j]
1037         add     $np,    8,      $np
1038         umulxhi $aj,    $m0,    $aj     ! ahi=aj
1039         addcc   $lo0,   $tj,    $lo0    ! ap[j]*bp[i]+tp[j]
1040         mulx    $nj,    $m1,    $nlo    ! np[j]*m1
1041         addxc   %g0,    $hi0,   $hi0
1042         umulxhi $nj,    $m1,    $nj     ! nhi=nj
1043         addcc   $lo1,   $lo0,   $lo1    ! np[j]*m1+ap[j]*bp[i]+tp[j]
1044         addxc   %g0,    $hi1,   $hi1
1045         stx     $lo1,   [$tp]           ! tp[j-1]
1046         add     $tp,    8,      $tp
1047         brnz,pt $cnt,   .Linner_g5
1048         sub     $cnt,   8,      $cnt
1049 !.Linner_g5
1050         ldx     [$tp+8],        $tj     ! tp[j]
1051         addcc   $alo,   $hi0,   $lo0
1052         addxc   $aj,    %g0,    $hi0    ! ahi=aj
1053         addcc   $lo0,   $tj,    $lo0    ! ap[j]*bp[i]+tp[j]
1054         addxc   %g0,    $hi0,   $hi0
1055
1056         addcc   $nlo,   $hi1,   $lo1
1057         addxc   $nj,    %g0,    $hi1    ! nhi=nj
1058         addcc   $lo1,   $lo0,   $lo1    ! np[j]*m1+ap[j]*bp[i]+tp[j]
1059         addxc   %g0,    $hi1,   $hi1
1060         stx     $lo1,   [$tp]           ! tp[j-1]
1061
1062         subcc   %g0,    $ovf,   %g0     ! move upmost overflow to CCR.xcc
1063         addxccc $hi1,   $hi0,   $hi1
1064         addxc   %g0,    %g0,    $ovf
1065         stx     $hi1,   [$tp+8]
1066         add     $tp,    16,     $tp
1067
1068         brnz,pt $i,     .Louter_g5
1069         sub     $i,     8,      $i
1070 \f
1071         sub     $ap,    $num,   $ap     ! rewind
1072         sub     $np,    $num,   $np
1073         sub     $tp,    $num,   $tp
1074         ba      .Lsub_g5
1075         subcc   $num,   8,      $cnt    ! cnt=num-1 and clear CCR.xcc
1076
1077 .align  16
1078 .Lsub_g5:
1079         ldx     [$tp],          $tj
1080         add     $tp,    8,      $tp
1081         ldx     [$np+0],        $nj
1082         add     $np,    8,      $np
1083         subccc  $tj,    $nj,    $t2     ! tp[j]-np[j]
1084         srlx    $tj,    32,     $tj
1085         srlx    $nj,    32,     $nj
1086         subccc  $tj,    $nj,    $t3
1087         add     $rp,    8,      $rp
1088         st      $t2,    [$rp-4]         ! reverse order
1089         st      $t3,    [$rp-8]
1090         brnz,pt $cnt,   .Lsub_g5
1091         sub     $cnt,   8,      $cnt
1092
1093         sub     $np,    $num,   $np     ! rewind
1094         sub     $tp,    $num,   $tp
1095         sub     $rp,    $num,   $rp
1096
1097         subc    $ovf,   %g0,    $ovf    ! handle upmost overflow bit
1098         and     $tp,    $ovf,   $ap
1099         andn    $rp,    $ovf,   $np
1100         or      $np,    $ap,    $ap     ! ap=borrow?tp:rp
1101         ba      .Lcopy_g5
1102         sub     $num,   8,      $cnt
1103
1104 .align  16
1105 .Lcopy_g5:                              ! copy or in-place refresh
1106         ldx     [$ap+0],        $t2
1107         add     $ap,    8,      $ap
1108         stx     %g0,    [$tp]           ! zap
1109         add     $tp,    8,      $tp
1110         stx     $t2,    [$rp+0]
1111         add     $rp,    8,      $rp
1112         brnz    $cnt,   .Lcopy_g5
1113         sub     $cnt,   8,      $cnt
1114
1115         mov     1,      %o0
1116         ret
1117         restore
1118 .type   bn_mul_mont_gather5_t4, #function
1119 .size   bn_mul_mont_gather5_t4, .-bn_mul_mont_gather5_t4
1120 ___
1121 }
1122 \f
1123 $code.=<<___;
1124 .globl  bn_flip_t4
1125 .align  32
1126 bn_flip_t4:
1127 .Loop_flip:
1128         ld      [%o1+0],        %o4
1129         sub     %o2,    1,      %o2
1130         ld      [%o1+4],        %o5
1131         add     %o1,    8,      %o1
1132         st      %o5,    [%o0+0]
1133         st      %o4,    [%o0+4]
1134         brnz    %o2,    .Loop_flip
1135         add     %o0,    8,      %o0
1136         retl
1137         nop
1138 .type   bn_flip_t4, #function
1139 .size   bn_flip_t4, .-bn_flip_t4
1140
1141 .globl  bn_scatter5_t4
1142 .align  32
1143 bn_scatter5_t4:
1144         sll     %o3,    3,      %o3
1145         sub     %o1,    1,      %o1
1146         add     %o3,    %o2,    %o2     ! &pwrtbl[pwr]
1147         nop
1148 .Loop_scatter5:
1149         ldx     [%o0],  %g1             ! inp[i]
1150         add     %o0,    8,      %o0
1151         stx     %g1,    [%o2]
1152         add     %o2,    32*8,   %o2
1153         brnz    %o1,    .Loop_scatter5
1154         sub     %o1,    1,      %o1
1155         retl
1156         nop
1157 .type   bn_scatter5_t4, #function
1158 .size   bn_scatter5_t4, .-bn_scatter5_t4
1159
1160 .globl  bn_gather5_t4
1161 .align  32
1162 bn_gather5_t4:
1163         mov     %o7,    %o5
1164 ___
1165         &load_fcc("%o2","%o3","%o4");
1166 $code.=<<___;
1167         mov     %o5,    %o7
1168         sub     %o1,    1,      %o1
1169 .Loop_gather5:
1170 ___
1171         &load_f16("%o2");
1172 $code.=<<___;
1173         std     %f16,   [%o0]
1174         add     %o0,    8,      %o0
1175         brnz    %o1,    .Loop_gather5
1176         sub     %o1,    1,      %o1
1177
1178         retl
1179         nop
1180 .type   bn_gather5_t4, #function
1181 .size   bn_gather5_t4, .-bn_gather5_t4
1182 ___
1183 \f
1184 $code.=<<___;
1185 #define ONE     0x3f800000
1186 #define NUL     0x00000000
1187 #define NaN     0xffffffff
1188
1189 .align  64
1190 .Lmagic:
1191         .long   ONE,NUL,NaN,NaN,NaN,NaN,NUL,ONE
1192         .long   NUL,ONE,ONE,NUL,NaN,NaN,NaN,NaN
1193         .long   NaN,NaN,NUL,ONE,ONE,NUL,NaN,NaN
1194         .long   NaN,NaN,NaN,NaN,NUL,ONE,ONE,NUL
1195 .asciz  "Montgomery Multiplication for SPARC T4, David S. Miller, Andy Polyakov"
1196 .align  4
1197 ___
1198
1199 &emit_assembler();
1200
1201 close STDOUT;