b1797b649f0034e3c1b0c2e92a1005cd8035ac98
[openssl.git] / crypto / bn / asm / rsaz-x86_64.pl
1 #! /usr/bin/env perl
2 # Copyright 2013-2016 The OpenSSL Project Authors. All Rights Reserved.
3 # Copyright (c) 2012, Intel Corporation. All Rights Reserved.
4 #
5 # Licensed under the OpenSSL license (the "License").  You may not use
6 # this file except in compliance with the License.  You can obtain a copy
7 # in the file LICENSE in the source distribution or at
8 # https://www.openssl.org/source/license.html
9 #
10 # Originally written by Shay Gueron (1, 2), and Vlad Krasnov (1)
11 # (1) Intel Corporation, Israel Development Center, Haifa, Israel
12 # (2) University of Haifa, Israel
13 #
14 # References:
15 # [1] S. Gueron, "Efficient Software Implementations of Modular
16 #     Exponentiation", http://eprint.iacr.org/2011/239
17 # [2] S. Gueron, V. Krasnov. "Speeding up Big-Numbers Squaring".
18 #     IEEE Proceedings of 9th International Conference on Information
19 #     Technology: New Generations (ITNG 2012), 821-823 (2012).
20 # [3] S. Gueron, Efficient Software Implementations of Modular Exponentiation
21 #     Journal of Cryptographic Engineering 2:31-43 (2012).
22 # [4] S. Gueron, V. Krasnov: "[PATCH] Efficient and side channel analysis
23 #     resistant 512-bit and 1024-bit modular exponentiation for optimizing
24 #     RSA1024 and RSA2048 on x86_64 platforms",
25 #     http://rt.openssl.org/Ticket/Display.html?id=2582&user=guest&pass=guest
26 #
27 # While original submission covers 512- and 1024-bit exponentiation,
28 # this module is limited to 512-bit version only (and as such
29 # accelerates RSA1024 sign). This is because improvement for longer
30 # keys is not high enough to justify the effort, highest measured
31 # was ~5% on Westmere. [This is relative to OpenSSL 1.0.2, upcoming
32 # for the moment of this writing!] Nor does this module implement
33 # "monolithic" complete exponentiation jumbo-subroutine, but adheres
34 # to more modular mixture of C and assembly. And it's optimized even
35 # for processors other than Intel Core family (see table below for
36 # improvement coefficients).
37 #                                               <appro@openssl.org>
38 #
39 # RSA1024 sign/sec      this/original   |this/rsax(*)   this/fips(*)
40 #                       ----------------+---------------------------
41 # Opteron               +13%            |+5%            +20%
42 # Bulldozer             -0%             |-1%            +10%
43 # P4                    +11%            |+7%            +8%
44 # Westmere              +5%             |+14%           +17%
45 # Sandy Bridge          +2%             |+12%           +29%
46 # Ivy Bridge            +1%             |+11%           +35%
47 # Haswell(**)           -0%             |+12%           +39%
48 # Atom                  +13%            |+11%           +4%
49 # VIA Nano              +70%            |+9%            +25%
50 #
51 # (*)   rsax engine and fips numbers are presented for reference
52 #       purposes;
53 # (**)  MULX was attempted, but found to give only marginal improvement;
54
55 $flavour = shift;
56 $output  = shift;
57 if ($flavour =~ /\./) { $output = $flavour; undef $flavour; }
58
59 $win64=0; $win64=1 if ($flavour =~ /[nm]asm|mingw64/ || $output =~ /\.asm$/);
60
61 $0 =~ m/(.*[\/\\])[^\/\\]+$/; $dir=$1;
62 ( $xlate="${dir}x86_64-xlate.pl" and -f $xlate ) or
63 ( $xlate="${dir}../../perlasm/x86_64-xlate.pl" and -f $xlate) or
64 die "can't locate x86_64-xlate.pl";
65
66 open OUT,"| \"$^X\" \"$xlate\" $flavour \"$output\"";
67 *STDOUT=*OUT;
68
69 if (`$ENV{CC} -Wa,-v -c -o /dev/null -x assembler /dev/null 2>&1`
70                 =~ /GNU assembler version ([2-9]\.[0-9]+)/) {
71         $addx = ($1>=2.23);
72 }
73
74 if (!$addx && $win64 && ($flavour =~ /nasm/ || $ENV{ASM} =~ /nasm/) &&
75             `nasm -v 2>&1` =~ /NASM version ([2-9]\.[0-9]+)/) {
76         $addx = ($1>=2.10);
77 }
78
79 if (!$addx && $win64 && ($flavour =~ /masm/ || $ENV{ASM} =~ /ml64/) &&
80             `ml64 2>&1` =~ /Version ([0-9]+)\./) {
81         $addx = ($1>=12);
82 }
83
84 if (!$addx && `$ENV{CC} -v 2>&1` =~ /((?:^clang|LLVM) version|.*based on LLVM) ([3-9])\.([0-9]+)/) {
85         my $ver = $2 + $3/100.0;        # 3.1->3.01, 3.10->3.10
86         $addx = ($ver>=3.03);
87 }
88
89 ($out, $inp, $mod) = ("%rdi", "%rsi", "%rbp");  # common internal API
90 {
91 my ($out,$inp,$mod,$n0,$times) = ("%rdi","%rsi","%rdx","%rcx","%r8d");
92
93 $code.=<<___;
94 .text
95
96 .extern OPENSSL_ia32cap_P
97
98 .globl  rsaz_512_sqr
99 .type   rsaz_512_sqr,\@function,5
100 .align  32
101 rsaz_512_sqr:                           # 25-29% faster than rsaz_512_mul
102 .cfi_startproc
103         push    %rbx
104 .cfi_push       %rbx
105         push    %rbp
106 .cfi_push       %rbp
107         push    %r12
108 .cfi_push       %r12
109         push    %r13
110 .cfi_push       %r13
111         push    %r14
112 .cfi_push       %r14
113         push    %r15
114 .cfi_push       %r15
115
116         subq    \$128+24, %rsp
117 .cfi_adjust_cfa_offset  128+24
118 .Lsqr_body:
119         movq    $mod, %rbp              # common argument
120         movq    ($inp), %rdx
121         movq    8($inp), %rax
122         movq    $n0, 128(%rsp)
123 ___
124 $code.=<<___ if ($addx);
125         movl    \$0x80100,%r11d
126         andl    OPENSSL_ia32cap_P+8(%rip),%r11d
127         cmpl    \$0x80100,%r11d         # check for MULX and ADO/CX
128         je      .Loop_sqrx
129 ___
130 $code.=<<___;
131         jmp     .Loop_sqr
132
133 .align  32
134 .Loop_sqr:
135         movl    $times,128+8(%rsp)
136 #first iteration
137         movq    %rdx, %rbx
138         mulq    %rdx
139         movq    %rax, %r8
140         movq    16($inp), %rax
141         movq    %rdx, %r9
142
143         mulq    %rbx
144         addq    %rax, %r9
145         movq    24($inp), %rax
146         movq    %rdx, %r10
147         adcq    \$0, %r10
148
149         mulq    %rbx
150         addq    %rax, %r10
151         movq    32($inp), %rax
152         movq    %rdx, %r11
153         adcq    \$0, %r11
154
155         mulq    %rbx
156         addq    %rax, %r11
157         movq    40($inp), %rax
158         movq    %rdx, %r12
159         adcq    \$0, %r12
160
161         mulq    %rbx
162         addq    %rax, %r12
163         movq    48($inp), %rax
164         movq    %rdx, %r13
165         adcq    \$0, %r13
166
167         mulq    %rbx
168         addq    %rax, %r13
169         movq    56($inp), %rax
170         movq    %rdx, %r14
171         adcq    \$0, %r14
172
173         mulq    %rbx
174         addq    %rax, %r14
175         movq    %rbx, %rax
176         movq    %rdx, %r15
177         adcq    \$0, %r15
178
179         addq    %r8, %r8                #shlq   \$1, %r8
180         movq    %r9, %rcx
181         adcq    %r9, %r9                #shld   \$1, %r8, %r9
182
183         mulq    %rax
184         movq    %rax, (%rsp)
185         addq    %rdx, %r8
186         adcq    \$0, %r9
187
188         movq    %r8, 8(%rsp)
189         shrq    \$63, %rcx
190
191 #second iteration
192         movq    8($inp), %r8
193         movq    16($inp), %rax
194         mulq    %r8
195         addq    %rax, %r10
196         movq    24($inp), %rax
197         movq    %rdx, %rbx
198         adcq    \$0, %rbx
199
200         mulq    %r8
201         addq    %rax, %r11
202         movq    32($inp), %rax
203         adcq    \$0, %rdx
204         addq    %rbx, %r11
205         movq    %rdx, %rbx
206         adcq    \$0, %rbx
207
208         mulq    %r8
209         addq    %rax, %r12
210         movq    40($inp), %rax
211         adcq    \$0, %rdx
212         addq    %rbx, %r12
213         movq    %rdx, %rbx
214         adcq    \$0, %rbx
215
216         mulq    %r8
217         addq    %rax, %r13
218         movq    48($inp), %rax
219         adcq    \$0, %rdx
220         addq    %rbx, %r13
221         movq    %rdx, %rbx
222         adcq    \$0, %rbx
223
224         mulq    %r8
225         addq    %rax, %r14
226         movq    56($inp), %rax
227         adcq    \$0, %rdx
228         addq    %rbx, %r14
229         movq    %rdx, %rbx
230         adcq    \$0, %rbx
231
232         mulq    %r8
233         addq    %rax, %r15
234         movq    %r8, %rax
235         adcq    \$0, %rdx
236         addq    %rbx, %r15
237         movq    %rdx, %r8
238         movq    %r10, %rdx
239         adcq    \$0, %r8
240
241         add     %rdx, %rdx
242         lea     (%rcx,%r10,2), %r10     #shld   \$1, %rcx, %r10
243         movq    %r11, %rbx
244         adcq    %r11, %r11              #shld   \$1, %r10, %r11
245
246         mulq    %rax
247         addq    %rax, %r9
248         adcq    %rdx, %r10
249         adcq    \$0, %r11
250
251         movq    %r9, 16(%rsp)
252         movq    %r10, 24(%rsp)
253         shrq    \$63, %rbx
254
255 #third iteration
256         movq    16($inp), %r9
257         movq    24($inp), %rax
258         mulq    %r9
259         addq    %rax, %r12
260         movq    32($inp), %rax
261         movq    %rdx, %rcx
262         adcq    \$0, %rcx
263
264         mulq    %r9
265         addq    %rax, %r13
266         movq    40($inp), %rax
267         adcq    \$0, %rdx
268         addq    %rcx, %r13
269         movq    %rdx, %rcx
270         adcq    \$0, %rcx
271
272         mulq    %r9
273         addq    %rax, %r14
274         movq    48($inp), %rax
275         adcq    \$0, %rdx
276         addq    %rcx, %r14
277         movq    %rdx, %rcx
278         adcq    \$0, %rcx
279
280         mulq    %r9
281          movq   %r12, %r10
282          lea    (%rbx,%r12,2), %r12     #shld   \$1, %rbx, %r12
283         addq    %rax, %r15
284         movq    56($inp), %rax
285         adcq    \$0, %rdx
286         addq    %rcx, %r15
287         movq    %rdx, %rcx
288         adcq    \$0, %rcx
289
290         mulq    %r9
291          shrq   \$63, %r10
292         addq    %rax, %r8
293         movq    %r9, %rax
294         adcq    \$0, %rdx
295         addq    %rcx, %r8
296         movq    %rdx, %r9
297         adcq    \$0, %r9
298
299         movq    %r13, %rcx
300         leaq    (%r10,%r13,2), %r13     #shld   \$1, %r12, %r13
301
302         mulq    %rax
303         addq    %rax, %r11
304         adcq    %rdx, %r12
305         adcq    \$0, %r13
306
307         movq    %r11, 32(%rsp)
308         movq    %r12, 40(%rsp)
309         shrq    \$63, %rcx
310
311 #fourth iteration
312         movq    24($inp), %r10
313         movq    32($inp), %rax
314         mulq    %r10
315         addq    %rax, %r14
316         movq    40($inp), %rax
317         movq    %rdx, %rbx
318         adcq    \$0, %rbx
319
320         mulq    %r10
321         addq    %rax, %r15
322         movq    48($inp), %rax
323         adcq    \$0, %rdx
324         addq    %rbx, %r15
325         movq    %rdx, %rbx
326         adcq    \$0, %rbx
327
328         mulq    %r10
329          movq   %r14, %r12
330          leaq   (%rcx,%r14,2), %r14     #shld   \$1, %rcx, %r14
331         addq    %rax, %r8
332         movq    56($inp), %rax
333         adcq    \$0, %rdx
334         addq    %rbx, %r8
335         movq    %rdx, %rbx
336         adcq    \$0, %rbx
337
338         mulq    %r10
339          shrq   \$63, %r12
340         addq    %rax, %r9
341         movq    %r10, %rax
342         adcq    \$0, %rdx
343         addq    %rbx, %r9
344         movq    %rdx, %r10
345         adcq    \$0, %r10
346
347         movq    %r15, %rbx
348         leaq    (%r12,%r15,2),%r15      #shld   \$1, %r14, %r15
349
350         mulq    %rax
351         addq    %rax, %r13
352         adcq    %rdx, %r14
353         adcq    \$0, %r15
354
355         movq    %r13, 48(%rsp)
356         movq    %r14, 56(%rsp)
357         shrq    \$63, %rbx
358
359 #fifth iteration
360         movq    32($inp), %r11
361         movq    40($inp), %rax
362         mulq    %r11
363         addq    %rax, %r8
364         movq    48($inp), %rax
365         movq    %rdx, %rcx
366         adcq    \$0, %rcx
367
368         mulq    %r11
369         addq    %rax, %r9
370         movq    56($inp), %rax
371         adcq    \$0, %rdx
372          movq   %r8, %r12
373          leaq   (%rbx,%r8,2), %r8       #shld   \$1, %rbx, %r8
374         addq    %rcx, %r9
375         movq    %rdx, %rcx
376         adcq    \$0, %rcx
377
378         mulq    %r11
379          shrq   \$63, %r12
380         addq    %rax, %r10
381         movq    %r11, %rax
382         adcq    \$0, %rdx
383         addq    %rcx, %r10
384         movq    %rdx, %r11
385         adcq    \$0, %r11
386
387         movq    %r9, %rcx
388         leaq    (%r12,%r9,2), %r9       #shld   \$1, %r8, %r9
389
390         mulq    %rax
391         addq    %rax, %r15
392         adcq    %rdx, %r8
393         adcq    \$0, %r9
394
395         movq    %r15, 64(%rsp)
396         movq    %r8, 72(%rsp)
397         shrq    \$63, %rcx
398
399 #sixth iteration
400         movq    40($inp), %r12
401         movq    48($inp), %rax
402         mulq    %r12
403         addq    %rax, %r10
404         movq    56($inp), %rax
405         movq    %rdx, %rbx
406         adcq    \$0, %rbx
407
408         mulq    %r12
409         addq    %rax, %r11
410         movq    %r12, %rax
411          movq   %r10, %r15
412          leaq   (%rcx,%r10,2), %r10     #shld   \$1, %rcx, %r10
413         adcq    \$0, %rdx
414          shrq   \$63, %r15
415         addq    %rbx, %r11
416         movq    %rdx, %r12
417         adcq    \$0, %r12
418
419         movq    %r11, %rbx
420         leaq    (%r15,%r11,2), %r11     #shld   \$1, %r10, %r11
421
422         mulq    %rax
423         addq    %rax, %r9
424         adcq    %rdx, %r10
425         adcq    \$0, %r11
426
427         movq    %r9, 80(%rsp)
428         movq    %r10, 88(%rsp)
429
430 #seventh iteration
431         movq    48($inp), %r13
432         movq    56($inp), %rax
433         mulq    %r13
434         addq    %rax, %r12
435         movq    %r13, %rax
436         movq    %rdx, %r13
437         adcq    \$0, %r13
438
439         xorq    %r14, %r14
440         shlq    \$1, %rbx
441         adcq    %r12, %r12              #shld   \$1, %rbx, %r12
442         adcq    %r13, %r13              #shld   \$1, %r12, %r13
443         adcq    %r14, %r14              #shld   \$1, %r13, %r14
444
445         mulq    %rax
446         addq    %rax, %r11
447         adcq    %rdx, %r12
448         adcq    \$0, %r13
449
450         movq    %r11, 96(%rsp)
451         movq    %r12, 104(%rsp)
452
453 #eighth iteration
454         movq    56($inp), %rax
455         mulq    %rax
456         addq    %rax, %r13
457         adcq    \$0, %rdx
458
459         addq    %rdx, %r14
460
461         movq    %r13, 112(%rsp)
462         movq    %r14, 120(%rsp)
463
464         movq    (%rsp), %r8
465         movq    8(%rsp), %r9
466         movq    16(%rsp), %r10
467         movq    24(%rsp), %r11
468         movq    32(%rsp), %r12
469         movq    40(%rsp), %r13
470         movq    48(%rsp), %r14
471         movq    56(%rsp), %r15
472
473         call    __rsaz_512_reduce
474
475         addq    64(%rsp), %r8
476         adcq    72(%rsp), %r9
477         adcq    80(%rsp), %r10
478         adcq    88(%rsp), %r11
479         adcq    96(%rsp), %r12
480         adcq    104(%rsp), %r13
481         adcq    112(%rsp), %r14
482         adcq    120(%rsp), %r15
483         sbbq    %rcx, %rcx
484
485         call    __rsaz_512_subtract
486
487         movq    %r8, %rdx
488         movq    %r9, %rax
489         movl    128+8(%rsp), $times
490         movq    $out, $inp
491
492         decl    $times
493         jnz     .Loop_sqr
494 ___
495 if ($addx) {
496 $code.=<<___;
497         jmp     .Lsqr_tail
498
499 .align  32
500 .Loop_sqrx:
501         movl    $times,128+8(%rsp)
502         movq    $out, %xmm0             # off-load
503         movq    %rbp, %xmm1             # off-load
504 #first iteration
505         mulx    %rax, %r8, %r9
506
507         mulx    16($inp), %rcx, %r10
508         xor     %rbp, %rbp              # cf=0, of=0
509
510         mulx    24($inp), %rax, %r11
511         adcx    %rcx, %r9
512
513         mulx    32($inp), %rcx, %r12
514         adcx    %rax, %r10
515
516         mulx    40($inp), %rax, %r13
517         adcx    %rcx, %r11
518
519         .byte   0xc4,0x62,0xf3,0xf6,0xb6,0x30,0x00,0x00,0x00    # mulx  48($inp), %rcx, %r14
520         adcx    %rax, %r12
521         adcx    %rcx, %r13
522
523         .byte   0xc4,0x62,0xfb,0xf6,0xbe,0x38,0x00,0x00,0x00    # mulx  56($inp), %rax, %r15
524         adcx    %rax, %r14
525         adcx    %rbp, %r15              # %rbp is 0
526
527         mov     %r9, %rcx
528         shld    \$1, %r8, %r9
529         shl     \$1, %r8
530
531         xor     %ebp, %ebp
532         mulx    %rdx, %rax, %rdx
533         adcx    %rdx, %r8
534          mov    8($inp), %rdx
535         adcx    %rbp, %r9
536
537         mov     %rax, (%rsp)
538         mov     %r8, 8(%rsp)
539
540 #second iteration
541         mulx    16($inp), %rax, %rbx
542         adox    %rax, %r10
543         adcx    %rbx, %r11
544
545         .byte   0xc4,0x62,0xc3,0xf6,0x86,0x18,0x00,0x00,0x00    # mulx  24($inp), $out, %r8
546         adox    $out, %r11
547         adcx    %r8, %r12
548
549         mulx    32($inp), %rax, %rbx
550         adox    %rax, %r12
551         adcx    %rbx, %r13
552
553         mulx    40($inp), $out, %r8
554         adox    $out, %r13
555         adcx    %r8, %r14
556
557         .byte   0xc4,0xe2,0xfb,0xf6,0x9e,0x30,0x00,0x00,0x00    # mulx  48($inp), %rax, %rbx
558         adox    %rax, %r14
559         adcx    %rbx, %r15
560
561         .byte   0xc4,0x62,0xc3,0xf6,0x86,0x38,0x00,0x00,0x00    # mulx  56($inp), $out, %r8
562         adox    $out, %r15
563         adcx    %rbp, %r8
564         adox    %rbp, %r8
565
566         mov     %r11, %rbx
567         shld    \$1, %r10, %r11
568         shld    \$1, %rcx, %r10
569
570         xor     %ebp,%ebp
571         mulx    %rdx, %rax, %rcx
572          mov    16($inp), %rdx
573         adcx    %rax, %r9
574         adcx    %rcx, %r10
575         adcx    %rbp, %r11
576
577         mov     %r9, 16(%rsp)
578         .byte   0x4c,0x89,0x94,0x24,0x18,0x00,0x00,0x00         # mov   %r10, 24(%rsp)
579
580 #third iteration
581         .byte   0xc4,0x62,0xc3,0xf6,0x8e,0x18,0x00,0x00,0x00    # mulx  24($inp), $out, %r9
582         adox    $out, %r12
583         adcx    %r9, %r13
584
585         mulx    32($inp), %rax, %rcx
586         adox    %rax, %r13
587         adcx    %rcx, %r14
588
589         mulx    40($inp), $out, %r9
590         adox    $out, %r14
591         adcx    %r9, %r15
592
593         .byte   0xc4,0xe2,0xfb,0xf6,0x8e,0x30,0x00,0x00,0x00    # mulx  48($inp), %rax, %rcx
594         adox    %rax, %r15
595         adcx    %rcx, %r8
596
597         .byte   0xc4,0x62,0xc3,0xf6,0x8e,0x38,0x00,0x00,0x00    # mulx  56($inp), $out, %r9
598         adox    $out, %r8
599         adcx    %rbp, %r9
600         adox    %rbp, %r9
601
602         mov     %r13, %rcx
603         shld    \$1, %r12, %r13
604         shld    \$1, %rbx, %r12
605
606         xor     %ebp, %ebp
607         mulx    %rdx, %rax, %rdx
608         adcx    %rax, %r11
609         adcx    %rdx, %r12
610          mov    24($inp), %rdx
611         adcx    %rbp, %r13
612
613         mov     %r11, 32(%rsp)
614         .byte   0x4c,0x89,0xa4,0x24,0x28,0x00,0x00,0x00         # mov   %r12, 40(%rsp)
615
616 #fourth iteration
617         .byte   0xc4,0xe2,0xfb,0xf6,0x9e,0x20,0x00,0x00,0x00    # mulx  32($inp), %rax, %rbx
618         adox    %rax, %r14
619         adcx    %rbx, %r15
620
621         mulx    40($inp), $out, %r10
622         adox    $out, %r15
623         adcx    %r10, %r8
624
625         mulx    48($inp), %rax, %rbx
626         adox    %rax, %r8
627         adcx    %rbx, %r9
628
629         mulx    56($inp), $out, %r10
630         adox    $out, %r9
631         adcx    %rbp, %r10
632         adox    %rbp, %r10
633
634         .byte   0x66
635         mov     %r15, %rbx
636         shld    \$1, %r14, %r15
637         shld    \$1, %rcx, %r14
638
639         xor     %ebp, %ebp
640         mulx    %rdx, %rax, %rdx
641         adcx    %rax, %r13
642         adcx    %rdx, %r14
643          mov    32($inp), %rdx
644         adcx    %rbp, %r15
645
646         mov     %r13, 48(%rsp)
647         mov     %r14, 56(%rsp)
648
649 #fifth iteration
650         .byte   0xc4,0x62,0xc3,0xf6,0x9e,0x28,0x00,0x00,0x00    # mulx  40($inp), $out, %r11
651         adox    $out, %r8
652         adcx    %r11, %r9
653
654         mulx    48($inp), %rax, %rcx
655         adox    %rax, %r9
656         adcx    %rcx, %r10
657
658         mulx    56($inp), $out, %r11
659         adox    $out, %r10
660         adcx    %rbp, %r11
661         adox    %rbp, %r11
662
663         mov     %r9, %rcx
664         shld    \$1, %r8, %r9
665         shld    \$1, %rbx, %r8
666
667         xor     %ebp, %ebp
668         mulx    %rdx, %rax, %rdx
669         adcx    %rax, %r15
670         adcx    %rdx, %r8
671          mov    40($inp), %rdx
672         adcx    %rbp, %r9
673
674         mov     %r15, 64(%rsp)
675         mov     %r8, 72(%rsp)
676
677 #sixth iteration
678         .byte   0xc4,0xe2,0xfb,0xf6,0x9e,0x30,0x00,0x00,0x00    # mulx  48($inp), %rax, %rbx
679         adox    %rax, %r10
680         adcx    %rbx, %r11
681
682         .byte   0xc4,0x62,0xc3,0xf6,0xa6,0x38,0x00,0x00,0x00    # mulx  56($inp), $out, %r12
683         adox    $out, %r11
684         adcx    %rbp, %r12
685         adox    %rbp, %r12
686
687         mov     %r11, %rbx
688         shld    \$1, %r10, %r11
689         shld    \$1, %rcx, %r10
690
691         xor     %ebp, %ebp
692         mulx    %rdx, %rax, %rdx
693         adcx    %rax, %r9
694         adcx    %rdx, %r10
695          mov    48($inp), %rdx
696         adcx    %rbp, %r11
697
698         mov     %r9, 80(%rsp)
699         mov     %r10, 88(%rsp)
700
701 #seventh iteration
702         .byte   0xc4,0x62,0xfb,0xf6,0xae,0x38,0x00,0x00,0x00    # mulx  56($inp), %rax, %r13
703         adox    %rax, %r12
704         adox    %rbp, %r13
705
706         xor     %r14, %r14
707         shld    \$1, %r13, %r14
708         shld    \$1, %r12, %r13
709         shld    \$1, %rbx, %r12
710
711         xor     %ebp, %ebp
712         mulx    %rdx, %rax, %rdx
713         adcx    %rax, %r11
714         adcx    %rdx, %r12
715          mov    56($inp), %rdx
716         adcx    %rbp, %r13
717
718         .byte   0x4c,0x89,0x9c,0x24,0x60,0x00,0x00,0x00         # mov   %r11, 96(%rsp)
719         .byte   0x4c,0x89,0xa4,0x24,0x68,0x00,0x00,0x00         # mov   %r12, 104(%rsp)
720
721 #eighth iteration
722         mulx    %rdx, %rax, %rdx
723         adox    %rax, %r13
724         adox    %rbp, %rdx
725
726         .byte   0x66
727         add     %rdx, %r14
728
729         movq    %r13, 112(%rsp)
730         movq    %r14, 120(%rsp)
731         movq    %xmm0, $out
732         movq    %xmm1, %rbp
733
734         movq    128(%rsp), %rdx         # pull $n0
735         movq    (%rsp), %r8
736         movq    8(%rsp), %r9
737         movq    16(%rsp), %r10
738         movq    24(%rsp), %r11
739         movq    32(%rsp), %r12
740         movq    40(%rsp), %r13
741         movq    48(%rsp), %r14
742         movq    56(%rsp), %r15
743
744         call    __rsaz_512_reducex
745
746         addq    64(%rsp), %r8
747         adcq    72(%rsp), %r9
748         adcq    80(%rsp), %r10
749         adcq    88(%rsp), %r11
750         adcq    96(%rsp), %r12
751         adcq    104(%rsp), %r13
752         adcq    112(%rsp), %r14
753         adcq    120(%rsp), %r15
754         sbbq    %rcx, %rcx
755
756         call    __rsaz_512_subtract
757
758         movq    %r8, %rdx
759         movq    %r9, %rax
760         movl    128+8(%rsp), $times
761         movq    $out, $inp
762
763         decl    $times
764         jnz     .Loop_sqrx
765
766 .Lsqr_tail:
767 ___
768 }
769 $code.=<<___;
770
771         leaq    128+24+48(%rsp), %rax
772 .cfi_def_cfa    %rax,8
773         movq    -48(%rax), %r15
774 .cfi_restore    %r15
775         movq    -40(%rax), %r14
776 .cfi_restore    %r14
777         movq    -32(%rax), %r13
778 .cfi_restore    %r13
779         movq    -24(%rax), %r12
780 .cfi_restore    %r12
781         movq    -16(%rax), %rbp
782 .cfi_restore    %rbp
783         movq    -8(%rax), %rbx
784 .cfi_restore    %rbx
785         leaq    (%rax), %rsp
786 .cfi_def_cfa_register   %rsp
787 .Lsqr_epilogue:
788         ret
789 .cfi_endproc
790 .size   rsaz_512_sqr,.-rsaz_512_sqr
791 ___
792 }
793 {
794 my ($out,$ap,$bp,$mod,$n0) = ("%rdi","%rsi","%rdx","%rcx","%r8");
795 $code.=<<___;
796 .globl  rsaz_512_mul
797 .type   rsaz_512_mul,\@function,5
798 .align  32
799 rsaz_512_mul:
800 .cfi_startproc
801         push    %rbx
802 .cfi_push       %rbx
803         push    %rbp
804 .cfi_push       %rbp
805         push    %r12
806 .cfi_push       %r12
807         push    %r13
808 .cfi_push       %r13
809         push    %r14
810 .cfi_push       %r14
811         push    %r15
812 .cfi_push       %r15
813
814         subq    \$128+24, %rsp
815 .cfi_adjust_cfa_offset  128+24
816 .Lmul_body:
817         movq    $out, %xmm0             # off-load arguments
818         movq    $mod, %xmm1
819         movq    $n0, 128(%rsp)
820 ___
821 $code.=<<___ if ($addx);
822         movl    \$0x80100,%r11d
823         andl    OPENSSL_ia32cap_P+8(%rip),%r11d
824         cmpl    \$0x80100,%r11d         # check for MULX and ADO/CX
825         je      .Lmulx
826 ___
827 $code.=<<___;
828         movq    ($bp), %rbx             # pass b[0]
829         movq    $bp, %rbp               # pass argument
830         call    __rsaz_512_mul
831
832         movq    %xmm0, $out
833         movq    %xmm1, %rbp
834
835         movq    (%rsp), %r8
836         movq    8(%rsp), %r9
837         movq    16(%rsp), %r10
838         movq    24(%rsp), %r11
839         movq    32(%rsp), %r12
840         movq    40(%rsp), %r13
841         movq    48(%rsp), %r14
842         movq    56(%rsp), %r15
843
844         call    __rsaz_512_reduce
845 ___
846 $code.=<<___ if ($addx);
847         jmp     .Lmul_tail
848
849 .align  32
850 .Lmulx:
851         movq    $bp, %rbp               # pass argument
852         movq    ($bp), %rdx             # pass b[0]
853         call    __rsaz_512_mulx
854
855         movq    %xmm0, $out
856         movq    %xmm1, %rbp
857
858         movq    128(%rsp), %rdx         # pull $n0
859         movq    (%rsp), %r8
860         movq    8(%rsp), %r9
861         movq    16(%rsp), %r10
862         movq    24(%rsp), %r11
863         movq    32(%rsp), %r12
864         movq    40(%rsp), %r13
865         movq    48(%rsp), %r14
866         movq    56(%rsp), %r15
867
868         call    __rsaz_512_reducex
869 .Lmul_tail:
870 ___
871 $code.=<<___;
872         addq    64(%rsp), %r8
873         adcq    72(%rsp), %r9
874         adcq    80(%rsp), %r10
875         adcq    88(%rsp), %r11
876         adcq    96(%rsp), %r12
877         adcq    104(%rsp), %r13
878         adcq    112(%rsp), %r14
879         adcq    120(%rsp), %r15
880         sbbq    %rcx, %rcx
881
882         call    __rsaz_512_subtract
883
884         leaq    128+24+48(%rsp), %rax
885 .cfi_def_cfa    %rax,8
886         movq    -48(%rax), %r15
887 .cfi_restore    %r15
888         movq    -40(%rax), %r14
889 .cfi_restore    %r14
890         movq    -32(%rax), %r13
891 .cfi_restore    %r13
892         movq    -24(%rax), %r12
893 .cfi_restore    %r12
894         movq    -16(%rax), %rbp
895 .cfi_restore    %rbp
896         movq    -8(%rax), %rbx
897 .cfi_restore    %rbx
898         leaq    (%rax), %rsp
899 .cfi_def_cfa_register   %rsp
900 .Lmul_epilogue:
901         ret
902 .cfi_endproc
903 .size   rsaz_512_mul,.-rsaz_512_mul
904 ___
905 }
906 {
907 my ($out,$ap,$bp,$mod,$n0,$pwr) = ("%rdi","%rsi","%rdx","%rcx","%r8","%r9d");
908 $code.=<<___;
909 .globl  rsaz_512_mul_gather4
910 .type   rsaz_512_mul_gather4,\@function,6
911 .align  32
912 rsaz_512_mul_gather4:
913 .cfi_startproc
914         push    %rbx
915 .cfi_push       %rbx
916         push    %rbp
917 .cfi_push       %rbp
918         push    %r12
919 .cfi_push       %r12
920         push    %r13
921 .cfi_push       %r13
922         push    %r14
923 .cfi_push       %r14
924         push    %r15
925 .cfi_push       %r15
926
927         subq    \$`128+24+($win64?0xb0:0)`, %rsp
928 .cfi_adjust_cfa_offset  `128+24+($win64?0xb0:0)`
929 ___
930 $code.=<<___    if ($win64);
931         movaps  %xmm6,0xa0(%rsp)
932         movaps  %xmm7,0xb0(%rsp)
933         movaps  %xmm8,0xc0(%rsp)
934         movaps  %xmm9,0xd0(%rsp)
935         movaps  %xmm10,0xe0(%rsp)
936         movaps  %xmm11,0xf0(%rsp)
937         movaps  %xmm12,0x100(%rsp)
938         movaps  %xmm13,0x110(%rsp)
939         movaps  %xmm14,0x120(%rsp)
940         movaps  %xmm15,0x130(%rsp)
941 ___
942 $code.=<<___;
943 .Lmul_gather4_body:
944         movd    $pwr,%xmm8
945         movdqa  .Linc+16(%rip),%xmm1    # 00000002000000020000000200000002
946         movdqa  .Linc(%rip),%xmm0       # 00000001000000010000000000000000
947
948         pshufd  \$0,%xmm8,%xmm8         # broadcast $power
949         movdqa  %xmm1,%xmm7
950         movdqa  %xmm1,%xmm2
951 ___
952 ########################################################################
953 # calculate mask by comparing 0..15 to $power
954 #
955 for($i=0;$i<4;$i++) {
956 $code.=<<___;
957         paddd   %xmm`$i`,%xmm`$i+1`
958         pcmpeqd %xmm8,%xmm`$i`
959         movdqa  %xmm7,%xmm`$i+3`
960 ___
961 }
962 for(;$i<7;$i++) {
963 $code.=<<___;
964         paddd   %xmm`$i`,%xmm`$i+1`
965         pcmpeqd %xmm8,%xmm`$i`
966 ___
967 }
968 $code.=<<___;
969         pcmpeqd %xmm8,%xmm7
970
971         movdqa  16*0($bp),%xmm8
972         movdqa  16*1($bp),%xmm9
973         movdqa  16*2($bp),%xmm10
974         movdqa  16*3($bp),%xmm11
975         pand    %xmm0,%xmm8
976         movdqa  16*4($bp),%xmm12
977         pand    %xmm1,%xmm9
978         movdqa  16*5($bp),%xmm13
979         pand    %xmm2,%xmm10
980         movdqa  16*6($bp),%xmm14
981         pand    %xmm3,%xmm11
982         movdqa  16*7($bp),%xmm15
983         leaq    128($bp), %rbp
984         pand    %xmm4,%xmm12
985         pand    %xmm5,%xmm13
986         pand    %xmm6,%xmm14
987         pand    %xmm7,%xmm15
988         por     %xmm10,%xmm8
989         por     %xmm11,%xmm9
990         por     %xmm12,%xmm8
991         por     %xmm13,%xmm9
992         por     %xmm14,%xmm8
993         por     %xmm15,%xmm9
994
995         por     %xmm9,%xmm8
996         pshufd  \$0x4e,%xmm8,%xmm9
997         por     %xmm9,%xmm8
998 ___
999 $code.=<<___ if ($addx);
1000         movl    \$0x80100,%r11d
1001         andl    OPENSSL_ia32cap_P+8(%rip),%r11d
1002         cmpl    \$0x80100,%r11d         # check for MULX and ADO/CX
1003         je      .Lmulx_gather
1004 ___
1005 $code.=<<___;
1006         movq    %xmm8,%rbx
1007
1008         movq    $n0, 128(%rsp)          # off-load arguments
1009         movq    $out, 128+8(%rsp)
1010         movq    $mod, 128+16(%rsp)
1011
1012         movq    ($ap), %rax
1013          movq   8($ap), %rcx
1014         mulq    %rbx                    # 0 iteration
1015         movq    %rax, (%rsp)
1016         movq    %rcx, %rax
1017         movq    %rdx, %r8
1018
1019         mulq    %rbx
1020         addq    %rax, %r8
1021         movq    16($ap), %rax
1022         movq    %rdx, %r9
1023         adcq    \$0, %r9
1024
1025         mulq    %rbx
1026         addq    %rax, %r9
1027         movq    24($ap), %rax
1028         movq    %rdx, %r10
1029         adcq    \$0, %r10
1030
1031         mulq    %rbx
1032         addq    %rax, %r10
1033         movq    32($ap), %rax
1034         movq    %rdx, %r11
1035         adcq    \$0, %r11
1036
1037         mulq    %rbx
1038         addq    %rax, %r11
1039         movq    40($ap), %rax
1040         movq    %rdx, %r12
1041         adcq    \$0, %r12
1042
1043         mulq    %rbx
1044         addq    %rax, %r12
1045         movq    48($ap), %rax
1046         movq    %rdx, %r13
1047         adcq    \$0, %r13
1048
1049         mulq    %rbx
1050         addq    %rax, %r13
1051         movq    56($ap), %rax
1052         movq    %rdx, %r14
1053         adcq    \$0, %r14
1054
1055         mulq    %rbx
1056         addq    %rax, %r14
1057          movq   ($ap), %rax
1058         movq    %rdx, %r15
1059         adcq    \$0, %r15
1060
1061         leaq    8(%rsp), %rdi
1062         movl    \$7, %ecx
1063         jmp     .Loop_mul_gather
1064
1065 .align  32
1066 .Loop_mul_gather:
1067         movdqa  16*0(%rbp),%xmm8
1068         movdqa  16*1(%rbp),%xmm9
1069         movdqa  16*2(%rbp),%xmm10
1070         movdqa  16*3(%rbp),%xmm11
1071         pand    %xmm0,%xmm8
1072         movdqa  16*4(%rbp),%xmm12
1073         pand    %xmm1,%xmm9
1074         movdqa  16*5(%rbp),%xmm13
1075         pand    %xmm2,%xmm10
1076         movdqa  16*6(%rbp),%xmm14
1077         pand    %xmm3,%xmm11
1078         movdqa  16*7(%rbp),%xmm15
1079         leaq    128(%rbp), %rbp
1080         pand    %xmm4,%xmm12
1081         pand    %xmm5,%xmm13
1082         pand    %xmm6,%xmm14
1083         pand    %xmm7,%xmm15
1084         por     %xmm10,%xmm8
1085         por     %xmm11,%xmm9
1086         por     %xmm12,%xmm8
1087         por     %xmm13,%xmm9
1088         por     %xmm14,%xmm8
1089         por     %xmm15,%xmm9
1090
1091         por     %xmm9,%xmm8
1092         pshufd  \$0x4e,%xmm8,%xmm9
1093         por     %xmm9,%xmm8
1094         movq    %xmm8,%rbx
1095
1096         mulq    %rbx
1097         addq    %rax, %r8
1098         movq    8($ap), %rax
1099         movq    %r8, (%rdi)
1100         movq    %rdx, %r8
1101         adcq    \$0, %r8
1102
1103         mulq    %rbx
1104         addq    %rax, %r9
1105         movq    16($ap), %rax
1106         adcq    \$0, %rdx
1107         addq    %r9, %r8
1108         movq    %rdx, %r9
1109         adcq    \$0, %r9
1110
1111         mulq    %rbx
1112         addq    %rax, %r10
1113         movq    24($ap), %rax
1114         adcq    \$0, %rdx
1115         addq    %r10, %r9
1116         movq    %rdx, %r10
1117         adcq    \$0, %r10
1118
1119         mulq    %rbx
1120         addq    %rax, %r11
1121         movq    32($ap), %rax
1122         adcq    \$0, %rdx
1123         addq    %r11, %r10
1124         movq    %rdx, %r11
1125         adcq    \$0, %r11
1126
1127         mulq    %rbx
1128         addq    %rax, %r12
1129         movq    40($ap), %rax
1130         adcq    \$0, %rdx
1131         addq    %r12, %r11
1132         movq    %rdx, %r12
1133         adcq    \$0, %r12
1134
1135         mulq    %rbx
1136         addq    %rax, %r13
1137         movq    48($ap), %rax
1138         adcq    \$0, %rdx
1139         addq    %r13, %r12
1140         movq    %rdx, %r13
1141         adcq    \$0, %r13
1142
1143         mulq    %rbx
1144         addq    %rax, %r14
1145         movq    56($ap), %rax
1146         adcq    \$0, %rdx
1147         addq    %r14, %r13
1148         movq    %rdx, %r14
1149         adcq    \$0, %r14
1150
1151         mulq    %rbx
1152         addq    %rax, %r15
1153          movq   ($ap), %rax
1154         adcq    \$0, %rdx
1155         addq    %r15, %r14
1156         movq    %rdx, %r15
1157         adcq    \$0, %r15
1158
1159         leaq    8(%rdi), %rdi
1160
1161         decl    %ecx
1162         jnz     .Loop_mul_gather
1163
1164         movq    %r8, (%rdi)
1165         movq    %r9, 8(%rdi)
1166         movq    %r10, 16(%rdi)
1167         movq    %r11, 24(%rdi)
1168         movq    %r12, 32(%rdi)
1169         movq    %r13, 40(%rdi)
1170         movq    %r14, 48(%rdi)
1171         movq    %r15, 56(%rdi)
1172
1173         movq    128+8(%rsp), $out
1174         movq    128+16(%rsp), %rbp
1175
1176         movq    (%rsp), %r8
1177         movq    8(%rsp), %r9
1178         movq    16(%rsp), %r10
1179         movq    24(%rsp), %r11
1180         movq    32(%rsp), %r12
1181         movq    40(%rsp), %r13
1182         movq    48(%rsp), %r14
1183         movq    56(%rsp), %r15
1184
1185         call    __rsaz_512_reduce
1186 ___
1187 $code.=<<___ if ($addx);
1188         jmp     .Lmul_gather_tail
1189
1190 .align  32
1191 .Lmulx_gather:
1192         movq    %xmm8,%rdx
1193
1194         mov     $n0, 128(%rsp)          # off-load arguments
1195         mov     $out, 128+8(%rsp)
1196         mov     $mod, 128+16(%rsp)
1197
1198         mulx    ($ap), %rbx, %r8        # 0 iteration
1199         mov     %rbx, (%rsp)
1200         xor     %edi, %edi              # cf=0, of=0
1201
1202         mulx    8($ap), %rax, %r9
1203
1204         mulx    16($ap), %rbx, %r10
1205         adcx    %rax, %r8
1206
1207         mulx    24($ap), %rax, %r11
1208         adcx    %rbx, %r9
1209
1210         mulx    32($ap), %rbx, %r12
1211         adcx    %rax, %r10
1212
1213         mulx    40($ap), %rax, %r13
1214         adcx    %rbx, %r11
1215
1216         mulx    48($ap), %rbx, %r14
1217         adcx    %rax, %r12
1218
1219         mulx    56($ap), %rax, %r15
1220         adcx    %rbx, %r13
1221         adcx    %rax, %r14
1222         .byte   0x67
1223         mov     %r8, %rbx
1224         adcx    %rdi, %r15              # %rdi is 0
1225
1226         mov     \$-7, %rcx
1227         jmp     .Loop_mulx_gather
1228
1229 .align  32
1230 .Loop_mulx_gather:
1231         movdqa  16*0(%rbp),%xmm8
1232         movdqa  16*1(%rbp),%xmm9
1233         movdqa  16*2(%rbp),%xmm10
1234         movdqa  16*3(%rbp),%xmm11
1235         pand    %xmm0,%xmm8
1236         movdqa  16*4(%rbp),%xmm12
1237         pand    %xmm1,%xmm9
1238         movdqa  16*5(%rbp),%xmm13
1239         pand    %xmm2,%xmm10
1240         movdqa  16*6(%rbp),%xmm14
1241         pand    %xmm3,%xmm11
1242         movdqa  16*7(%rbp),%xmm15
1243         leaq    128(%rbp), %rbp
1244         pand    %xmm4,%xmm12
1245         pand    %xmm5,%xmm13
1246         pand    %xmm6,%xmm14
1247         pand    %xmm7,%xmm15
1248         por     %xmm10,%xmm8
1249         por     %xmm11,%xmm9
1250         por     %xmm12,%xmm8
1251         por     %xmm13,%xmm9
1252         por     %xmm14,%xmm8
1253         por     %xmm15,%xmm9
1254
1255         por     %xmm9,%xmm8
1256         pshufd  \$0x4e,%xmm8,%xmm9
1257         por     %xmm9,%xmm8
1258         movq    %xmm8,%rdx
1259
1260         .byte   0xc4,0x62,0xfb,0xf6,0x86,0x00,0x00,0x00,0x00    # mulx  ($ap), %rax, %r8
1261         adcx    %rax, %rbx
1262         adox    %r9, %r8
1263
1264         mulx    8($ap), %rax, %r9
1265         adcx    %rax, %r8
1266         adox    %r10, %r9
1267
1268         mulx    16($ap), %rax, %r10
1269         adcx    %rax, %r9
1270         adox    %r11, %r10
1271
1272         .byte   0xc4,0x62,0xfb,0xf6,0x9e,0x18,0x00,0x00,0x00    # mulx  24($ap), %rax, %r11
1273         adcx    %rax, %r10
1274         adox    %r12, %r11
1275
1276         mulx    32($ap), %rax, %r12
1277         adcx    %rax, %r11
1278         adox    %r13, %r12
1279
1280         mulx    40($ap), %rax, %r13
1281         adcx    %rax, %r12
1282         adox    %r14, %r13
1283
1284         .byte   0xc4,0x62,0xfb,0xf6,0xb6,0x30,0x00,0x00,0x00    # mulx  48($ap), %rax, %r14
1285         adcx    %rax, %r13
1286         .byte   0x67
1287         adox    %r15, %r14
1288
1289         mulx    56($ap), %rax, %r15
1290          mov    %rbx, 64(%rsp,%rcx,8)
1291         adcx    %rax, %r14
1292         adox    %rdi, %r15
1293         mov     %r8, %rbx
1294         adcx    %rdi, %r15              # cf=0
1295
1296         inc     %rcx                    # of=0
1297         jnz     .Loop_mulx_gather
1298
1299         mov     %r8, 64(%rsp)
1300         mov     %r9, 64+8(%rsp)
1301         mov     %r10, 64+16(%rsp)
1302         mov     %r11, 64+24(%rsp)
1303         mov     %r12, 64+32(%rsp)
1304         mov     %r13, 64+40(%rsp)
1305         mov     %r14, 64+48(%rsp)
1306         mov     %r15, 64+56(%rsp)
1307
1308         mov     128(%rsp), %rdx         # pull arguments
1309         mov     128+8(%rsp), $out
1310         mov     128+16(%rsp), %rbp
1311
1312         mov     (%rsp), %r8
1313         mov     8(%rsp), %r9
1314         mov     16(%rsp), %r10
1315         mov     24(%rsp), %r11
1316         mov     32(%rsp), %r12
1317         mov     40(%rsp), %r13
1318         mov     48(%rsp), %r14
1319         mov     56(%rsp), %r15
1320
1321         call    __rsaz_512_reducex
1322
1323 .Lmul_gather_tail:
1324 ___
1325 $code.=<<___;
1326         addq    64(%rsp), %r8
1327         adcq    72(%rsp), %r9
1328         adcq    80(%rsp), %r10
1329         adcq    88(%rsp), %r11
1330         adcq    96(%rsp), %r12
1331         adcq    104(%rsp), %r13
1332         adcq    112(%rsp), %r14
1333         adcq    120(%rsp), %r15
1334         sbbq    %rcx, %rcx
1335
1336         call    __rsaz_512_subtract
1337
1338         leaq    128+24+48(%rsp), %rax
1339 ___
1340 $code.=<<___    if ($win64);
1341         movaps  0xa0-0xc8(%rax),%xmm6
1342         movaps  0xb0-0xc8(%rax),%xmm7
1343         movaps  0xc0-0xc8(%rax),%xmm8
1344         movaps  0xd0-0xc8(%rax),%xmm9
1345         movaps  0xe0-0xc8(%rax),%xmm10
1346         movaps  0xf0-0xc8(%rax),%xmm11
1347         movaps  0x100-0xc8(%rax),%xmm12
1348         movaps  0x110-0xc8(%rax),%xmm13
1349         movaps  0x120-0xc8(%rax),%xmm14
1350         movaps  0x130-0xc8(%rax),%xmm15
1351         lea     0xb0(%rax),%rax
1352 ___
1353 $code.=<<___;
1354 .cfi_def_cfa    %rax,8
1355         movq    -48(%rax), %r15
1356 .cfi_restore    %r15
1357         movq    -40(%rax), %r14
1358 .cfi_restore    %r14
1359         movq    -32(%rax), %r13
1360 .cfi_restore    %r13
1361         movq    -24(%rax), %r12
1362 .cfi_restore    %r12
1363         movq    -16(%rax), %rbp
1364 .cfi_restore    %rbp
1365         movq    -8(%rax), %rbx
1366 .cfi_restore    %rbx
1367         leaq    (%rax), %rsp
1368 .cfi_def_cfa_register   %rsp
1369 .Lmul_gather4_epilogue:
1370         ret
1371 .cfi_endproc
1372 .size   rsaz_512_mul_gather4,.-rsaz_512_mul_gather4
1373 ___
1374 }
1375 {
1376 my ($out,$ap,$mod,$n0,$tbl,$pwr) = ("%rdi","%rsi","%rdx","%rcx","%r8","%r9d");
1377 $code.=<<___;
1378 .globl  rsaz_512_mul_scatter4
1379 .type   rsaz_512_mul_scatter4,\@function,6
1380 .align  32
1381 rsaz_512_mul_scatter4:
1382 .cfi_startproc
1383         push    %rbx
1384 .cfi_push       %rbx
1385         push    %rbp
1386 .cfi_push       %rbp
1387         push    %r12
1388 .cfi_push       %r12
1389         push    %r13
1390 .cfi_push       %r13
1391         push    %r14
1392 .cfi_push       %r14
1393         push    %r15
1394 .cfi_push       %r15
1395
1396         mov     $pwr, $pwr
1397         subq    \$128+24, %rsp
1398 .cfi_adjust_cfa_offset  128+24
1399 .Lmul_scatter4_body:
1400         leaq    ($tbl,$pwr,8), $tbl
1401         movq    $out, %xmm0             # off-load arguments
1402         movq    $mod, %xmm1
1403         movq    $tbl, %xmm2
1404         movq    $n0, 128(%rsp)
1405
1406         movq    $out, %rbp
1407 ___
1408 $code.=<<___ if ($addx);
1409         movl    \$0x80100,%r11d
1410         andl    OPENSSL_ia32cap_P+8(%rip),%r11d
1411         cmpl    \$0x80100,%r11d         # check for MULX and ADO/CX
1412         je      .Lmulx_scatter
1413 ___
1414 $code.=<<___;
1415         movq    ($out),%rbx             # pass b[0]
1416         call    __rsaz_512_mul
1417
1418         movq    %xmm0, $out
1419         movq    %xmm1, %rbp
1420
1421         movq    (%rsp), %r8
1422         movq    8(%rsp), %r9
1423         movq    16(%rsp), %r10
1424         movq    24(%rsp), %r11
1425         movq    32(%rsp), %r12
1426         movq    40(%rsp), %r13
1427         movq    48(%rsp), %r14
1428         movq    56(%rsp), %r15
1429
1430         call    __rsaz_512_reduce
1431 ___
1432 $code.=<<___ if ($addx);
1433         jmp     .Lmul_scatter_tail
1434
1435 .align  32
1436 .Lmulx_scatter:
1437         movq    ($out), %rdx            # pass b[0]
1438         call    __rsaz_512_mulx
1439
1440         movq    %xmm0, $out
1441         movq    %xmm1, %rbp
1442
1443         movq    128(%rsp), %rdx         # pull $n0
1444         movq    (%rsp), %r8
1445         movq    8(%rsp), %r9
1446         movq    16(%rsp), %r10
1447         movq    24(%rsp), %r11
1448         movq    32(%rsp), %r12
1449         movq    40(%rsp), %r13
1450         movq    48(%rsp), %r14
1451         movq    56(%rsp), %r15
1452
1453         call    __rsaz_512_reducex
1454
1455 .Lmul_scatter_tail:
1456 ___
1457 $code.=<<___;
1458         addq    64(%rsp), %r8
1459         adcq    72(%rsp), %r9
1460         adcq    80(%rsp), %r10
1461         adcq    88(%rsp), %r11
1462         adcq    96(%rsp), %r12
1463         adcq    104(%rsp), %r13
1464         adcq    112(%rsp), %r14
1465         adcq    120(%rsp), %r15
1466         movq    %xmm2, $inp
1467         sbbq    %rcx, %rcx
1468
1469         call    __rsaz_512_subtract
1470
1471         movq    %r8, 128*0($inp)        # scatter
1472         movq    %r9, 128*1($inp)
1473         movq    %r10, 128*2($inp)
1474         movq    %r11, 128*3($inp)
1475         movq    %r12, 128*4($inp)
1476         movq    %r13, 128*5($inp)
1477         movq    %r14, 128*6($inp)
1478         movq    %r15, 128*7($inp)
1479
1480         leaq    128+24+48(%rsp), %rax
1481 .cfi_def_cfa    %rax,8
1482         movq    -48(%rax), %r15
1483 .cfi_restore    %r15
1484         movq    -40(%rax), %r14
1485 .cfi_restore    %r14
1486         movq    -32(%rax), %r13
1487 .cfi_restore    %r13
1488         movq    -24(%rax), %r12
1489 .cfi_restore    %r12
1490         movq    -16(%rax), %rbp
1491 .cfi_restore    %rbp
1492         movq    -8(%rax), %rbx
1493 .cfi_restore    %rbx
1494         leaq    (%rax), %rsp
1495 .cfi_def_cfa_register   %rsp
1496 .Lmul_scatter4_epilogue:
1497         ret
1498 .cfi_endproc
1499 .size   rsaz_512_mul_scatter4,.-rsaz_512_mul_scatter4
1500 ___
1501 }
1502 {
1503 my ($out,$inp,$mod,$n0) = ("%rdi","%rsi","%rdx","%rcx");
1504 $code.=<<___;
1505 .globl  rsaz_512_mul_by_one
1506 .type   rsaz_512_mul_by_one,\@function,4
1507 .align  32
1508 rsaz_512_mul_by_one:
1509 .cfi_startproc
1510         push    %rbx
1511 .cfi_push       %rbx
1512         push    %rbp
1513 .cfi_push       %rbp
1514         push    %r12
1515 .cfi_push       %r12
1516         push    %r13
1517 .cfi_push       %r13
1518         push    %r14
1519 .cfi_push       %r14
1520         push    %r15
1521 .cfi_push       %r15
1522
1523         subq    \$128+24, %rsp
1524 .cfi_adjust_cfa_offset  128+24
1525 .Lmul_by_one_body:
1526 ___
1527 $code.=<<___ if ($addx);
1528         movl    OPENSSL_ia32cap_P+8(%rip),%eax
1529 ___
1530 $code.=<<___;
1531         movq    $mod, %rbp      # reassign argument
1532         movq    $n0, 128(%rsp)
1533
1534         movq    ($inp), %r8
1535         pxor    %xmm0, %xmm0
1536         movq    8($inp), %r9
1537         movq    16($inp), %r10
1538         movq    24($inp), %r11
1539         movq    32($inp), %r12
1540         movq    40($inp), %r13
1541         movq    48($inp), %r14
1542         movq    56($inp), %r15
1543
1544         movdqa  %xmm0, (%rsp)
1545         movdqa  %xmm0, 16(%rsp)
1546         movdqa  %xmm0, 32(%rsp)
1547         movdqa  %xmm0, 48(%rsp)
1548         movdqa  %xmm0, 64(%rsp)
1549         movdqa  %xmm0, 80(%rsp)
1550         movdqa  %xmm0, 96(%rsp)
1551 ___
1552 $code.=<<___ if ($addx);
1553         andl    \$0x80100,%eax
1554         cmpl    \$0x80100,%eax          # check for MULX and ADO/CX
1555         je      .Lby_one_callx
1556 ___
1557 $code.=<<___;
1558         call    __rsaz_512_reduce
1559 ___
1560 $code.=<<___ if ($addx);
1561         jmp     .Lby_one_tail
1562 .align  32
1563 .Lby_one_callx:
1564         movq    128(%rsp), %rdx         # pull $n0
1565         call    __rsaz_512_reducex
1566 .Lby_one_tail:
1567 ___
1568 $code.=<<___;
1569         movq    %r8, ($out)
1570         movq    %r9, 8($out)
1571         movq    %r10, 16($out)
1572         movq    %r11, 24($out)
1573         movq    %r12, 32($out)
1574         movq    %r13, 40($out)
1575         movq    %r14, 48($out)
1576         movq    %r15, 56($out)
1577
1578         leaq    128+24+48(%rsp), %rax
1579 .cfi_def_cfa    %rax,8
1580         movq    -48(%rax), %r15
1581 .cfi_restore    %r15
1582         movq    -40(%rax), %r14
1583 .cfi_restore    %r14
1584         movq    -32(%rax), %r13
1585 .cfi_restore    %r13
1586         movq    -24(%rax), %r12
1587 .cfi_restore    %r12
1588         movq    -16(%rax), %rbp
1589 .cfi_restore    %rbp
1590         movq    -8(%rax), %rbx
1591 .cfi_restore    %rbx
1592         leaq    (%rax), %rsp
1593 .cfi_def_cfa_register   %rsp
1594 .Lmul_by_one_epilogue:
1595         ret
1596 .cfi_endproc
1597 .size   rsaz_512_mul_by_one,.-rsaz_512_mul_by_one
1598 ___
1599 }
1600 {       # __rsaz_512_reduce
1601         #
1602         # input:        %r8-%r15, %rbp - mod, 128(%rsp) - n0
1603         # output:       %r8-%r15
1604         # clobbers:     everything except %rbp and %rdi
1605 $code.=<<___;
1606 .type   __rsaz_512_reduce,\@abi-omnipotent
1607 .align  32
1608 __rsaz_512_reduce:
1609         movq    %r8, %rbx
1610         imulq   128+8(%rsp), %rbx
1611         movq    0(%rbp), %rax
1612         movl    \$8, %ecx
1613         jmp     .Lreduction_loop
1614
1615 .align  32
1616 .Lreduction_loop:
1617         mulq    %rbx
1618         movq    8(%rbp), %rax
1619         negq    %r8
1620         movq    %rdx, %r8
1621         adcq    \$0, %r8
1622
1623         mulq    %rbx
1624         addq    %rax, %r9
1625         movq    16(%rbp), %rax
1626         adcq    \$0, %rdx
1627         addq    %r9, %r8
1628         movq    %rdx, %r9
1629         adcq    \$0, %r9
1630
1631         mulq    %rbx
1632         addq    %rax, %r10
1633         movq    24(%rbp), %rax
1634         adcq    \$0, %rdx
1635         addq    %r10, %r9
1636         movq    %rdx, %r10
1637         adcq    \$0, %r10
1638
1639         mulq    %rbx
1640         addq    %rax, %r11
1641         movq    32(%rbp), %rax
1642         adcq    \$0, %rdx
1643         addq    %r11, %r10
1644          movq   128+8(%rsp), %rsi
1645         #movq   %rdx, %r11
1646         #adcq   \$0, %r11
1647         adcq    \$0, %rdx
1648         movq    %rdx, %r11
1649
1650         mulq    %rbx
1651         addq    %rax, %r12
1652         movq    40(%rbp), %rax
1653         adcq    \$0, %rdx
1654          imulq  %r8, %rsi
1655         addq    %r12, %r11
1656         movq    %rdx, %r12
1657         adcq    \$0, %r12
1658
1659         mulq    %rbx
1660         addq    %rax, %r13
1661         movq    48(%rbp), %rax
1662         adcq    \$0, %rdx
1663         addq    %r13, %r12
1664         movq    %rdx, %r13
1665         adcq    \$0, %r13
1666
1667         mulq    %rbx
1668         addq    %rax, %r14
1669         movq    56(%rbp), %rax
1670         adcq    \$0, %rdx
1671         addq    %r14, %r13
1672         movq    %rdx, %r14
1673         adcq    \$0, %r14
1674
1675         mulq    %rbx
1676          movq   %rsi, %rbx
1677         addq    %rax, %r15
1678          movq   0(%rbp), %rax
1679         adcq    \$0, %rdx
1680         addq    %r15, %r14
1681         movq    %rdx, %r15
1682         adcq    \$0, %r15
1683
1684         decl    %ecx
1685         jne     .Lreduction_loop
1686
1687         ret
1688 .size   __rsaz_512_reduce,.-__rsaz_512_reduce
1689 ___
1690 }
1691 if ($addx) {
1692         # __rsaz_512_reducex
1693         #
1694         # input:        %r8-%r15, %rbp - mod, 128(%rsp) - n0
1695         # output:       %r8-%r15
1696         # clobbers:     everything except %rbp and %rdi
1697 $code.=<<___;
1698 .type   __rsaz_512_reducex,\@abi-omnipotent
1699 .align  32
1700 __rsaz_512_reducex:
1701         #movq   128+8(%rsp), %rdx               # pull $n0
1702         imulq   %r8, %rdx
1703         xorq    %rsi, %rsi                      # cf=0,of=0
1704         movl    \$8, %ecx
1705         jmp     .Lreduction_loopx
1706
1707 .align  32
1708 .Lreduction_loopx:
1709         mov     %r8, %rbx
1710         mulx    0(%rbp), %rax, %r8
1711         adcx    %rbx, %rax
1712         adox    %r9, %r8
1713
1714         mulx    8(%rbp), %rax, %r9
1715         adcx    %rax, %r8
1716         adox    %r10, %r9
1717
1718         mulx    16(%rbp), %rbx, %r10
1719         adcx    %rbx, %r9
1720         adox    %r11, %r10
1721
1722         mulx    24(%rbp), %rbx, %r11
1723         adcx    %rbx, %r10
1724         adox    %r12, %r11
1725
1726         .byte   0xc4,0x62,0xe3,0xf6,0xa5,0x20,0x00,0x00,0x00    # mulx  32(%rbp), %rbx, %r12
1727          mov    %rdx, %rax
1728          mov    %r8, %rdx
1729         adcx    %rbx, %r11
1730         adox    %r13, %r12
1731
1732          mulx   128+8(%rsp), %rbx, %rdx
1733          mov    %rax, %rdx
1734
1735         mulx    40(%rbp), %rax, %r13
1736         adcx    %rax, %r12
1737         adox    %r14, %r13
1738
1739         .byte   0xc4,0x62,0xfb,0xf6,0xb5,0x30,0x00,0x00,0x00    # mulx  48(%rbp), %rax, %r14
1740         adcx    %rax, %r13
1741         adox    %r15, %r14
1742
1743         mulx    56(%rbp), %rax, %r15
1744          mov    %rbx, %rdx
1745         adcx    %rax, %r14
1746         adox    %rsi, %r15                      # %rsi is 0
1747         adcx    %rsi, %r15                      # cf=0
1748
1749         decl    %ecx                            # of=0
1750         jne     .Lreduction_loopx
1751
1752         ret
1753 .size   __rsaz_512_reducex,.-__rsaz_512_reducex
1754 ___
1755 }
1756 {       # __rsaz_512_subtract
1757         # input: %r8-%r15, %rdi - $out, %rbp - $mod, %rcx - mask
1758         # output:
1759         # clobbers: everything but %rdi, %rsi and %rbp
1760 $code.=<<___;
1761 .type   __rsaz_512_subtract,\@abi-omnipotent
1762 .align  32
1763 __rsaz_512_subtract:
1764         movq    %r8, ($out)
1765         movq    %r9, 8($out)
1766         movq    %r10, 16($out)
1767         movq    %r11, 24($out)
1768         movq    %r12, 32($out)
1769         movq    %r13, 40($out)
1770         movq    %r14, 48($out)
1771         movq    %r15, 56($out)
1772
1773         movq    0($mod), %r8
1774         movq    8($mod), %r9
1775         negq    %r8
1776         notq    %r9
1777         andq    %rcx, %r8
1778         movq    16($mod), %r10
1779         andq    %rcx, %r9
1780         notq    %r10
1781         movq    24($mod), %r11
1782         andq    %rcx, %r10
1783         notq    %r11
1784         movq    32($mod), %r12
1785         andq    %rcx, %r11
1786         notq    %r12
1787         movq    40($mod), %r13
1788         andq    %rcx, %r12
1789         notq    %r13
1790         movq    48($mod), %r14
1791         andq    %rcx, %r13
1792         notq    %r14
1793         movq    56($mod), %r15
1794         andq    %rcx, %r14
1795         notq    %r15
1796         andq    %rcx, %r15
1797
1798         addq    ($out), %r8
1799         adcq    8($out), %r9
1800         adcq    16($out), %r10
1801         adcq    24($out), %r11
1802         adcq    32($out), %r12
1803         adcq    40($out), %r13
1804         adcq    48($out), %r14
1805         adcq    56($out), %r15
1806
1807         movq    %r8, ($out)
1808         movq    %r9, 8($out)
1809         movq    %r10, 16($out)
1810         movq    %r11, 24($out)
1811         movq    %r12, 32($out)
1812         movq    %r13, 40($out)
1813         movq    %r14, 48($out)
1814         movq    %r15, 56($out)
1815
1816         ret
1817 .size   __rsaz_512_subtract,.-__rsaz_512_subtract
1818 ___
1819 }
1820 {       # __rsaz_512_mul
1821         #
1822         # input: %rsi - ap, %rbp - bp
1823         # output:
1824         # clobbers: everything
1825 my ($ap,$bp) = ("%rsi","%rbp");
1826 $code.=<<___;
1827 .type   __rsaz_512_mul,\@abi-omnipotent
1828 .align  32
1829 __rsaz_512_mul:
1830         leaq    8(%rsp), %rdi
1831
1832         movq    ($ap), %rax
1833         mulq    %rbx
1834         movq    %rax, (%rdi)
1835         movq    8($ap), %rax
1836         movq    %rdx, %r8
1837
1838         mulq    %rbx
1839         addq    %rax, %r8
1840         movq    16($ap), %rax
1841         movq    %rdx, %r9
1842         adcq    \$0, %r9
1843
1844         mulq    %rbx
1845         addq    %rax, %r9
1846         movq    24($ap), %rax
1847         movq    %rdx, %r10
1848         adcq    \$0, %r10
1849
1850         mulq    %rbx
1851         addq    %rax, %r10
1852         movq    32($ap), %rax
1853         movq    %rdx, %r11
1854         adcq    \$0, %r11
1855
1856         mulq    %rbx
1857         addq    %rax, %r11
1858         movq    40($ap), %rax
1859         movq    %rdx, %r12
1860         adcq    \$0, %r12
1861
1862         mulq    %rbx
1863         addq    %rax, %r12
1864         movq    48($ap), %rax
1865         movq    %rdx, %r13
1866         adcq    \$0, %r13
1867
1868         mulq    %rbx
1869         addq    %rax, %r13
1870         movq    56($ap), %rax
1871         movq    %rdx, %r14
1872         adcq    \$0, %r14
1873
1874         mulq    %rbx
1875         addq    %rax, %r14
1876          movq   ($ap), %rax
1877         movq    %rdx, %r15
1878         adcq    \$0, %r15
1879
1880         leaq    8($bp), $bp
1881         leaq    8(%rdi), %rdi
1882
1883         movl    \$7, %ecx
1884         jmp     .Loop_mul
1885
1886 .align  32
1887 .Loop_mul:
1888         movq    ($bp), %rbx
1889         mulq    %rbx
1890         addq    %rax, %r8
1891         movq    8($ap), %rax
1892         movq    %r8, (%rdi)
1893         movq    %rdx, %r8
1894         adcq    \$0, %r8
1895
1896         mulq    %rbx
1897         addq    %rax, %r9
1898         movq    16($ap), %rax
1899         adcq    \$0, %rdx
1900         addq    %r9, %r8
1901         movq    %rdx, %r9
1902         adcq    \$0, %r9
1903
1904         mulq    %rbx
1905         addq    %rax, %r10
1906         movq    24($ap), %rax
1907         adcq    \$0, %rdx
1908         addq    %r10, %r9
1909         movq    %rdx, %r10
1910         adcq    \$0, %r10
1911
1912         mulq    %rbx
1913         addq    %rax, %r11
1914         movq    32($ap), %rax
1915         adcq    \$0, %rdx
1916         addq    %r11, %r10
1917         movq    %rdx, %r11
1918         adcq    \$0, %r11
1919
1920         mulq    %rbx
1921         addq    %rax, %r12
1922         movq    40($ap), %rax
1923         adcq    \$0, %rdx
1924         addq    %r12, %r11
1925         movq    %rdx, %r12
1926         adcq    \$0, %r12
1927
1928         mulq    %rbx
1929         addq    %rax, %r13
1930         movq    48($ap), %rax
1931         adcq    \$0, %rdx
1932         addq    %r13, %r12
1933         movq    %rdx, %r13
1934         adcq    \$0, %r13
1935
1936         mulq    %rbx
1937         addq    %rax, %r14
1938         movq    56($ap), %rax
1939         adcq    \$0, %rdx
1940         addq    %r14, %r13
1941         movq    %rdx, %r14
1942          leaq   8($bp), $bp
1943         adcq    \$0, %r14
1944
1945         mulq    %rbx
1946         addq    %rax, %r15
1947          movq   ($ap), %rax
1948         adcq    \$0, %rdx
1949         addq    %r15, %r14
1950         movq    %rdx, %r15
1951         adcq    \$0, %r15
1952
1953         leaq    8(%rdi), %rdi
1954
1955         decl    %ecx
1956         jnz     .Loop_mul
1957
1958         movq    %r8, (%rdi)
1959         movq    %r9, 8(%rdi)
1960         movq    %r10, 16(%rdi)
1961         movq    %r11, 24(%rdi)
1962         movq    %r12, 32(%rdi)
1963         movq    %r13, 40(%rdi)
1964         movq    %r14, 48(%rdi)
1965         movq    %r15, 56(%rdi)
1966
1967         ret
1968 .size   __rsaz_512_mul,.-__rsaz_512_mul
1969 ___
1970 }
1971 if ($addx) {
1972         # __rsaz_512_mulx
1973         #
1974         # input: %rsi - ap, %rbp - bp
1975         # output:
1976         # clobbers: everything
1977 my ($ap,$bp,$zero) = ("%rsi","%rbp","%rdi");
1978 $code.=<<___;
1979 .type   __rsaz_512_mulx,\@abi-omnipotent
1980 .align  32
1981 __rsaz_512_mulx:
1982         mulx    ($ap), %rbx, %r8        # initial %rdx preloaded by caller
1983         mov     \$-6, %rcx
1984
1985         mulx    8($ap), %rax, %r9
1986         movq    %rbx, 8(%rsp)
1987
1988         mulx    16($ap), %rbx, %r10
1989         adc     %rax, %r8
1990
1991         mulx    24($ap), %rax, %r11
1992         adc     %rbx, %r9
1993
1994         mulx    32($ap), %rbx, %r12
1995         adc     %rax, %r10
1996
1997         mulx    40($ap), %rax, %r13
1998         adc     %rbx, %r11
1999
2000         mulx    48($ap), %rbx, %r14
2001         adc     %rax, %r12
2002
2003         mulx    56($ap), %rax, %r15
2004          mov    8($bp), %rdx
2005         adc     %rbx, %r13
2006         adc     %rax, %r14
2007         adc     \$0, %r15
2008
2009         xor     $zero, $zero            # cf=0,of=0
2010         jmp     .Loop_mulx
2011
2012 .align  32
2013 .Loop_mulx:
2014         movq    %r8, %rbx
2015         mulx    ($ap), %rax, %r8
2016         adcx    %rax, %rbx
2017         adox    %r9, %r8
2018
2019         mulx    8($ap), %rax, %r9
2020         adcx    %rax, %r8
2021         adox    %r10, %r9
2022
2023         mulx    16($ap), %rax, %r10
2024         adcx    %rax, %r9
2025         adox    %r11, %r10
2026
2027         mulx    24($ap), %rax, %r11
2028         adcx    %rax, %r10
2029         adox    %r12, %r11
2030
2031         .byte   0x3e,0xc4,0x62,0xfb,0xf6,0xa6,0x20,0x00,0x00,0x00       # mulx  32($ap), %rax, %r12
2032         adcx    %rax, %r11
2033         adox    %r13, %r12
2034
2035         mulx    40($ap), %rax, %r13
2036         adcx    %rax, %r12
2037         adox    %r14, %r13
2038
2039         mulx    48($ap), %rax, %r14
2040         adcx    %rax, %r13
2041         adox    %r15, %r14
2042
2043         mulx    56($ap), %rax, %r15
2044          movq   64($bp,%rcx,8), %rdx
2045          movq   %rbx, 8+64-8(%rsp,%rcx,8)
2046         adcx    %rax, %r14
2047         adox    $zero, %r15
2048         adcx    $zero, %r15             # cf=0
2049
2050         inc     %rcx                    # of=0
2051         jnz     .Loop_mulx
2052
2053         movq    %r8, %rbx
2054         mulx    ($ap), %rax, %r8
2055         adcx    %rax, %rbx
2056         adox    %r9, %r8
2057
2058         .byte   0xc4,0x62,0xfb,0xf6,0x8e,0x08,0x00,0x00,0x00    # mulx  8($ap), %rax, %r9
2059         adcx    %rax, %r8
2060         adox    %r10, %r9
2061
2062         .byte   0xc4,0x62,0xfb,0xf6,0x96,0x10,0x00,0x00,0x00    # mulx  16($ap), %rax, %r10
2063         adcx    %rax, %r9
2064         adox    %r11, %r10
2065
2066         mulx    24($ap), %rax, %r11
2067         adcx    %rax, %r10
2068         adox    %r12, %r11
2069
2070         mulx    32($ap), %rax, %r12
2071         adcx    %rax, %r11
2072         adox    %r13, %r12
2073
2074         mulx    40($ap), %rax, %r13
2075         adcx    %rax, %r12
2076         adox    %r14, %r13
2077
2078         .byte   0xc4,0x62,0xfb,0xf6,0xb6,0x30,0x00,0x00,0x00    # mulx  48($ap), %rax, %r14
2079         adcx    %rax, %r13
2080         adox    %r15, %r14
2081
2082         .byte   0xc4,0x62,0xfb,0xf6,0xbe,0x38,0x00,0x00,0x00    # mulx  56($ap), %rax, %r15
2083         adcx    %rax, %r14
2084         adox    $zero, %r15
2085         adcx    $zero, %r15
2086
2087         mov     %rbx, 8+64-8(%rsp)
2088         mov     %r8, 8+64(%rsp)
2089         mov     %r9, 8+64+8(%rsp)
2090         mov     %r10, 8+64+16(%rsp)
2091         mov     %r11, 8+64+24(%rsp)
2092         mov     %r12, 8+64+32(%rsp)
2093         mov     %r13, 8+64+40(%rsp)
2094         mov     %r14, 8+64+48(%rsp)
2095         mov     %r15, 8+64+56(%rsp)
2096
2097         ret
2098 .size   __rsaz_512_mulx,.-__rsaz_512_mulx
2099 ___
2100 }
2101 {
2102 my ($out,$inp,$power)= $win64 ? ("%rcx","%rdx","%r8d") : ("%rdi","%rsi","%edx");
2103 $code.=<<___;
2104 .globl  rsaz_512_scatter4
2105 .type   rsaz_512_scatter4,\@abi-omnipotent
2106 .align  16
2107 rsaz_512_scatter4:
2108         leaq    ($out,$power,8), $out
2109         movl    \$8, %r9d
2110         jmp     .Loop_scatter
2111 .align  16
2112 .Loop_scatter:
2113         movq    ($inp), %rax
2114         leaq    8($inp), $inp
2115         movq    %rax, ($out)
2116         leaq    128($out), $out
2117         decl    %r9d
2118         jnz     .Loop_scatter
2119         ret
2120 .size   rsaz_512_scatter4,.-rsaz_512_scatter4
2121
2122 .globl  rsaz_512_gather4
2123 .type   rsaz_512_gather4,\@abi-omnipotent
2124 .align  16
2125 rsaz_512_gather4:
2126 ___
2127 $code.=<<___    if ($win64);
2128 .LSEH_begin_rsaz_512_gather4:
2129         .byte   0x48,0x81,0xec,0xa8,0x00,0x00,0x00      # sub    $0xa8,%rsp
2130         .byte   0x0f,0x29,0x34,0x24                     # movaps %xmm6,(%rsp)
2131         .byte   0x0f,0x29,0x7c,0x24,0x10                # movaps %xmm7,0x10(%rsp)
2132         .byte   0x44,0x0f,0x29,0x44,0x24,0x20           # movaps %xmm8,0x20(%rsp)
2133         .byte   0x44,0x0f,0x29,0x4c,0x24,0x30           # movaps %xmm9,0x30(%rsp)
2134         .byte   0x44,0x0f,0x29,0x54,0x24,0x40           # movaps %xmm10,0x40(%rsp)
2135         .byte   0x44,0x0f,0x29,0x5c,0x24,0x50           # movaps %xmm11,0x50(%rsp)
2136         .byte   0x44,0x0f,0x29,0x64,0x24,0x60           # movaps %xmm12,0x60(%rsp)
2137         .byte   0x44,0x0f,0x29,0x6c,0x24,0x70           # movaps %xmm13,0x70(%rsp)
2138         .byte   0x44,0x0f,0x29,0xb4,0x24,0x80,0,0,0     # movaps %xmm14,0x80(%rsp)
2139         .byte   0x44,0x0f,0x29,0xbc,0x24,0x90,0,0,0     # movaps %xmm15,0x90(%rsp)
2140 ___
2141 $code.=<<___;
2142         movd    $power,%xmm8
2143         movdqa  .Linc+16(%rip),%xmm1    # 00000002000000020000000200000002
2144         movdqa  .Linc(%rip),%xmm0       # 00000001000000010000000000000000
2145
2146         pshufd  \$0,%xmm8,%xmm8         # broadcast $power
2147         movdqa  %xmm1,%xmm7
2148         movdqa  %xmm1,%xmm2
2149 ___
2150 ########################################################################
2151 # calculate mask by comparing 0..15 to $power
2152 #
2153 for($i=0;$i<4;$i++) {
2154 $code.=<<___;
2155         paddd   %xmm`$i`,%xmm`$i+1`
2156         pcmpeqd %xmm8,%xmm`$i`
2157         movdqa  %xmm7,%xmm`$i+3`
2158 ___
2159 }
2160 for(;$i<7;$i++) {
2161 $code.=<<___;
2162         paddd   %xmm`$i`,%xmm`$i+1`
2163         pcmpeqd %xmm8,%xmm`$i`
2164 ___
2165 }
2166 $code.=<<___;
2167         pcmpeqd %xmm8,%xmm7
2168         movl    \$8, %r9d
2169         jmp     .Loop_gather
2170 .align  16
2171 .Loop_gather:
2172         movdqa  16*0($inp),%xmm8
2173         movdqa  16*1($inp),%xmm9
2174         movdqa  16*2($inp),%xmm10
2175         movdqa  16*3($inp),%xmm11
2176         pand    %xmm0,%xmm8
2177         movdqa  16*4($inp),%xmm12
2178         pand    %xmm1,%xmm9
2179         movdqa  16*5($inp),%xmm13
2180         pand    %xmm2,%xmm10
2181         movdqa  16*6($inp),%xmm14
2182         pand    %xmm3,%xmm11
2183         movdqa  16*7($inp),%xmm15
2184         leaq    128($inp), $inp
2185         pand    %xmm4,%xmm12
2186         pand    %xmm5,%xmm13
2187         pand    %xmm6,%xmm14
2188         pand    %xmm7,%xmm15
2189         por     %xmm10,%xmm8
2190         por     %xmm11,%xmm9
2191         por     %xmm12,%xmm8
2192         por     %xmm13,%xmm9
2193         por     %xmm14,%xmm8
2194         por     %xmm15,%xmm9
2195
2196         por     %xmm9,%xmm8
2197         pshufd  \$0x4e,%xmm8,%xmm9
2198         por     %xmm9,%xmm8
2199         movq    %xmm8,($out)
2200         leaq    8($out), $out
2201         decl    %r9d
2202         jnz     .Loop_gather
2203 ___
2204 $code.=<<___    if ($win64);
2205         movaps  0x00(%rsp),%xmm6
2206         movaps  0x10(%rsp),%xmm7
2207         movaps  0x20(%rsp),%xmm8
2208         movaps  0x30(%rsp),%xmm9
2209         movaps  0x40(%rsp),%xmm10
2210         movaps  0x50(%rsp),%xmm11
2211         movaps  0x60(%rsp),%xmm12
2212         movaps  0x70(%rsp),%xmm13
2213         movaps  0x80(%rsp),%xmm14
2214         movaps  0x90(%rsp),%xmm15
2215         add     \$0xa8,%rsp
2216 ___
2217 $code.=<<___;
2218         ret
2219 .LSEH_end_rsaz_512_gather4:
2220 .size   rsaz_512_gather4,.-rsaz_512_gather4
2221
2222 .align  64
2223 .Linc:
2224         .long   0,0, 1,1
2225         .long   2,2, 2,2
2226 ___
2227 }
2228
2229 # EXCEPTION_DISPOSITION handler (EXCEPTION_RECORD *rec,ULONG64 frame,
2230 #               CONTEXT *context,DISPATCHER_CONTEXT *disp)
2231 if ($win64) {
2232 $rec="%rcx";
2233 $frame="%rdx";
2234 $context="%r8";
2235 $disp="%r9";
2236
2237 $code.=<<___;
2238 .extern __imp_RtlVirtualUnwind
2239 .type   se_handler,\@abi-omnipotent
2240 .align  16
2241 se_handler:
2242         push    %rsi
2243         push    %rdi
2244         push    %rbx
2245         push    %rbp
2246         push    %r12
2247         push    %r13
2248         push    %r14
2249         push    %r15
2250         pushfq
2251         sub     \$64,%rsp
2252
2253         mov     120($context),%rax      # pull context->Rax
2254         mov     248($context),%rbx      # pull context->Rip
2255
2256         mov     8($disp),%rsi           # disp->ImageBase
2257         mov     56($disp),%r11          # disp->HandlerData
2258
2259         mov     0(%r11),%r10d           # HandlerData[0]
2260         lea     (%rsi,%r10),%r10        # end of prologue label
2261         cmp     %r10,%rbx               # context->Rip<end of prologue label
2262         jb      .Lcommon_seh_tail
2263
2264         mov     152($context),%rax      # pull context->Rsp
2265
2266         mov     4(%r11),%r10d           # HandlerData[1]
2267         lea     (%rsi,%r10),%r10        # epilogue label
2268         cmp     %r10,%rbx               # context->Rip>=epilogue label
2269         jae     .Lcommon_seh_tail
2270
2271         lea     128+24+48(%rax),%rax
2272
2273         lea     .Lmul_gather4_epilogue(%rip),%rbx
2274         cmp     %r10,%rbx
2275         jne     .Lse_not_in_mul_gather4
2276
2277         lea     0xb0(%rax),%rax
2278
2279         lea     -48-0xa8(%rax),%rsi
2280         lea     512($context),%rdi
2281         mov     \$20,%ecx
2282         .long   0xa548f3fc              # cld; rep movsq
2283
2284 .Lse_not_in_mul_gather4:
2285         mov     -8(%rax),%rbx
2286         mov     -16(%rax),%rbp
2287         mov     -24(%rax),%r12
2288         mov     -32(%rax),%r13
2289         mov     -40(%rax),%r14
2290         mov     -48(%rax),%r15
2291         mov     %rbx,144($context)      # restore context->Rbx
2292         mov     %rbp,160($context)      # restore context->Rbp
2293         mov     %r12,216($context)      # restore context->R12
2294         mov     %r13,224($context)      # restore context->R13
2295         mov     %r14,232($context)      # restore context->R14
2296         mov     %r15,240($context)      # restore context->R15
2297
2298 .Lcommon_seh_tail:
2299         mov     8(%rax),%rdi
2300         mov     16(%rax),%rsi
2301         mov     %rax,152($context)      # restore context->Rsp
2302         mov     %rsi,168($context)      # restore context->Rsi
2303         mov     %rdi,176($context)      # restore context->Rdi
2304
2305         mov     40($disp),%rdi          # disp->ContextRecord
2306         mov     $context,%rsi           # context
2307         mov     \$154,%ecx              # sizeof(CONTEXT)
2308         .long   0xa548f3fc              # cld; rep movsq
2309
2310         mov     $disp,%rsi
2311         xor     %rcx,%rcx               # arg1, UNW_FLAG_NHANDLER
2312         mov     8(%rsi),%rdx            # arg2, disp->ImageBase
2313         mov     0(%rsi),%r8             # arg3, disp->ControlPc
2314         mov     16(%rsi),%r9            # arg4, disp->FunctionEntry
2315         mov     40(%rsi),%r10           # disp->ContextRecord
2316         lea     56(%rsi),%r11           # &disp->HandlerData
2317         lea     24(%rsi),%r12           # &disp->EstablisherFrame
2318         mov     %r10,32(%rsp)           # arg5
2319         mov     %r11,40(%rsp)           # arg6
2320         mov     %r12,48(%rsp)           # arg7
2321         mov     %rcx,56(%rsp)           # arg8, (NULL)
2322         call    *__imp_RtlVirtualUnwind(%rip)
2323
2324         mov     \$1,%eax                # ExceptionContinueSearch
2325         add     \$64,%rsp
2326         popfq
2327         pop     %r15
2328         pop     %r14
2329         pop     %r13
2330         pop     %r12
2331         pop     %rbp
2332         pop     %rbx
2333         pop     %rdi
2334         pop     %rsi
2335         ret
2336 .size   se_handler,.-se_handler
2337
2338 .section        .pdata
2339 .align  4
2340         .rva    .LSEH_begin_rsaz_512_sqr
2341         .rva    .LSEH_end_rsaz_512_sqr
2342         .rva    .LSEH_info_rsaz_512_sqr
2343
2344         .rva    .LSEH_begin_rsaz_512_mul
2345         .rva    .LSEH_end_rsaz_512_mul
2346         .rva    .LSEH_info_rsaz_512_mul
2347
2348         .rva    .LSEH_begin_rsaz_512_mul_gather4
2349         .rva    .LSEH_end_rsaz_512_mul_gather4
2350         .rva    .LSEH_info_rsaz_512_mul_gather4
2351
2352         .rva    .LSEH_begin_rsaz_512_mul_scatter4
2353         .rva    .LSEH_end_rsaz_512_mul_scatter4
2354         .rva    .LSEH_info_rsaz_512_mul_scatter4
2355
2356         .rva    .LSEH_begin_rsaz_512_mul_by_one
2357         .rva    .LSEH_end_rsaz_512_mul_by_one
2358         .rva    .LSEH_info_rsaz_512_mul_by_one
2359
2360         .rva    .LSEH_begin_rsaz_512_gather4
2361         .rva    .LSEH_end_rsaz_512_gather4
2362         .rva    .LSEH_info_rsaz_512_gather4
2363
2364 .section        .xdata
2365 .align  8
2366 .LSEH_info_rsaz_512_sqr:
2367         .byte   9,0,0,0
2368         .rva    se_handler
2369         .rva    .Lsqr_body,.Lsqr_epilogue                       # HandlerData[]
2370 .LSEH_info_rsaz_512_mul:
2371         .byte   9,0,0,0
2372         .rva    se_handler
2373         .rva    .Lmul_body,.Lmul_epilogue                       # HandlerData[]
2374 .LSEH_info_rsaz_512_mul_gather4:
2375         .byte   9,0,0,0
2376         .rva    se_handler
2377         .rva    .Lmul_gather4_body,.Lmul_gather4_epilogue       # HandlerData[]
2378 .LSEH_info_rsaz_512_mul_scatter4:
2379         .byte   9,0,0,0
2380         .rva    se_handler
2381         .rva    .Lmul_scatter4_body,.Lmul_scatter4_epilogue     # HandlerData[]
2382 .LSEH_info_rsaz_512_mul_by_one:
2383         .byte   9,0,0,0
2384         .rva    se_handler
2385         .rva    .Lmul_by_one_body,.Lmul_by_one_epilogue         # HandlerData[]
2386 .LSEH_info_rsaz_512_gather4:
2387         .byte   0x01,0x46,0x16,0x00
2388         .byte   0x46,0xf8,0x09,0x00     # vmovaps 0x90(rsp),xmm15
2389         .byte   0x3d,0xe8,0x08,0x00     # vmovaps 0x80(rsp),xmm14
2390         .byte   0x34,0xd8,0x07,0x00     # vmovaps 0x70(rsp),xmm13
2391         .byte   0x2e,0xc8,0x06,0x00     # vmovaps 0x60(rsp),xmm12
2392         .byte   0x28,0xb8,0x05,0x00     # vmovaps 0x50(rsp),xmm11
2393         .byte   0x22,0xa8,0x04,0x00     # vmovaps 0x40(rsp),xmm10
2394         .byte   0x1c,0x98,0x03,0x00     # vmovaps 0x30(rsp),xmm9
2395         .byte   0x16,0x88,0x02,0x00     # vmovaps 0x20(rsp),xmm8
2396         .byte   0x10,0x78,0x01,0x00     # vmovaps 0x10(rsp),xmm7
2397         .byte   0x0b,0x68,0x00,0x00     # vmovaps 0x00(rsp),xmm6
2398         .byte   0x07,0x01,0x15,0x00     # sub     rsp,0xa8
2399 ___
2400 }
2401
2402 $code =~ s/\`([^\`]*)\`/eval $1/gem;
2403 print $code;
2404 close STDOUT;