crypto/bn/asm/x86_64-mont.pl

   1 #!/usr/bin/env perl
   2
   3 # ====================================================================
   4 # Written by Andy Polyakov <appro@openssl.org> for the OpenSSL
   5 # project. The module is, however, dual licensed under OpenSSL and
   6 # CRYPTOGAMS licenses depending on where you obtain it. For further
   7 # details see http://www.openssl.org/~appro/cryptogams/.
   8 # ====================================================================
   9
  10 # October 2005.
  11 #
  12 # Montgomery multiplication routine for x86_64. While it gives modest
  13 # 9% improvement of rsa4096 sign on Opteron, rsa512 sign runs more
  14 # than twice, >2x, as fast. Most common rsa1024 sign is improved by
  15 # respectful 50%. It remains to be seen if loop unrolling and
  16 # dedicated squaring routine can provide further improvement...
  17
  18 # July 2011.
  19 #
  20 # Add dedicated squaring procedure. Performance improvement varies
  21 # from platform to platform, but in average it's ~5%/15%/25%/33%
  22 # for 512-/1024-/2048-/4096-bit RSA *sign* benchmarks respectively.
  23
  24 # August 2011.
  25 #
  26 # Unroll and modulo-schedule inner loops in such manner that they
  27 # are "fallen through" for input lengths of 8, which is critical for
  28 # 1024-bit RSA *sign*. Average performance improvement in comparison
  29 # to *initial* version of this module from 2005 is ~0%/30%/40%/45%
  30 # for 512-/1024-/2048-/4096-bit RSA *sign* benchmarks respectively.
  31
  32 # June 2013.
  33 #
  34 # Optimize reduction in squaring procedure and improve 1024+-bit RSA
  35 # sign performance by 10-16% on Intel Sandy Bridge and later
  36 # (virtually same on non-Intel processors).
  37
  38 # August 2013.
  39 #
  40 # Add MULX/ADOX/ADCX code path.
  41
  42 $flavour = shift;
  43 $output  = shift;
  44 if ($flavour =~ /\./) { $output = $flavour; undef $flavour; }
  45
  46 $win64=0; $win64=1 if ($flavour =~ /[nm]asm|mingw64/ || $output =~ /\.asm$/);
  47
  48 $0 =~ m/(.*[\/\\])[^\/\\]+$/; $dir=$1;
  49 ( $xlate="${dir}x86_64-xlate.pl" and -f $xlate ) or
  50 ( $xlate="${dir}../../perlasm/x86_64-xlate.pl" and -f $xlate) or
  51 die "can't locate x86_64-xlate.pl";
  52
  53 open OUT,"| \"$^X\" $xlate $flavour $output";
  54 *STDOUT=*OUT;
  55
  56 if (`$ENV{CC} -Wa,-v -c -o /dev/null -x assembler /dev/null 2>&1`
  57                 =~ /GNU assembler version ([2-9]\.[0-9]+)/) {
  58         $addx = ($1>=2.23);
  59 }
  60
  61 if (!$addx && $win64 && ($flavour =~ /nasm/ || $ENV{ASM} =~ /nasm/) &&
  62             `nasm -v 2>&1` =~ /NASM version ([2-9]\.[0-9]+)/) {
  63         $addx = ($1>=2.10);
  64 }
  65
  66 if (!$addx && $win64 && ($flavour =~ /masm/ || $ENV{ASM} =~ /ml64/) &&
  67             `ml64 2>&1` =~ /Version ([0-9]+)\./) {
  68         $addx = ($1>=11);
  69 }
  70
  71 # int bn_mul_mont(
  72 $rp="%rdi";     # BN_ULONG *rp,
  73 $ap="%rsi";     # const BN_ULONG *ap,
  74 $bp="%rdx";     # const BN_ULONG *bp,
  75 $np="%rcx";     # const BN_ULONG *np,
  76 $n0="%r8";      # const BN_ULONG *n0,
  77 $num="%r9";     # int num);
  78 $lo0="%r10";
  79 $hi0="%r11";
  80 $hi1="%r13";
  81 $i="%r14";
  82 $j="%r15";
  83 $m0="%rbx";
  84 $m1="%rbp";
  85
  86 $code=<<___;
  87 .text
  88
  89 .extern OPENSSL_ia32cap_P
  90
  91 .globl  bn_mul_mont
  92 .type   bn_mul_mont,\@function,6
  93 .align  16
  94 bn_mul_mont:
  95         test    \$3,${num}d
  96         jnz     .Lmul_enter
  97         cmp     \$8,${num}d
  98         jb      .Lmul_enter
  99 ___
 100 $code.=<<___ if ($addx);
 101         mov     OPENSSL_ia32cap_P+8(%rip),%r11d
 102 ___
 103 $code.=<<___;
 104         cmp     $ap,$bp
 105         jne     .Lmul4x_enter
 106         test    \$7,${num}d
 107         jz      .Lsqr8x_enter
 108         jmp     .Lmul4x_enter
 109
 110 .align  16
 111 .Lmul_enter:
 112         push    %rbx
 113         push    %rbp
 114         push    %r12
 115         push    %r13
 116         push    %r14
 117         push    %r15
 118
 119         mov     ${num}d,${num}d
 120         lea     2($num),%r10
 121         mov     %rsp,%r11
 122         neg     %r10
 123         lea     (%rsp,%r10,8),%rsp      # tp=alloca(8*(num+2))
 124         and     \$-1024,%rsp            # minimize TLB usage
 125
 126         mov     %r11,8(%rsp,$num,8)     # tp[num+1]=%rsp
 127 .Lmul_body:
 128         mov     $bp,%r12                # reassign $bp
 129 ___
 130                 $bp="%r12";
 131 $code.=<<___;
 132         mov     ($n0),$n0               # pull n0[0] value
 133         mov     ($bp),$m0               # m0=bp[0]
 134         mov     ($ap),%rax
 135
 136         xor     $i,$i                   # i=0
 137         xor     $j,$j                   # j=0
 138
 139         mov     $n0,$m1
 140         mulq    $m0                     # ap[0]*bp[0]
 141         mov     %rax,$lo0
 142         mov     ($np),%rax
 143
 144         imulq   $lo0,$m1                # "tp[0]"*n0
 145         mov     %rdx,$hi0
 146
 147         mulq    $m1                     # np[0]*m1
 148         add     %rax,$lo0               # discarded
 149         mov     8($ap),%rax
 150         adc     \$0,%rdx
 151         mov     %rdx,$hi1
 152
 153         lea     1($j),$j                # j++
 154         jmp     .L1st_enter
 155
 156 .align  16
 157 .L1st:
 158         add     %rax,$hi1
 159         mov     ($ap,$j,8),%rax
 160         adc     \$0,%rdx
 161         add     $hi0,$hi1               # np[j]*m1+ap[j]*bp[0]
 162         mov     $lo0,$hi0
 163         adc     \$0,%rdx
 164         mov     $hi1,-16(%rsp,$j,8)     # tp[j-1]
 165         mov     %rdx,$hi1
 166
 167 .L1st_enter:
 168         mulq    $m0                     # ap[j]*bp[0]
 169         add     %rax,$hi0
 170         mov     ($np,$j,8),%rax
 171         adc     \$0,%rdx
 172         lea     1($j),$j                # j++
 173         mov     %rdx,$lo0
 174
 175         mulq    $m1                     # np[j]*m1
 176         cmp     $num,$j
 177         jne     .L1st
 178
 179         add     %rax,$hi1
 180         mov     ($ap),%rax              # ap[0]
 181         adc     \$0,%rdx
 182         add     $hi0,$hi1               # np[j]*m1+ap[j]*bp[0]
 183         adc     \$0,%rdx
 184         mov     $hi1,-16(%rsp,$j,8)     # tp[j-1]
 185         mov     %rdx,$hi1
 186         mov     $lo0,$hi0
 187
 188         xor     %rdx,%rdx
 189         add     $hi0,$hi1
 190         adc     \$0,%rdx
 191         mov     $hi1,-8(%rsp,$num,8)
 192         mov     %rdx,(%rsp,$num,8)      # store upmost overflow bit
 193
 194         lea     1($i),$i                # i++
 195         jmp     .Louter
 196 .align  16
 197 .Louter:
 198         mov     ($bp,$i,8),$m0          # m0=bp[i]
 199         xor     $j,$j                   # j=0
 200         mov     $n0,$m1
 201         mov     (%rsp),$lo0
 202         mulq    $m0                     # ap[0]*bp[i]
 203         add     %rax,$lo0               # ap[0]*bp[i]+tp[0]
 204         mov     ($np),%rax
 205         adc     \$0,%rdx
 206
 207         imulq   $lo0,$m1                # tp[0]*n0
 208         mov     %rdx,$hi0
 209
 210         mulq    $m1                     # np[0]*m1
 211         add     %rax,$lo0               # discarded
 212         mov     8($ap),%rax
 213         adc     \$0,%rdx
 214         mov     8(%rsp),$lo0            # tp[1]
 215         mov     %rdx,$hi1
 216
 217         lea     1($j),$j                # j++
 218         jmp     .Linner_enter
 219
 220 .align  16
 221 .Linner:
 222         add     %rax,$hi1
 223         mov     ($ap,$j,8),%rax
 224         adc     \$0,%rdx
 225         add     $lo0,$hi1               # np[j]*m1+ap[j]*bp[i]+tp[j]
 226         mov     (%rsp,$j,8),$lo0
 227         adc     \$0,%rdx
 228         mov     $hi1,-16(%rsp,$j,8)     # tp[j-1]
 229         mov     %rdx,$hi1
 230
 231 .Linner_enter:
 232         mulq    $m0                     # ap[j]*bp[i]
 233         add     %rax,$hi0
 234         mov     ($np,$j,8),%rax
 235         adc     \$0,%rdx
 236         add     $hi0,$lo0               # ap[j]*bp[i]+tp[j]
 237         mov     %rdx,$hi0
 238         adc     \$0,$hi0
 239         lea     1($j),$j                # j++
 240
 241         mulq    $m1                     # np[j]*m1
 242         cmp     $num,$j
 243         jne     .Linner
 244
 245         add     %rax,$hi1
 246         mov     ($ap),%rax              # ap[0]
 247         adc     \$0,%rdx
 248         add     $lo0,$hi1               # np[j]*m1+ap[j]*bp[i]+tp[j]
 249         mov     (%rsp,$j,8),$lo0
 250         adc     \$0,%rdx
 251         mov     $hi1,-16(%rsp,$j,8)     # tp[j-1]
 252         mov     %rdx,$hi1
 253
 254         xor     %rdx,%rdx
 255         add     $hi0,$hi1
 256         adc     \$0,%rdx
 257         add     $lo0,$hi1               # pull upmost overflow bit
 258         adc     \$0,%rdx
 259         mov     $hi1,-8(%rsp,$num,8)
 260         mov     %rdx,(%rsp,$num,8)      # store upmost overflow bit
 261
 262         lea     1($i),$i                # i++
 263         cmp     $num,$i
 264         jb      .Louter
 265
 266         xor     $i,$i                   # i=0 and clear CF!
 267         mov     (%rsp),%rax             # tp[0]
 268         lea     (%rsp),$ap              # borrow ap for tp
 269         mov     $num,$j                 # j=num
 270         jmp     .Lsub
 271 .align  16
 272 .Lsub:  sbb     ($np,$i,8),%rax
 273         mov     %rax,($rp,$i,8)         # rp[i]=tp[i]-np[i]
 274         mov     8($ap,$i,8),%rax        # tp[i+1]
 275         lea     1($i),$i                # i++
 276         dec     $j                      # doesnn't affect CF!
 277         jnz     .Lsub
 278
 279         sbb     \$0,%rax                # handle upmost overflow bit
 280         xor     $i,$i
 281         and     %rax,$ap
 282         not     %rax
 283         mov     $rp,$np
 284         and     %rax,$np
 285         mov     $num,$j                 # j=num
 286         or      $np,$ap                 # ap=borrow?tp:rp
 287 .align  16
 288 .Lcopy:                                 # copy or in-place refresh
 289         mov     ($ap,$i,8),%rax
 290         mov     $i,(%rsp,$i,8)          # zap temporary vector
 291         mov     %rax,($rp,$i,8)         # rp[i]=tp[i]
 292         lea     1($i),$i
 293         sub     \$1,$j
 294         jnz     .Lcopy
 295
 296         mov     8(%rsp,$num,8),%rsi     # restore %rsp
 297         mov     \$1,%rax
 298         mov     (%rsi),%r15
 299         mov     8(%rsi),%r14
 300         mov     16(%rsi),%r13
 301         mov     24(%rsi),%r12
 302         mov     32(%rsi),%rbp
 303         mov     40(%rsi),%rbx
 304         lea     48(%rsi),%rsp
 305 .Lmul_epilogue:
 306         ret
 307 .size   bn_mul_mont,.-bn_mul_mont
 308 ___
 309 {{{
 310 my @A=("%r10","%r11");
 311 my @N=("%r13","%rdi");
 312 $code.=<<___;
 313 .type   bn_mul4x_mont,\@function,6
 314 .align  16
 315 bn_mul4x_mont:
 316 .Lmul4x_enter:
 317 ___
 318 $code.=<<___ if ($addx);
 319         and     \$0x80100,%r11d
 320         cmp     \$0x80100,%r11d
 321         je      .Lmulx4x_enter
 322 ___
 323 $code.=<<___;
 324         push    %rbx
 325         push    %rbp
 326         push    %r12
 327         push    %r13
 328         push    %r14
 329         push    %r15
 330
 331         mov     ${num}d,${num}d
 332         lea     4($num),%r10
 333         mov     %rsp,%r11
 334         neg     %r10
 335         lea     (%rsp,%r10,8),%rsp      # tp=alloca(8*(num+4))
 336         and     \$-1024,%rsp            # minimize TLB usage
 337
 338         mov     %r11,8(%rsp,$num,8)     # tp[num+1]=%rsp
 339 .Lmul4x_body:
 340         mov     $rp,16(%rsp,$num,8)     # tp[num+2]=$rp
 341         mov     %rdx,%r12               # reassign $bp
 342 ___
 343                 $bp="%r12";
 344 $code.=<<___;
 345         mov     ($n0),$n0               # pull n0[0] value
 346         mov     ($bp),$m0               # m0=bp[0]
 347         mov     ($ap),%rax
 348
 349         xor     $i,$i                   # i=0
 350         xor     $j,$j                   # j=0
 351
 352         mov     $n0,$m1
 353         mulq    $m0                     # ap[0]*bp[0]
 354         mov     %rax,$A[0]
 355         mov     ($np),%rax
 356
 357         imulq   $A[0],$m1               # "tp[0]"*n0
 358         mov     %rdx,$A[1]
 359
 360         mulq    $m1                     # np[0]*m1
 361         add     %rax,$A[0]              # discarded
 362         mov     8($ap),%rax
 363         adc     \$0,%rdx
 364         mov     %rdx,$N[1]
 365
 366         mulq    $m0
 367         add     %rax,$A[1]
 368         mov     8($np),%rax
 369         adc     \$0,%rdx
 370         mov     %rdx,$A[0]
 371
 372         mulq    $m1
 373         add     %rax,$N[1]
 374         mov     16($ap),%rax
 375         adc     \$0,%rdx
 376         add     $A[1],$N[1]
 377         lea     4($j),$j                # j++
 378         adc     \$0,%rdx
 379         mov     $N[1],(%rsp)
 380         mov     %rdx,$N[0]
 381         jmp     .L1st4x
 382 .align  16
 383 .L1st4x:
 384         mulq    $m0                     # ap[j]*bp[0]
 385         add     %rax,$A[0]
 386         mov     -16($np,$j,8),%rax
 387         adc     \$0,%rdx
 388         mov     %rdx,$A[1]
 389
 390         mulq    $m1                     # np[j]*m1
 391         add     %rax,$N[0]
 392         mov     -8($ap,$j,8),%rax
 393         adc     \$0,%rdx
 394         add     $A[0],$N[0]             # np[j]*m1+ap[j]*bp[0]
 395         adc     \$0,%rdx
 396         mov     $N[0],-24(%rsp,$j,8)    # tp[j-1]
 397         mov     %rdx,$N[1]
 398
 399         mulq    $m0                     # ap[j]*bp[0]
 400         add     %rax,$A[1]
 401         mov     -8($np,$j,8),%rax
 402         adc     \$0,%rdx
 403         mov     %rdx,$A[0]
 404
 405         mulq    $m1                     # np[j]*m1
 406         add     %rax,$N[1]
 407         mov     ($ap,$j,8),%rax
 408         adc     \$0,%rdx
 409         add     $A[1],$N[1]             # np[j]*m1+ap[j]*bp[0]
 410         adc     \$0,%rdx
 411         mov     $N[1],-16(%rsp,$j,8)    # tp[j-1]
 412         mov     %rdx,$N[0]
 413
 414         mulq    $m0                     # ap[j]*bp[0]
 415         add     %rax,$A[0]
 416         mov     ($np,$j,8),%rax
 417         adc     \$0,%rdx
 418         mov     %rdx,$A[1]
 419
 420         mulq    $m1                     # np[j]*m1
 421         add     %rax,$N[0]
 422         mov     8($ap,$j,8),%rax
 423         adc     \$0,%rdx
 424         add     $A[0],$N[0]             # np[j]*m1+ap[j]*bp[0]
 425         adc     \$0,%rdx
 426         mov     $N[0],-8(%rsp,$j,8)     # tp[j-1]
 427         mov     %rdx,$N[1]
 428
 429         mulq    $m0                     # ap[j]*bp[0]
 430         add     %rax,$A[1]
 431         mov     8($np,$j,8),%rax
 432         adc     \$0,%rdx
 433         lea     4($j),$j                # j++
 434         mov     %rdx,$A[0]
 435
 436         mulq    $m1                     # np[j]*m1
 437         add     %rax,$N[1]
 438         mov     -16($ap,$j,8),%rax
 439         adc     \$0,%rdx
 440         add     $A[1],$N[1]             # np[j]*m1+ap[j]*bp[0]
 441         adc     \$0,%rdx
 442         mov     $N[1],-32(%rsp,$j,8)    # tp[j-1]
 443         mov     %rdx,$N[0]
 444         cmp     $num,$j
 445         jb      .L1st4x
 446
 447         mulq    $m0                     # ap[j]*bp[0]
 448         add     %rax,$A[0]
 449         mov     -16($np,$j,8),%rax
 450         adc     \$0,%rdx
 451         mov     %rdx,$A[1]
 452
 453         mulq    $m1                     # np[j]*m1
 454         add     %rax,$N[0]
 455         mov     -8($ap,$j,8),%rax
 456         adc     \$0,%rdx
 457         add     $A[0],$N[0]             # np[j]*m1+ap[j]*bp[0]
 458         adc     \$0,%rdx
 459         mov     $N[0],-24(%rsp,$j,8)    # tp[j-1]
 460         mov     %rdx,$N[1]
 461
 462         mulq    $m0                     # ap[j]*bp[0]
 463         add     %rax,$A[1]
 464         mov     -8($np,$j,8),%rax
 465         adc     \$0,%rdx
 466         mov     %rdx,$A[0]
 467
 468         mulq    $m1                     # np[j]*m1
 469         add     %rax,$N[1]
 470         mov     ($ap),%rax              # ap[0]
 471         adc     \$0,%rdx
 472         add     $A[1],$N[1]             # np[j]*m1+ap[j]*bp[0]
 473         adc     \$0,%rdx
 474         mov     $N[1],-16(%rsp,$j,8)    # tp[j-1]
 475         mov     %rdx,$N[0]
 476
 477         xor     $N[1],$N[1]
 478         add     $A[0],$N[0]
 479         adc     \$0,$N[1]
 480         mov     $N[0],-8(%rsp,$j,8)
 481         mov     $N[1],(%rsp,$j,8)       # store upmost overflow bit
 482
 483         lea     1($i),$i                # i++
 484 .align  4
 485 .Louter4x:
 486         mov     ($bp,$i,8),$m0          # m0=bp[i]
 487         xor     $j,$j                   # j=0
 488         mov     (%rsp),$A[0]
 489         mov     $n0,$m1
 490         mulq    $m0                     # ap[0]*bp[i]
 491         add     %rax,$A[0]              # ap[0]*bp[i]+tp[0]
 492         mov     ($np),%rax
 493         adc     \$0,%rdx
 494
 495         imulq   $A[0],$m1               # tp[0]*n0
 496         mov     %rdx,$A[1]
 497
 498         mulq    $m1                     # np[0]*m1
 499         add     %rax,$A[0]              # "$N[0]", discarded
 500         mov     8($ap),%rax
 501         adc     \$0,%rdx
 502         mov     %rdx,$N[1]
 503
 504         mulq    $m0                     # ap[j]*bp[i]
 505         add     %rax,$A[1]
 506         mov     8($np),%rax
 507         adc     \$0,%rdx
 508         add     8(%rsp),$A[1]           # +tp[1]
 509         adc     \$0,%rdx
 510         mov     %rdx,$A[0]
 511
 512         mulq    $m1                     # np[j]*m1
 513         add     %rax,$N[1]
 514         mov     16($ap),%rax
 515         adc     \$0,%rdx
 516         add     $A[1],$N[1]             # np[j]*m1+ap[j]*bp[i]+tp[j]
 517         lea     4($j),$j                # j+=2
 518         adc     \$0,%rdx
 519         mov     $N[1],(%rsp)            # tp[j-1]
 520         mov     %rdx,$N[0]
 521         jmp     .Linner4x
 522 .align  16
 523 .Linner4x:
 524         mulq    $m0                     # ap[j]*bp[i]
 525         add     %rax,$A[0]
 526         mov     -16($np,$j,8),%rax
 527         adc     \$0,%rdx
 528         add     -16(%rsp,$j,8),$A[0]    # ap[j]*bp[i]+tp[j]
 529         adc     \$0,%rdx
 530         mov     %rdx,$A[1]
 531
 532         mulq    $m1                     # np[j]*m1
 533         add     %rax,$N[0]
 534         mov     -8($ap,$j,8),%rax
 535         adc     \$0,%rdx
 536         add     $A[0],$N[0]
 537         adc     \$0,%rdx
 538         mov     $N[0],-24(%rsp,$j,8)    # tp[j-1]
 539         mov     %rdx,$N[1]
 540
 541         mulq    $m0                     # ap[j]*bp[i]
 542         add     %rax,$A[1]
 543         mov     -8($np,$j,8),%rax
 544         adc     \$0,%rdx
 545         add     -8(%rsp,$j,8),$A[1]
 546         adc     \$0,%rdx
 547         mov     %rdx,$A[0]
 548
 549         mulq    $m1                     # np[j]*m1
 550         add     %rax,$N[1]
 551         mov     ($ap,$j,8),%rax
 552         adc     \$0,%rdx
 553         add     $A[1],$N[1]
 554         adc     \$0,%rdx
 555         mov     $N[1],-16(%rsp,$j,8)    # tp[j-1]
 556         mov     %rdx,$N[0]
 557
 558         mulq    $m0                     # ap[j]*bp[i]
 559         add     %rax,$A[0]
 560         mov     ($np,$j,8),%rax
 561         adc     \$0,%rdx
 562         add     (%rsp,$j,8),$A[0]       # ap[j]*bp[i]+tp[j]
 563         adc     \$0,%rdx
 564         mov     %rdx,$A[1]
 565
 566         mulq    $m1                     # np[j]*m1
 567         add     %rax,$N[0]
 568         mov     8($ap,$j,8),%rax
 569         adc     \$0,%rdx
 570         add     $A[0],$N[0]
 571         adc     \$0,%rdx
 572         mov     $N[0],-8(%rsp,$j,8)     # tp[j-1]
 573         mov     %rdx,$N[1]
 574
 575         mulq    $m0                     # ap[j]*bp[i]
 576         add     %rax,$A[1]
 577         mov     8($np,$j,8),%rax
 578         adc     \$0,%rdx
 579         add     8(%rsp,$j,8),$A[1]
 580         adc     \$0,%rdx
 581         lea     4($j),$j                # j++
 582         mov     %rdx,$A[0]
 583
 584         mulq    $m1                     # np[j]*m1
 585         add     %rax,$N[1]
 586         mov     -16($ap,$j,8),%rax
 587         adc     \$0,%rdx
 588         add     $A[1],$N[1]
 589         adc     \$0,%rdx
 590         mov     $N[1],-32(%rsp,$j,8)    # tp[j-1]
 591         mov     %rdx,$N[0]
 592         cmp     $num,$j
 593         jb      .Linner4x
 594
 595         mulq    $m0                     # ap[j]*bp[i]
 596         add     %rax,$A[0]
 597         mov     -16($np,$j,8),%rax
 598         adc     \$0,%rdx
 599         add     -16(%rsp,$j,8),$A[0]    # ap[j]*bp[i]+tp[j]
 600         adc     \$0,%rdx
 601         mov     %rdx,$A[1]
 602
 603         mulq    $m1                     # np[j]*m1
 604         add     %rax,$N[0]
 605         mov     -8($ap,$j,8),%rax
 606         adc     \$0,%rdx
 607         add     $A[0],$N[0]
 608         adc     \$0,%rdx
 609         mov     $N[0],-24(%rsp,$j,8)    # tp[j-1]
 610         mov     %rdx,$N[1]
 611
 612         mulq    $m0                     # ap[j]*bp[i]
 613         add     %rax,$A[1]
 614         mov     -8($np,$j,8),%rax
 615         adc     \$0,%rdx
 616         add     -8(%rsp,$j,8),$A[1]
 617         adc     \$0,%rdx
 618         lea     1($i),$i                # i++
 619         mov     %rdx,$A[0]
 620
 621         mulq    $m1                     # np[j]*m1
 622         add     %rax,$N[1]
 623         mov     ($ap),%rax              # ap[0]
 624         adc     \$0,%rdx
 625         add     $A[1],$N[1]
 626         adc     \$0,%rdx
 627         mov     $N[1],-16(%rsp,$j,8)    # tp[j-1]
 628         mov     %rdx,$N[0]
 629
 630         xor     $N[1],$N[1]
 631         add     $A[0],$N[0]
 632         adc     \$0,$N[1]
 633         add     (%rsp,$num,8),$N[0]     # pull upmost overflow bit
 634         adc     \$0,$N[1]
 635         mov     $N[0],-8(%rsp,$j,8)
 636         mov     $N[1],(%rsp,$j,8)       # store upmost overflow bit
 637
 638         cmp     $num,$i
 639         jb      .Louter4x
 640 ___
 641 {
 642 my @ri=("%rax","%rdx",$m0,$m1);
 643 $code.=<<___;
 644         mov     16(%rsp,$num,8),$rp     # restore $rp
 645         mov     0(%rsp),@ri[0]          # tp[0]
 646         pxor    %xmm0,%xmm0
 647         mov     8(%rsp),@ri[1]          # tp[1]
 648         shr     \$2,$num                # num/=4
 649         lea     (%rsp),$ap              # borrow ap for tp
 650         xor     $i,$i                   # i=0 and clear CF!
 651
 652         sub     0($np),@ri[0]
 653         mov     16($ap),@ri[2]          # tp[2]
 654         mov     24($ap),@ri[3]          # tp[3]
 655         sbb     8($np),@ri[1]
 656         lea     -1($num),$j             # j=num/4-1
 657         jmp     .Lsub4x
 658 .align  16
 659 .Lsub4x:
 660         mov     @ri[0],0($rp,$i,8)      # rp[i]=tp[i]-np[i]
 661         mov     @ri[1],8($rp,$i,8)      # rp[i]=tp[i]-np[i]
 662         sbb     16($np,$i,8),@ri[2]
 663         mov     32($ap,$i,8),@ri[0]     # tp[i+1]
 664         mov     40($ap,$i,8),@ri[1]
 665         sbb     24($np,$i,8),@ri[3]
 666         mov     @ri[2],16($rp,$i,8)     # rp[i]=tp[i]-np[i]
 667         mov     @ri[3],24($rp,$i,8)     # rp[i]=tp[i]-np[i]
 668         sbb     32($np,$i,8),@ri[0]
 669         mov     48($ap,$i,8),@ri[2]
 670         mov     56($ap,$i,8),@ri[3]
 671         sbb     40($np,$i,8),@ri[1]
 672         lea     4($i),$i                # i++
 673         dec     $j                      # doesnn't affect CF!
 674         jnz     .Lsub4x
 675
 676         mov     @ri[0],0($rp,$i,8)      # rp[i]=tp[i]-np[i]
 677         mov     32($ap,$i,8),@ri[0]     # load overflow bit
 678         sbb     16($np,$i,8),@ri[2]
 679         mov     @ri[1],8($rp,$i,8)      # rp[i]=tp[i]-np[i]
 680         sbb     24($np,$i,8),@ri[3]
 681         mov     @ri[2],16($rp,$i,8)     # rp[i]=tp[i]-np[i]
 682
 683         sbb     \$0,@ri[0]              # handle upmost overflow bit
 684         mov     @ri[3],24($rp,$i,8)     # rp[i]=tp[i]-np[i]
 685         xor     $i,$i                   # i=0
 686         and     @ri[0],$ap
 687         not     @ri[0]
 688         mov     $rp,$np
 689         and     @ri[0],$np
 690         lea     -1($num),$j
 691         or      $np,$ap                 # ap=borrow?tp:rp
 692
 693         movdqu  ($ap),%xmm1
 694         movdqa  %xmm0,(%rsp)
 695         movdqu  %xmm1,($rp)
 696         jmp     .Lcopy4x
 697 .align  16
 698 .Lcopy4x:                                       # copy or in-place refresh
 699         movdqu  16($ap,$i),%xmm2
 700         movdqu  32($ap,$i),%xmm1
 701         movdqa  %xmm0,16(%rsp,$i)
 702         movdqu  %xmm2,16($rp,$i)
 703         movdqa  %xmm0,32(%rsp,$i)
 704         movdqu  %xmm1,32($rp,$i)
 705         lea     32($i),$i
 706         dec     $j
 707         jnz     .Lcopy4x
 708
 709         shl     \$2,$num
 710         movdqu  16($ap,$i),%xmm2
 711         movdqa  %xmm0,16(%rsp,$i)
 712         movdqu  %xmm2,16($rp,$i)
 713 ___
 714 }
 715 $code.=<<___;
 716         mov     8(%rsp,$num,8),%rsi     # restore %rsp
 717         mov     \$1,%rax
 718         mov     (%rsi),%r15
 719         mov     8(%rsi),%r14
 720         mov     16(%rsi),%r13
 721         mov     24(%rsi),%r12
 722         mov     32(%rsi),%rbp
 723         mov     40(%rsi),%rbx
 724         lea     48(%rsi),%rsp
 725 .Lmul4x_epilogue:
 726         ret
 727 .size   bn_mul4x_mont,.-bn_mul4x_mont
 728 ___
 729 }}}
 730 \f{{{
 731 ######################################################################
 732 # void bn_sqr8x_mont(
 733 my $rptr="%rdi";        # const BN_ULONG *rptr,
 734 my $aptr="%rsi";        # const BN_ULONG *aptr,
 735 my $bptr="%rdx";        # not used
 736 my $nptr="%rcx";        # const BN_ULONG *nptr,
 737 my $n0  ="%r8";         # const BN_ULONG *n0);
 738 my $num ="%r9";         # int num, has to be divisible by 8
 739
 740 my ($i,$j,$tptr)=("%rbp","%rcx",$rptr);
 741 my @A0=("%r10","%r11");
 742 my @A1=("%r12","%r13");
 743 my ($a0,$a1,$ai)=("%r14","%r15","%rbx");
 744
 745 $code.=<<___;
 746 .extern bn_sqr8x_internal               # see x86_64-mont5 module
 747 .extern bn_sqrx8x_internal              # see x86_64-mont5 module
 748
 749 .type   bn_sqr8x_mont,\@function,6
 750 .align  32
 751 bn_sqr8x_mont:
 752 .Lsqr8x_enter:
 753         mov     %rsp,%rax
 754         push    %rbx
 755         push    %rbp
 756         push    %r12
 757         push    %r13
 758         push    %r14
 759         push    %r15
 760
 761         mov     ${num}d,%r10d
 762         shl     \$3,${num}d             # convert $num to bytes
 763         shl     \$3+2,%r10              # 4*$num
 764         neg     $num
 765
 766         ##############################################################
 767         # ensure that stack frame doesn't alias with $aptr modulo
 768         # 4096. this is done to allow memory disambiguation logic
 769         # do its job.
 770         #
 771         lea     -64(%rsp,$num,4),%r11
 772         mov     ($n0),$n0               # *n0
 773         sub     $aptr,%r11
 774         and     \$4095,%r11
 775         cmp     %r11,%r10
 776         jb      .Lsqr8x_sp_alt
 777         sub     %r11,%rsp               # align with $aptr
 778         lea     -64(%rsp,$num,4),%rsp   # alloca(frame+4*$num)
 779         jmp     .Lsqr8x_sp_done
 780
 781 .align  32
 782 .Lsqr8x_sp_alt:
 783         lea     4096-64(,$num,4),%r10   # 4096-frame-4*$num
 784         lea     -64(%rsp,$num,4),%rsp   # alloca(frame+4*$num)
 785         sub     %r10,%r11
 786         mov     \$0,%r10
 787         cmovc   %r10,%r11
 788         sub     %r11,%rsp
 789 .Lsqr8x_sp_done:
 790         and     \$-64,%rsp
 791         mov     $num,%r10
 792         neg     $num
 793
 794         lea     64(%rsp,$num,2),%r11    # copy of modulus
 795         mov     $n0,  32(%rsp)
 796         mov     %rax, 40(%rsp)          # save original %rsp
 797 .Lsqr8x_body:
 798
 799         mov     $num,$i
 800         movq    %r11, %xmm2             # save pointer to modulus copy
 801         shr     \$3+2,$i
 802         mov     OPENSSL_ia32cap_P+8(%rip),%eax
 803         jmp     .Lsqr8x_copy_n
 804
 805 .align  32
 806 .Lsqr8x_copy_n:
 807         movq    8*0($nptr),%xmm0
 808         movq    8*1($nptr),%xmm1
 809         movq    8*2($nptr),%xmm3
 810         movq    8*3($nptr),%xmm4
 811         lea     8*4($nptr),$nptr
 812         movdqa  %xmm0,16*0(%r11)
 813         movdqa  %xmm1,16*1(%r11)
 814         movdqa  %xmm3,16*2(%r11)
 815         movdqa  %xmm4,16*3(%r11)
 816         lea     16*4(%r11),%r11
 817         dec     $i
 818         jnz     .Lsqr8x_copy_n
 819
 820         pxor    %xmm0,%xmm0
 821         movq    $rptr,%xmm1             # save $rptr
 822         movq    %r10, %xmm3             # -$num
 823 ___
 824 $code.=<<___ if ($addx);
 825         and     \$0x80100,%eax
 826         cmp     \$0x80100,%eax
 827         jne     .Lsqr8x_nox
 828
 829         call    bn_sqrx8x_internal      # see x86_64-mont5 module
 830
 831         pxor    %xmm0,%xmm0
 832         lea     48(%rsp),%rax
 833         lea     64(%rsp,$num,2),%rdx
 834         shr     \$3+2,$num
 835         mov     40(%rsp),%rsi           # restore %rsp
 836         jmp     .Lsqr8x_zero
 837
 838 .align  32
 839 .Lsqr8x_nox:
 840 ___
 841 $code.=<<___;
 842         call    bn_sqr8x_internal       # see x86_64-mont5 module
 843
 844         pxor    %xmm0,%xmm0
 845         lea     48(%rsp),%rax
 846         lea     64(%rsp,$num,2),%rdx
 847         shr     \$3+2,$num
 848         mov     40(%rsp),%rsi           # restore %rsp
 849         jmp     .Lsqr8x_zero
 850
 851 .align  32
 852 .Lsqr8x_zero:
 853         movdqa  %xmm0,16*0(%rax)        # wipe t
 854         movdqa  %xmm0,16*1(%rax)
 855         movdqa  %xmm0,16*2(%rax)
 856         movdqa  %xmm0,16*3(%rax)
 857         lea     16*4(%rax),%rax
 858         movdqa  %xmm0,16*0(%rdx)        # wipe n
 859         movdqa  %xmm0,16*1(%rdx)
 860         movdqa  %xmm0,16*2(%rdx)
 861         movdqa  %xmm0,16*3(%rdx)
 862         lea     16*4(%rdx),%rdx
 863         dec     $num
 864         jnz     .Lsqr8x_zero
 865
 866         mov     \$1,%rax
 867         mov     -48(%rsi),%r15
 868         mov     -40(%rsi),%r14
 869         mov     -32(%rsi),%r13
 870         mov     -24(%rsi),%r12
 871         mov     -16(%rsi),%rbp
 872         mov     -8(%rsi),%rbx
 873         lea     (%rsi),%rsp
 874 .Lsqr8x_epilogue:
 875         ret
 876 .size   bn_sqr8x_mont,.-bn_sqr8x_mont
 877 ___
 878 }}}
 879 \f
 880 if ($addx) {{{
 881 my $bp="%rdx";  # original value
 882
 883 $code.=<<___;
 884 .type   bn_mulx4x_mont,\@function,6
 885 .align  32
 886 bn_mulx4x_mont:
 887 .Lmulx4x_enter:
 888         mov     %rsp,%rax
 889         push    %rbx
 890         push    %rbp
 891         push    %r12
 892         push    %r13
 893         push    %r14
 894         push    %r15
 895
 896         shl     \$3,${num}d             # convert $num to bytes
 897         .byte   0x67
 898         xor     %r10,%r10
 899         sub     $num,%r10               # -$num
 900         mov     ($n0),$n0               # *n0
 901         lea     -72(%rsp,%r10),%rsp     # alloca(frame+$num+8)
 902         lea     ($bp,$num),%r10
 903         and     \$-128,%rsp
 904         ##############################################################
 905         # Stack layout
 906         # +0    num
 907         # +8    off-loaded &b[i]
 908         # +16   end of b[num]
 909         # +24   saved n0
 910         # +32   saved rp
 911         # +40   saved %rsp
 912         # +48   inner counter
 913         # +56
 914         # +64   tmp[num+1]
 915         #
 916         mov     $num,0(%rsp)            # save $num
 917         shr     \$5,$num
 918         mov     %r10,16(%rsp)           # end of b[num]
 919         sub     \$1,$num
 920         mov     $n0, 24(%rsp)           # save *n0
 921         mov     $rp, 32(%rsp)           # save $rp
 922         mov     %rax,40(%rsp)           # save original %rsp
 923         mov     $num,48(%rsp)           # inner counter
 924         jmp     .Lmulx4x_body
 925
 926 .align  32
 927 .Lmulx4x_body:
 928 ___
 929 my ($aptr, $bptr, $nptr, $tptr, $mi,  $bi,  $zero, $num)=
 930    ("%rsi","%rdi","%rcx","%rbx","%r8","%r9","%rbp","%rax");
 931 my $rptr=$bptr;
 932 $code.=<<___;
 933         lea     8($bp),$bptr
 934         mov     ($bp),%rdx              # b[0], $bp==%rdx actually
 935         lea     64+32(%rsp),$tptr
 936         mov     %rdx,$bi
 937
 938         mulx    0*8($aptr),$mi,%rax     # a[0]*b[0]
 939         mulx    1*8($aptr),%r11,%r14    # a[1]*b[0]
 940         add     %rax,%r11
 941         mov     $bptr,8(%rsp)           # off-load &b[i]
 942         mulx    2*8($aptr),%r12,%r13    # ...
 943         adc     %r14,%r12
 944         adc     \$0,%r13
 945
 946         mov     $mi,$bptr               # borrow $bptr
 947         imulq   24(%rsp),$mi            # "t[0]"*n0
 948         xor     $zero,$zero             # cf=0, of=0
 949
 950         mulx    3*8($aptr),%rax,%r14
 951          mov    $mi,%rdx
 952         lea     4*8($aptr),$aptr
 953         adcx    %rax,%r13
 954         adcx    $zero,%r14              # cf=0
 955
 956         mulx    0*8($nptr),%rax,%r10
 957         adcx    %rax,$bptr              # discarded
 958         adox    %r11,%r10
 959         mulx    1*8($nptr),%rax,%r11
 960         adcx    %rax,%r10
 961         adox    %r12,%r11
 962         .byte   0xc4,0x62,0xfb,0xf6,0xa1,0x10,0x00,0x00,0x00    # mulx  2*8($nptr),%rax,%r12
 963         mov     48(%rsp),$bptr          # counter value
 964         mov     %r10,-4*8($tptr)
 965         adcx    %rax,%r11
 966         adox    %r13,%r12
 967         mulx    3*8($nptr),%rax,%r15
 968          mov    $bi,%rdx
 969         mov     %r11,-3*8($tptr)
 970         adcx    %rax,%r12
 971         adox    $zero,%r15              # of=0
 972         lea     4*8($nptr),$nptr
 973         mov     %r12,-2*8($tptr)
 974
 975         jmp     .Lmulx4x_1st
 976
 977 .align  32
 978 .Lmulx4x_1st:
 979         adcx    $zero,%r15              # cf=0, modulo-scheduled
 980         mulx    0*8($aptr),%r10,%rax    # a[4]*b[0]
 981         adcx    %r14,%r10
 982         mulx    1*8($aptr),%r11,%r14    # a[5]*b[0]
 983         adcx    %rax,%r11
 984         mulx    2*8($aptr),%r12,%rax    # ...
 985         adcx    %r14,%r12
 986         mulx    3*8($aptr),%r13,%r14
 987          .byte  0x67,0x67
 988          mov    $mi,%rdx
 989         adcx    %rax,%r13
 990         adcx    $zero,%r14              # cf=0
 991         lea     4*8($aptr),$aptr
 992         lea     4*8($tptr),$tptr
 993
 994         adox    %r15,%r10
 995         mulx    0*8($nptr),%rax,%r15
 996         adcx    %rax,%r10
 997         adox    %r15,%r11
 998         mulx    1*8($nptr),%rax,%r15
 999         adcx    %rax,%r11
1000         adox    %r15,%r12
1001         mulx    2*8($nptr),%rax,%r15
1002         mov     %r10,-5*8($tptr)
1003         adcx    %rax,%r12
1004         mov     %r11,-4*8($tptr)
1005         adox    %r15,%r13
1006         mulx    3*8($nptr),%rax,%r15
1007          mov    $bi,%rdx
1008         mov     %r12,-3*8($tptr)
1009         adcx    %rax,%r13
1010         adox    $zero,%r15
1011         lea     4*8($nptr),$nptr
1012         mov     %r13,-2*8($tptr)
1013
1014         dec     $bptr                   # of=0, pass cf
1015         jnz     .Lmulx4x_1st
1016
1017         mov     0(%rsp),$num            # load num
1018         mov     8(%rsp),$bptr           # re-load &b[i]
1019         adc     $zero,%r15              # modulo-scheduled
1020         add     %r15,%r14
1021         sbb     %r15,%r15               # top-most carry
1022         mov     %r14,-1*8($tptr)
1023         jmp     .Lmulx4x_outer
1024
1025 .align  32
1026 .Lmulx4x_outer:
1027         mov     ($bptr),%rdx            # b[i]
1028         lea     8($bptr),$bptr          # b++
1029         sub     $num,$aptr              # rewind $aptr
1030         mov     %r15,($tptr)            # save top-most carry
1031         lea     64+4*8(%rsp),$tptr
1032         sub     $num,$nptr              # rewind $nptr
1033
1034         mulx    0*8($aptr),$mi,%r11     # a[0]*b[i]
1035         xor     %ebp,%ebp               # xor   $zero,$zero     # cf=0, of=0
1036         mov     %rdx,$bi
1037         mulx    1*8($aptr),%r14,%r12    # a[1]*b[i]
1038         adox    -4*8($tptr),$mi
1039         adcx    %r14,%r11
1040         mulx    2*8($aptr),%r15,%r13    # ...
1041         adox    -3*8($tptr),%r11
1042         adcx    %r15,%r12
1043         adox    $zero,%r12
1044         adcx    $zero,%r13
1045
1046         mov     $bptr,8(%rsp)           # off-load &b[i]
1047         .byte   0x67
1048         mov     $mi,%r15
1049         imulq   24(%rsp),$mi            # "t[0]"*n0
1050         xor     %ebp,%ebp               # xor   $zero,$zero     # cf=0, of=0
1051
1052         mulx    3*8($aptr),%rax,%r14
1053          mov    $mi,%rdx
1054         adox    -2*8($tptr),%r12
1055         adcx    %rax,%r13
1056         adox    -1*8($tptr),%r13
1057         adcx    $zero,%r14
1058         lea     4*8($aptr),$aptr
1059         adox    $zero,%r14
1060
1061         mulx    0*8($nptr),%rax,%r10
1062         adcx    %rax,%r15               # discarded
1063         adox    %r11,%r10
1064         mulx    1*8($nptr),%rax,%r11
1065         adcx    %rax,%r10
1066         adox    %r12,%r11
1067         mulx    2*8($nptr),%rax,%r12
1068         mov     %r10,-4*8($tptr)
1069         adcx    %rax,%r11
1070         adox    %r13,%r12
1071         mulx    3*8($nptr),%rax,%r15
1072          mov    $bi,%rdx
1073         mov     %r11,-3*8($tptr)
1074         lea     4*8($nptr),$nptr
1075         adcx    %rax,%r12
1076         adox    $zero,%r15              # of=0
1077         mov     48(%rsp),$bptr          # counter value
1078         mov     %r12,-2*8($tptr)
1079
1080         jmp     .Lmulx4x_inner
1081
1082 .align  32
1083 .Lmulx4x_inner:
1084         mulx    0*8($aptr),%r10,%rax    # a[4]*b[i]
1085         adcx    $zero,%r15              # cf=0, modulo-scheduled
1086         adox    %r14,%r10
1087         mulx    1*8($aptr),%r11,%r14    # a[5]*b[i]
1088         adcx    0*8($tptr),%r10
1089         adox    %rax,%r11
1090         mulx    2*8($aptr),%r12,%rax    # ...
1091         adcx    1*8($tptr),%r11
1092         adox    %r14,%r12
1093         mulx    3*8($aptr),%r13,%r14
1094          mov    $mi,%rdx
1095         adcx    2*8($tptr),%r12
1096         adox    %rax,%r13
1097         adcx    3*8($tptr),%r13
1098         adox    $zero,%r14              # of=0
1099         lea     4*8($aptr),$aptr
1100         lea     4*8($tptr),$tptr
1101         adcx    $zero,%r14              # cf=0
1102
1103         adox    %r15,%r10
1104         mulx    0*8($nptr),%rax,%r15
1105         adcx    %rax,%r10
1106         adox    %r15,%r11
1107         mulx    1*8($nptr),%rax,%r15
1108         adcx    %rax,%r11
1109         adox    %r15,%r12
1110         mulx    2*8($nptr),%rax,%r15
1111         mov     %r10,-5*8($tptr)
1112         adcx    %rax,%r12
1113         adox    %r15,%r13
1114         mulx    3*8($nptr),%rax,%r15
1115          mov    $bi,%rdx
1116         mov     %r11,-4*8($tptr)
1117         mov     %r12,-3*8($tptr)
1118         adcx    %rax,%r13
1119         adox    $zero,%r15
1120         lea     4*8($nptr),$nptr
1121         mov     %r13,-2*8($tptr)
1122
1123         dec     $bptr                   # of=0, pass cf
1124         jnz     .Lmulx4x_inner
1125
1126         mov     0(%rsp),$num            # load num
1127         mov     8(%rsp),$bptr           # re-load &b[i]
1128         adc     $zero,%r15              # modulo-scheduled
1129         sub     0*8($tptr),$zero        # pull top-most carry
1130         adc     %r15,%r14
1131         mov     -8($nptr),$mi
1132         sbb     %r15,%r15               # top-most carry
1133         mov     %r14,-1*8($tptr)
1134
1135         cmp     16(%rsp),$bptr
1136         jne     .Lmulx4x_outer
1137
1138         sub     %r14,$mi                # compare top-most words
1139         sbb     $mi,$mi
1140         or      $mi,%r15
1141
1142         neg     $num
1143         xor     %rdx,%rdx
1144         mov     32(%rsp),$rptr          # restore rp
1145         lea     64(%rsp),$tptr
1146
1147         pxor    %xmm0,%xmm0
1148         mov     0*8($nptr,$num),%r8
1149         mov     1*8($nptr,$num),%r9
1150         neg     %r8
1151         jmp     .Lmulx4x_sub_entry
1152
1153 .align  32
1154 .Lmulx4x_sub:
1155         mov     0*8($nptr,$num),%r8
1156         mov     1*8($nptr,$num),%r9
1157         not     %r8
1158 .Lmulx4x_sub_entry:
1159         mov     2*8($nptr,$num),%r10
1160         not     %r9
1161         and     %r15,%r8
1162         mov     3*8($nptr,$num),%r11
1163         not     %r10
1164         and     %r15,%r9
1165         not     %r11
1166         and     %r15,%r10
1167         and     %r15,%r11
1168
1169         neg     %rdx                    # mov %rdx,%cf
1170         adc     0*8($tptr),%r8
1171         adc     1*8($tptr),%r9
1172         movdqa  %xmm0,($tptr)
1173         adc     2*8($tptr),%r10
1174         adc     3*8($tptr),%r11
1175         movdqa  %xmm0,16($tptr)
1176         lea     4*8($tptr),$tptr
1177         sbb     %rdx,%rdx               # mov %cf,%rdx
1178
1179         mov     %r8,0*8($rptr)
1180         mov     %r9,1*8($rptr)
1181         mov     %r10,2*8($rptr)
1182         mov     %r11,3*8($rptr)
1183         lea     4*8($rptr),$rptr
1184
1185         add     \$32,$num
1186         jnz     .Lmulx4x_sub
1187
1188         mov     40(%rsp),%rsi           # restore %rsp
1189         mov     \$1,%rax
1190         mov     -48(%rsi),%r15
1191         mov     -40(%rsi),%r14
1192         mov     -32(%rsi),%r13
1193         mov     -24(%rsi),%r12
1194         mov     -16(%rsi),%rbp
1195         mov     -8(%rsi),%rbx
1196         lea     (%rsi),%rsp
1197 .Lmulx4x_epilogue:
1198         ret
1199 .size   bn_mulx4x_mont,.-bn_mulx4x_mont
1200 ___
1201 }}}
1202 $code.=<<___;
1203 .asciz  "Montgomery Multiplication for x86_64, CRYPTOGAMS by <appro\@openssl.org>"
1204 .align  16
1205 ___
1206
1207 # EXCEPTION_DISPOSITION handler (EXCEPTION_RECORD *rec,ULONG64 frame,
1208 #               CONTEXT *context,DISPATCHER_CONTEXT *disp)
1209 if ($win64) {
1210 $rec="%rcx";
1211 $frame="%rdx";
1212 $context="%r8";
1213 $disp="%r9";
1214
1215 $code.=<<___;
1216 .extern __imp_RtlVirtualUnwind
1217 .type   mul_handler,\@abi-omnipotent
1218 .align  16
1219 mul_handler:
1220         push    %rsi
1221         push    %rdi
1222         push    %rbx
1223         push    %rbp
1224         push    %r12
1225         push    %r13
1226         push    %r14
1227         push    %r15
1228         pushfq
1229         sub     \$64,%rsp
1230
1231         mov     120($context),%rax      # pull context->Rax
1232         mov     248($context),%rbx      # pull context->Rip
1233
1234         mov     8($disp),%rsi           # disp->ImageBase
1235         mov     56($disp),%r11          # disp->HandlerData
1236
1237         mov     0(%r11),%r10d           # HandlerData[0]
1238         lea     (%rsi,%r10),%r10        # end of prologue label
1239         cmp     %r10,%rbx               # context->Rip<end of prologue label
1240         jb      .Lcommon_seh_tail
1241
1242         mov     152($context),%rax      # pull context->Rsp
1243
1244         mov     4(%r11),%r10d           # HandlerData[1]
1245         lea     (%rsi,%r10),%r10        # epilogue label
1246         cmp     %r10,%rbx               # context->Rip>=epilogue label
1247         jae     .Lcommon_seh_tail
1248
1249         mov     192($context),%r10      # pull $num
1250         mov     8(%rax,%r10,8),%rax     # pull saved stack pointer
1251         lea     48(%rax),%rax
1252
1253         mov     -8(%rax),%rbx
1254         mov     -16(%rax),%rbp
1255         mov     -24(%rax),%r12
1256         mov     -32(%rax),%r13
1257         mov     -40(%rax),%r14
1258         mov     -48(%rax),%r15
1259         mov     %rbx,144($context)      # restore context->Rbx
1260         mov     %rbp,160($context)      # restore context->Rbp
1261         mov     %r12,216($context)      # restore context->R12
1262         mov     %r13,224($context)      # restore context->R13
1263         mov     %r14,232($context)      # restore context->R14
1264         mov     %r15,240($context)      # restore context->R15
1265
1266         jmp     .Lcommon_seh_tail
1267 .size   mul_handler,.-mul_handler
1268
1269 .type   sqr_handler,\@abi-omnipotent
1270 .align  16
1271 sqr_handler:
1272         push    %rsi
1273         push    %rdi
1274         push    %rbx
1275         push    %rbp
1276         push    %r12
1277         push    %r13
1278         push    %r14
1279         push    %r15
1280         pushfq
1281         sub     \$64,%rsp
1282
1283         mov     120($context),%rax      # pull context->Rax
1284         mov     248($context),%rbx      # pull context->Rip
1285
1286         mov     8($disp),%rsi           # disp->ImageBase
1287         mov     56($disp),%r11          # disp->HandlerData
1288
1289         mov     0(%r11),%r10d           # HandlerData[0]
1290         lea     (%rsi,%r10),%r10        # end of prologue label
1291         cmp     %r10,%rbx               # context->Rip<.Lsqr_body
1292         jb      .Lcommon_seh_tail
1293
1294         mov     152($context),%rax      # pull context->Rsp
1295
1296         mov     4(%r11),%r10d           # HandlerData[1]
1297         lea     (%rsi,%r10),%r10        # epilogue label
1298         cmp     %r10,%rbx               # context->Rip>=.Lsqr_epilogue
1299         jae     .Lcommon_seh_tail
1300
1301         mov     40(%rax),%rax           # pull saved stack pointer
1302
1303         mov     -8(%rax),%rbx
1304         mov     -16(%rax),%rbp
1305         mov     -24(%rax),%r12
1306         mov     -32(%rax),%r13
1307         mov     -40(%rax),%r14
1308         mov     -48(%rax),%r15
1309         mov     %rbx,144($context)      # restore context->Rbx
1310         mov     %rbp,160($context)      # restore context->Rbp
1311         mov     %r12,216($context)      # restore context->R12
1312         mov     %r13,224($context)      # restore context->R13
1313         mov     %r14,232($context)      # restore context->R14
1314         mov     %r15,240($context)      # restore context->R15
1315
1316 .Lcommon_seh_tail:
1317         mov     8(%rax),%rdi
1318         mov     16(%rax),%rsi
1319         mov     %rax,152($context)      # restore context->Rsp
1320         mov     %rsi,168($context)      # restore context->Rsi
1321         mov     %rdi,176($context)      # restore context->Rdi
1322
1323         mov     40($disp),%rdi          # disp->ContextRecord
1324         mov     $context,%rsi           # context
1325         mov     \$154,%ecx              # sizeof(CONTEXT)
1326         .long   0xa548f3fc              # cld; rep movsq
1327
1328         mov     $disp,%rsi
1329         xor     %rcx,%rcx               # arg1, UNW_FLAG_NHANDLER
1330         mov     8(%rsi),%rdx            # arg2, disp->ImageBase
1331         mov     0(%rsi),%r8             # arg3, disp->ControlPc
1332         mov     16(%rsi),%r9            # arg4, disp->FunctionEntry
1333         mov     40(%rsi),%r10           # disp->ContextRecord
1334         lea     56(%rsi),%r11           # &disp->HandlerData
1335         lea     24(%rsi),%r12           # &disp->EstablisherFrame
1336         mov     %r10,32(%rsp)           # arg5
1337         mov     %r11,40(%rsp)           # arg6
1338         mov     %r12,48(%rsp)           # arg7
1339         mov     %rcx,56(%rsp)           # arg8, (NULL)
1340         call    *__imp_RtlVirtualUnwind(%rip)
1341
1342         mov     \$1,%eax                # ExceptionContinueSearch
1343         add     \$64,%rsp
1344         popfq
1345         pop     %r15
1346         pop     %r14
1347         pop     %r13
1348         pop     %r12
1349         pop     %rbp
1350         pop     %rbx
1351         pop     %rdi
1352         pop     %rsi
1353         ret
1354 .size   sqr_handler,.-sqr_handler
1355
1356 .section        .pdata
1357 .align  4
1358         .rva    .LSEH_begin_bn_mul_mont
1359         .rva    .LSEH_end_bn_mul_mont
1360         .rva    .LSEH_info_bn_mul_mont
1361
1362         .rva    .LSEH_begin_bn_mul4x_mont
1363         .rva    .LSEH_end_bn_mul4x_mont
1364         .rva    .LSEH_info_bn_mul4x_mont
1365
1366         .rva    .LSEH_begin_bn_sqr8x_mont
1367         .rva    .LSEH_end_bn_sqr8x_mont
1368         .rva    .LSEH_info_bn_sqr8x_mont
1369 ___
1370 $code.=<<___ if ($addx);
1371         .rva    .LSEH_begin_bn_mulx4x_mont
1372         .rva    .LSEH_end_bn_mulx4x_mont
1373         .rva    .LSEH_info_bn_mulx4x_mont
1374 ___
1375 $code.=<<___;
1376 .section        .xdata
1377 .align  8
1378 .LSEH_info_bn_mul_mont:
1379         .byte   9,0,0,0
1380         .rva    mul_handler
1381         .rva    .Lmul_body,.Lmul_epilogue       # HandlerData[]
1382 .LSEH_info_bn_mul4x_mont:
1383         .byte   9,0,0,0
1384         .rva    mul_handler
1385         .rva    .Lmul4x_body,.Lmul4x_epilogue   # HandlerData[]
1386 .LSEH_info_bn_sqr8x_mont:
1387         .byte   9,0,0,0
1388         .rva    sqr_handler
1389         .rva    .Lsqr8x_body,.Lsqr8x_epilogue   # HandlerData[]
1390 ___
1391 $code.=<<___ if ($addx);
1392 .LSEH_info_bn_mulx4x_mont:
1393         .byte   9,0,0,0
1394         .rva    sqr_handler
1395         .rva    .Lmulx4x_body,.Lmulx4x_epilogue # HandlerData[]
1396 ___
1397 }
1398
1399 print $code;
1400 close STDOUT;