ec/ecp_nistz256: harmonize is_infinity with ec_GFp_simple_is_at_infinity.

[openssl.git] / crypto / ec / asm / ecp_nistz256-x86_64.pl
diff --git a/crypto/ec/asm/ecp_nistz256-x86_64.pl b/crypto/ec/asm/ecp_nistz256-x86_64.pl

index cdff22af2c84bd222596ee4a524f0d9153674b53..ddbbedf047fbfd91821cce91abc230f66834d574 100755 (executable)
--- a/crypto/ec/asm/ecp_nistz256-x86_64.pl
+++ b/crypto/ec/asm/ecp_nistz256-x86_64.pl
@@ -1,4 +1,11 @@
-#!/usr/bin/env perl
+#! /usr/bin/env perl
+# Copyright 2014-2016 The OpenSSL Project Authors. All Rights Reserved.
+#
+# Licensed under the OpenSSL license (the "License").  You may not use
+# this file except in compliance with the License.  You can obtain a copy
+# in the file LICENSE in the source distribution or at
+# https://www.openssl.org/source/license.html
+
  
  ##############################################################################
  #                                                                            #
@@ -30,21 +37,24 @@
  
  # Further optimization by <appro@openssl.org>:
  #
-#              this/original
-# Opteron      +12-49%
-# Bulldozer    +14-45%
-# P4           +18-46%
-# Westmere     +12-34%
-# Sandy Bridge +9-35%
-# Ivy Bridge   +9-35%
-# Haswell      +8-37%
-# Broadwell    +18-58%
-# Atom         +15-50%
-# VIA Nano     +43-160%
+#              this/original   with/without -DECP_NISTZ256_ASM(*)
+# Opteron      +12-49%         +110-150%
+# Bulldozer    +14-45%         +175-210%
+# P4           +18-46%         n/a :-(
+# Westmere     +12-34%         +80-87%
+# Sandy Bridge +9-35%          +110-120%
+# Ivy Bridge   +9-35%          +110-125%
+# Haswell      +8-37%          +140-160%
+# Broadwell    +18-58%         +145-210%
+# Atom         +15-50%         +130-180%
+# VIA Nano     +43-160%        +300-480%
+#
+# (*)  "without -DECP_NISTZ256_ASM" refers to build with
+#      "enable-ec_nistp_64_gcc_128";
  #
  # Ranges denote minimum and maximum improvement coefficients depending
-# on benchmark. Lower coefficients are for ECDSA sign, relatively
-# fastest server-side operation.
+# on benchmark. Lower coefficients are for ECDSA sign, relatively fastest
+# server-side operation. Keep in mind that +100% means 2x improvement.
  
  $flavour = shift;
  $output  = shift;
@@ -57,7 +67,7 @@ $0 =~ m/(.*[\/\\])[^\/\\]+$/; $dir=$1;
  ( $xlate="${dir}../../perlasm/x86_64-xlate.pl" and -f $xlate) or
  die "can't locate x86_64-xlate.pl";
  
-open OUT,"| \"$^X\" $xlate $flavour $output";
+open OUT,"| \"$^X\" \"$xlate\" $flavour \"$output\"";
  *STDOUT=*OUT;
  
  if (`$ENV{CC} -Wa,-v -c -o /dev/null -x assembler /dev/null 2>&1`
@@ -78,7 +88,7 @@ if (!$addx && $win64 && ($flavour =~ /masm/ || $ENV{ASM} =~ /ml64/) &&
         $addx = ($1>=12);
  }
  
-if (!$addx && `$ENV{CC} -v 2>&1` =~ /(^clang version|based on LLVM) ([3-9])\.([0-9]+)/) {
+if (!$addx && `$ENV{CC} -v 2>&1` =~ /((?:^clang|LLVM) version|.*based on LLVM) ([3-9])\.([0-9]+)/) {
         my $ver = $2 + $3/100.0;        # 3.1->3.01, 3.10->3.10
         $avx = ($ver>=3.0) + ($ver>=3.01);
         $addx = ($ver>=3.03);
@@ -125,6 +135,7 @@ ecp_nistz256_mul_by_2:
         push    %r13
  
         mov     8*0($a_ptr), $a0
+       xor     $t4,$t4
         mov     8*1($a_ptr), $a1
         add     $a0, $a0                # a0:a3+a0:a3
         mov     8*2($a_ptr), $a2
@@ -135,7 +146,7 @@ ecp_nistz256_mul_by_2:
         adc     $a2, $a2
         adc     $a3, $a3
          mov    $a1, $t1
-       sbb     $t4, $t4
+       adc     \$0, $t4
  
         sub     8*0($a_ptr), $a0
          mov    $a2, $t2
@@ -143,14 +154,14 @@ ecp_nistz256_mul_by_2:
         sbb     8*2($a_ptr), $a2
          mov    $a3, $t3
         sbb     8*3($a_ptr), $a3
-       test    $t4, $t4
+       sbb     \$0, $t4
  
-       cmovz   $t0, $a0
-       cmovz   $t1, $a1
+       cmovb   $t0, $a0
+       cmovb   $t1, $a1
         mov     $a0, 8*0($r_ptr)
-       cmovz   $t2, $a2
+       cmovb   $t2, $a2
         mov     $a1, 8*1($r_ptr)
-       cmovz   $t3, $a3
+       cmovb   $t3, $a3
         mov     $a2, 8*2($r_ptr)
         mov     $a3, 8*3($r_ptr)
  
@@ -247,12 +258,12 @@ ecp_nistz256_mul_by_3:
         sbb     \$0, $a2
          mov    $a3, $t3
         sbb     .Lpoly+8*3(%rip), $a3
-       test    $t4, $t4
+       sbb     \$0, $t4
  
-       cmovz   $t0, $a0
-       cmovz   $t1, $a1
-       cmovz   $t2, $a2
-       cmovz   $t3, $a3
+       cmovb   $t0, $a0
+       cmovb   $t1, $a1
+       cmovb   $t2, $a2
+       cmovb   $t3, $a3
  
         xor     $t4, $t4
         add     8*0($a_ptr), $a0        # a0:a3+=a_ptr[0:3]
@@ -269,14 +280,14 @@ ecp_nistz256_mul_by_3:
         sbb     \$0, $a2
          mov    $a3, $t3
         sbb     .Lpoly+8*3(%rip), $a3
-       test    $t4, $t4
+       sbb     \$0, $t4
  
-       cmovz   $t0, $a0
-       cmovz   $t1, $a1
+       cmovb   $t0, $a0
+       cmovb   $t1, $a1
         mov     $a0, 8*0($r_ptr)
-       cmovz   $t2, $a2
+       cmovb   $t2, $a2
         mov     $a1, 8*1($r_ptr)
-       cmovz   $t3, $a3
+       cmovb   $t3, $a3
         mov     $a2, 8*2($r_ptr)
         mov     $a3, 8*3($r_ptr)
  
@@ -315,14 +326,14 @@ ecp_nistz256_add:
         sbb     8*2($a_ptr), $a2
          mov    $a3, $t3
         sbb     8*3($a_ptr), $a3
-       test    $t4, $t4
+       sbb     \$0, $t4
  
-       cmovz   $t0, $a0
-       cmovz   $t1, $a1
+       cmovb   $t0, $a0
+       cmovb   $t1, $a1
         mov     $a0, 8*0($r_ptr)
-       cmovz   $t2, $a2
+       cmovb   $t2, $a2
         mov     $a1, 8*1($r_ptr)
-       cmovz   $t3, $a3
+       cmovb   $t3, $a3
         mov     $a2, 8*2($r_ptr)
         mov     $a3, 8*3($r_ptr)
  
@@ -1880,13 +1891,14 @@ $code.=<<___;
  .type  __ecp_nistz256_add_toq,\@abi-omnipotent
  .align 32
  __ecp_nistz256_add_toq:
+       xor     $t4,$t4
         add     8*0($b_ptr), $a0
         adc     8*1($b_ptr), $a1
          mov    $a0, $t0
         adc     8*2($b_ptr), $a2
         adc     8*3($b_ptr), $a3
          mov    $a1, $t1
-       sbb     $t4, $t4
+       adc     \$0, $t4
  
         sub     \$-1, $a0
          mov    $a2, $t2
@@ -1894,14 +1906,14 @@ __ecp_nistz256_add_toq:
         sbb     \$0, $a2
          mov    $a3, $t3
         sbb     $poly3, $a3
-       test    $t4, $t4
+       sbb     \$0, $t4
  
-       cmovz   $t0, $a0
-       cmovz   $t1, $a1
+       cmovb   $t0, $a0
+       cmovb   $t1, $a1
         mov     $a0, 8*0($r_ptr)
-       cmovz   $t2, $a2
+       cmovb   $t2, $a2
         mov     $a1, 8*1($r_ptr)
-       cmovz   $t3, $a3
+       cmovb   $t3, $a3
         mov     $a2, 8*2($r_ptr)
         mov     $a3, 8*3($r_ptr)
  
@@ -1969,13 +1981,14 @@ __ecp_nistz256_subq:
  .type  __ecp_nistz256_mul_by_2q,\@abi-omnipotent
  .align 32
  __ecp_nistz256_mul_by_2q:
+       xor     $t4, $t4
         add     $a0, $a0                # a0:a3+a0:a3
         adc     $a1, $a1
          mov    $a0, $t0
         adc     $a2, $a2
         adc     $a3, $a3
          mov    $a1, $t1
-       sbb     $t4, $t4
+       adc     \$0, $t4
  
         sub     \$-1, $a0
          mov    $a2, $t2
@@ -1983,14 +1996,14 @@ __ecp_nistz256_mul_by_2q:
         sbb     \$0, $a2
          mov    $a3, $t3
         sbb     $poly3, $a3
-       test    $t4, $t4
+       sbb     \$0, $t4
  
-       cmovz   $t0, $a0
-       cmovz   $t1, $a1
+       cmovb   $t0, $a0
+       cmovb   $t1, $a1
         mov     $a0, 8*0($r_ptr)
-       cmovz   $t2, $a2
+       cmovb   $t2, $a2
         mov     $a1, 8*1($r_ptr)
-       cmovz   $t3, $a3
+       cmovb   $t3, $a3
         mov     $a2, 8*2($r_ptr)
         mov     $a3, 8*3($r_ptr)
  
@@ -2041,6 +2054,7 @@ $code.=<<___;
         push    %r15
         sub     \$32*5+8, %rsp
  
+.Lpoint_double_shortcut$x:
         movdqu  0x00($a_ptr), %xmm0             # copy  *(P256_POINT *)$a_ptr.x
         mov     $a_ptr, $b_ptr                  # backup copy
         movdqu  0x10($a_ptr), %xmm1
@@ -2280,16 +2294,14 @@ $code.=<<___;
         mov     $b_org, $a_ptr                  # reassign
         movdqa  %xmm0, $in1_x(%rsp)
         movdqa  %xmm1, $in1_x+0x10(%rsp)
-       por     %xmm0, %xmm1
         movdqa  %xmm2, $in1_y(%rsp)
         movdqa  %xmm3, $in1_y+0x10(%rsp)
-       por     %xmm2, %xmm3
         movdqa  %xmm4, $in1_z(%rsp)
         movdqa  %xmm5, $in1_z+0x10(%rsp)
-       por     %xmm1, %xmm3
+       por     %xmm4, %xmm5
  
         movdqu  0x00($a_ptr), %xmm0             # copy  *(P256_POINT *)$b_ptr
-        pshufd \$0xb1, %xmm3, %xmm5
+        pshufd \$0xb1, %xmm5, %xmm3
         movdqu  0x10($a_ptr), %xmm1
         movdqu  0x20($a_ptr), %xmm2
          por    %xmm3, %xmm5
@@ -2301,14 +2313,14 @@ $code.=<<___;
         movdqa  %xmm0, $in2_x(%rsp)
          pshufd \$0x1e, %xmm5, %xmm4
         movdqa  %xmm1, $in2_x+0x10(%rsp)
-       por     %xmm0, %xmm1
-        movq   $r_ptr, %xmm0                   # save $r_ptr
+       movdqu  0x40($a_ptr),%xmm0              # in2_z again
+       movdqu  0x50($a_ptr),%xmm1
         movdqa  %xmm2, $in2_y(%rsp)
         movdqa  %xmm3, $in2_y+0x10(%rsp)
-       por     %xmm2, %xmm3
          por    %xmm4, %xmm5
          pxor   %xmm4, %xmm4
-       por     %xmm1, %xmm3
+       por     %xmm0, %xmm1
+        movq   $r_ptr, %xmm0                   # save $r_ptr
  
         lea     0x40-$bias($a_ptr), $a_ptr      # $a_ptr is still valid
          mov    $src0, $in2_z+8*0(%rsp)         # make in2_z copy
@@ -2319,8 +2331,8 @@ $code.=<<___;
         call    __ecp_nistz256_sqr_mont$x       # p256_sqr_mont(Z2sqr, in2_z);
  
         pcmpeqd %xmm4, %xmm5
-       pshufd  \$0xb1, %xmm3, %xmm4
-       por     %xmm3, %xmm4
+       pshufd  \$0xb1, %xmm1, %xmm4
+       por     %xmm1, %xmm4
         pshufd  \$0, %xmm5, %xmm5               # in1infty
         pshufd  \$0x1e, %xmm4, %xmm3
         por     %xmm3, %xmm4
@@ -2331,6 +2343,7 @@ $code.=<<___;
          mov    0x40+8*1($b_ptr), $acc6
          mov    0x40+8*2($b_ptr), $acc7
          mov    0x40+8*3($b_ptr), $acc0
+       movq    $b_ptr, %xmm1
  
         lea     0x40-$bias($b_ptr), $a_ptr
         lea     $Z1sqr(%rsp), $r_ptr            # Z1^2
@@ -2386,7 +2399,7 @@ $code.=<<___;
         test    $acc0, $acc0
         jnz     .Ladd_proceed$x                 # (in1infty || in2infty)?
         test    $acc1, $acc1
-       jz      .Ladd_proceed$x                 # is_equal(S1,S2)?
+       jz      .Ladd_double$x                  # is_equal(S1,S2)?
  
         movq    %xmm0, $r_ptr                   # restore $r_ptr
         pxor    %xmm0, %xmm0
@@ -2398,6 +2411,13 @@ $code.=<<___;
         movdqu  %xmm0, 0x50($r_ptr)
         jmp     .Ladd_done$x
  
+.align 32
+.Ladd_double$x:
+       movq    %xmm1, $a_ptr                   # restore $a_ptr
+       movq    %xmm0, $r_ptr                   # restore $r_ptr
+       add     \$`32*(18-5)`, %rsp             # difference in frame sizes
+       jmp     .Lpoint_double_shortcut$x
+
  .align 32
  .Ladd_proceed$x:
         `&load_for_sqr("$R(%rsp)", "$src0")`
@@ -2436,6 +2456,7 @@ $code.=<<___;
         #lea    $Hsqr(%rsp), $r_ptr     # 2*U1*H^2
         #call   __ecp_nistz256_mul_by_2 # ecp_nistz256_mul_by_2(Hsqr, U2);
  
+       xor     $t4, $t4
         add     $acc0, $acc0            # a0:a3+a0:a3
         lea     $Rsqr(%rsp), $a_ptr
         adc     $acc1, $acc1
@@ -2443,7 +2464,7 @@ $code.=<<___;
         adc     $acc2, $acc2
         adc     $acc3, $acc3
          mov    $acc1, $t1
-       sbb     $t4, $t4
+       adc     \$0, $t4
  
         sub     \$-1, $acc0
          mov    $acc2, $t2
@@ -2451,15 +2472,15 @@ $code.=<<___;
         sbb     \$0, $acc2
          mov    $acc3, $t3
         sbb     $poly3, $acc3
-       test    $t4, $t4
+       sbb     \$0, $t4
  
-       cmovz   $t0, $acc0
+       cmovb   $t0, $acc0
         mov     8*0($a_ptr), $t0
-       cmovz   $t1, $acc1
+       cmovb   $t1, $acc1
         mov     8*1($a_ptr), $t1
-       cmovz   $t2, $acc2
+       cmovb   $t2, $acc2
         mov     8*2($a_ptr), $t2
-       cmovz   $t3, $acc3
+       cmovb   $t3, $acc3
         mov     8*3($a_ptr), $t3
  
         call    __ecp_nistz256_sub$x            # p256_sub(res_x, Rsqr, Hsqr);
@@ -2643,16 +2664,14 @@ $code.=<<___;
          mov    0x40+8*3($a_ptr), $acc0
         movdqa  %xmm0, $in1_x(%rsp)
         movdqa  %xmm1, $in1_x+0x10(%rsp)
-       por     %xmm0, %xmm1
         movdqa  %xmm2, $in1_y(%rsp)
         movdqa  %xmm3, $in1_y+0x10(%rsp)
-       por     %xmm2, %xmm3
         movdqa  %xmm4, $in1_z(%rsp)
         movdqa  %xmm5, $in1_z+0x10(%rsp)
-       por     %xmm1, %xmm3
+       por     %xmm4, %xmm5
  
         movdqu  0x00($b_ptr), %xmm0     # copy  *(P256_POINT_AFFINE *)$b_ptr
-        pshufd \$0xb1, %xmm3, %xmm5
+        pshufd \$0xb1, %xmm5, %xmm3
         movdqu  0x10($b_ptr), %xmm1
         movdqu  0x20($b_ptr), %xmm2
          por    %xmm3, %xmm5
@@ -2741,6 +2760,7 @@ $code.=<<___;
         #lea    $Hsqr(%rsp), $r_ptr     # 2*U1*H^2
         #call   __ecp_nistz256_mul_by_2 # ecp_nistz256_mul_by_2(Hsqr, U2);
  
+       xor     $t4, $t4
         add     $acc0, $acc0            # a0:a3+a0:a3
         lea     $Rsqr(%rsp), $a_ptr
         adc     $acc1, $acc1
@@ -2748,7 +2768,7 @@ $code.=<<___;
         adc     $acc2, $acc2
         adc     $acc3, $acc3
          mov    $acc1, $t1
-       sbb     $t4, $t4
+       adc     \$0, $t4
  
         sub     \$-1, $acc0
          mov    $acc2, $t2
@@ -2756,15 +2776,15 @@ $code.=<<___;
         sbb     \$0, $acc2
          mov    $acc3, $t3
         sbb     $poly3, $acc3
-       test    $t4, $t4
+       sbb     \$0, $t4
  
-       cmovz   $t0, $acc0
+       cmovb   $t0, $acc0
         mov     8*0($a_ptr), $t0
-       cmovz   $t1, $acc1
+       cmovb   $t1, $acc1
         mov     8*1($a_ptr), $t1
-       cmovz   $t2, $acc2
+       cmovb   $t2, $acc2
         mov     8*2($a_ptr), $t2
-       cmovz   $t3, $acc3
+       cmovb   $t3, $acc3
         mov     8*3($a_ptr), $t3
  
         call    __ecp_nistz256_sub$x            # p256_sub(res_x, Rsqr, Hsqr);
@@ -2916,14 +2936,14 @@ __ecp_nistz256_add_tox:
         sbb     \$0, $a2
          mov    $a3, $t3
         sbb     $poly3, $a3
+       sbb     \$0, $t4
  
-       bt      \$0, $t4
-       cmovnc  $t0, $a0
-       cmovnc  $t1, $a1
+       cmovb   $t0, $a0
+       cmovb   $t1, $a1
         mov     $a0, 8*0($r_ptr)
-       cmovnc  $t2, $a2
+       cmovb   $t2, $a2
         mov     $a1, 8*1($r_ptr)
-       cmovnc  $t3, $a3
+       cmovb   $t3, $a3
         mov     $a2, 8*2($r_ptr)
         mov     $a3, 8*3($r_ptr)
  
@@ -3011,14 +3031,14 @@ __ecp_nistz256_mul_by_2x:
         sbb     \$0, $a2
          mov    $a3, $t3
         sbb     $poly3, $a3
+       sbb     \$0, $t4
  
-       bt      \$0, $t4
-       cmovnc  $t0, $a0
-       cmovnc  $t1, $a1
+       cmovb   $t0, $a0
+       cmovb   $t1, $a1
         mov     $a0, 8*0($r_ptr)
-       cmovnc  $t2, $a2
+       cmovb   $t2, $a2
         mov     $a1, 8*1($r_ptr)
-       cmovnc  $t3, $a3
+       cmovb   $t3, $a3
         mov     $a2, 8*2($r_ptr)
         mov     $a3, 8*3($r_ptr)