Add Broadwell performance results.

[openssl.git] / crypto / modes / asm / ghash-x86_64.pl
diff --git a/crypto/modes/asm/ghash-x86_64.pl b/crypto/modes/asm/ghash-x86_64.pl

index 04001e6aae793ad4d16bd6dce5c0b30743920da5..6e656ca13b8029cdf105cdd92df58b4e21d0d938 100644 (file)
--- a/crypto/modes/asm/ghash-x86_64.pl
+++ b/crypto/modes/asm/ghash-x86_64.pl
@@ -59,11 +59,13 @@
  # longer. A CPU with higher pclmulqdq issue rate would also benefit
  # from higher aggregate factor...
  #
-# Westmere     1.76(+14%)
-# Sandy Bridge 1.79(+9%)
-# Ivy Bridge   1.79(+8%)
+# Westmere     1.78(+13%)
+# Sandy Bridge 1.80(+8%)
+# Ivy Bridge   1.80(+7%)
  # Haswell      0.55(+93%) (if system doesn't support AVX)
-# Bulldozer    1.52(+25%)
+# Broadwell    0.45(+110%)(if system doesn't support AVX)
+# Bulldozer    1.49(+27%)
+# Silvermont   2.88(+13%)
  
  # March 2013
  #
@@ -72,7 +74,8 @@
  # CPUs such as Sandy and Ivy Bridge can execute it, the code performs
  # sub-optimally in comparison to above mentioned version. But thanks
  # to Ilya Albrekht and Max Locktyukhin of Intel Corp. we knew that
-# it performs in 0.41 cycles per byte on Haswell processor.
+# it performs in 0.41 cycles per byte on Haswell processor, and in
+# 0.29 on Broadwell.
  #
  # [1] http://rt.openssl.org/Ticket/Display.html?id=2900&user=guest&pass=guest
  
@@ -102,6 +105,10 @@ if (!$avx && $win64 && ($flavour =~ /masm/ || $ENV{ASM} =~ /ml64/) &&
         $avx = ($1>=10) + ($1>=11);
  }
  
+if (!$avx && `$ENV{CC} -v 2>&1` =~ /(^clang version|based on LLVM) ([3-9]\.[0-9]+)/) {
+       $avx = ($2>=3.0) + ($2>3.0);
+}
+
  open OUT,"| \"$^X\" $xlate $flavour $output";
  *STDOUT=*OUT;
  
@@ -673,8 +680,8 @@ $code.=<<___;
         pxor            $Xl,$Xm
         pclmulqdq       \$0x00,$Hkey2,$Xl
         pclmulqdq       \$0x11,$Hkey2,$Xh
-       xorps           $Xl,$Xln
         pclmulqdq       \$0x10,$HK,$Xm
+       xorps           $Xl,$Xln
         xorps           $Xh,$Xhn
         movups          0x50($Htbl),$HK
         xorps           $Xm,$Xmn
@@ -692,8 +699,8 @@ $code.=<<___;
          pshufd         \$0b01001110,$Xi,$T1
          pxor           $Xi,$T1
         pclmulqdq       \$0x11,$Hkey3,$Xh
-       xorps           $Xl,$Xln
         pclmulqdq       \$0x00,$HK,$Xm
+       xorps           $Xl,$Xln
         xorps           $Xh,$Xhn
  
         lea     0x40($inp),$inp
@@ -711,23 +718,23 @@ $code.=<<___;
         xorps           $Xln,$Xi
          movdqu         0x20($inp),$Xln
          movdqa         $Xl,$Xh
-        pshufd         \$0b01001110,$Xl,$Xm
         pclmulqdq       \$0x10,$HK,$T1
+        pshufd         \$0b01001110,$Xl,$Xm
         xorps           $Xhn,$Xhi
          pxor           $Xl,$Xm
          pshufb         $T3,$Xln
         movups          0x20($Htbl),$HK
-        pclmulqdq      \$0x00,$Hkey,$Xl
         xorps           $Xmn,$T1
-        movdqa         $Xln,$Xhn
+        pclmulqdq      \$0x00,$Hkey,$Xl
          pshufd         \$0b01001110,$Xln,$Xmn
  
         pxor            $Xi,$T1                 # aggregated Karatsuba post-processing
-        pxor           $Xln,$Xmn
+        movdqa         $Xln,$Xhn
         pxor            $Xhi,$T1                #
+        pxor           $Xln,$Xmn
         movdqa          $T1,$T2                 #
-       pslldq          \$8,$T1
          pclmulqdq      \$0x11,$Hkey,$Xh
+       pslldq          \$8,$T1
         psrldq          \$8,$T2                 #
         pxor            $T1,$Xi
         movdqa          .L7_mask(%rip),$T1
@@ -736,8 +743,8 @@ $code.=<<___;
  
         pand            $Xi,$T1                 # 1st phase
         pshufb          $T1,$T2                 #
-        pclmulqdq      \$0x00,$HK,$Xm
         pxor            $Xi,$T2                 #
+        pclmulqdq      \$0x00,$HK,$Xm
         psllq           \$57,$T2                #
         movdqa          $T2,$T1                 #
         pslldq          \$8,$T2
@@ -764,32 +771,31 @@ $code.=<<___;
          movdqa         $Xl,$Xh
          pxor           $Xm,$Xmn
          pshufd         \$0b01001110,$Xl,$Xm
-        pxor           $Xl,$Xm
-        pclmulqdq      \$0x00,$Hkey3,$Xl
         pxor            $T2,$Xi                 #
         pxor            $T1,$Xhi
+        pxor           $Xl,$Xm
+        pclmulqdq      \$0x00,$Hkey3,$Xl
         psrlq           \$1,$Xi                 #
+       pxor            $Xhi,$Xi                #
+       movdqa          $Xi,$Xhi
          pclmulqdq      \$0x11,$Hkey3,$Xh
          xorps          $Xl,$Xln
-       pxor            $Xhi,$Xi                #
+       pshufd          \$0b01001110,$Xi,$T1
+       pxor            $Xi,$T1
  
          pclmulqdq      \$0x00,$HK,$Xm
          xorps          $Xh,$Xhn
  
-       movdqa          $Xi,$Xhi
-       pshufd          \$0b01001110,$Xi,$T1
-       pxor            $Xi,$T1
-
         lea     0x40($inp),$inp
         sub     \$0x40,$len
         jnc     .Lmod4_loop
  
  .Ltail4x:
         pclmulqdq       \$0x00,$Hkey4,$Xi
-       xorps           $Xm,$Xmn
         pclmulqdq       \$0x11,$Hkey4,$Xhi
-       xorps           $Xln,$Xi
         pclmulqdq       \$0x10,$HK,$T1
+       xorps           $Xm,$Xmn
+       xorps           $Xln,$Xi
         xorps           $Xhn,$Xhi
         pxor            $Xi,$Xhi                # aggregated Karatsuba post-processing
         pxor            $Xmn,$T1
@@ -852,13 +858,13 @@ $code.=<<___;
  
         pxor            $Xln,$Xi                # (H*Ii+1) + H^2*(Ii+Xi)
         pxor            $Xhn,$Xhi
-         movdqu        ($inp),$Xhn             # Ii
+         movdqu        ($inp),$T2              # Ii
         pxor            $Xi,$T1                 # aggregated Karatsuba post-processing
-         pshufb        $T3,$Xhn
+         pshufb        $T3,$T2
           movdqu        16($inp),$Xln           # Ii+1
  
         pxor            $Xhi,$T1
-         pxor          $Xhn,$Xhi               # "Ii+Xi", consume early
+         pxor          $T2,$Xhi                # "Ii+Xi", consume early
         pxor            $T1,$Xmn
          pshufb         $T3,$Xln
         movdqa          $Xmn,$T1                #
@@ -885,9 +891,9 @@ $code.=<<___;
           pxor          $T1,$Xhi                #
         pxor            $Xhn,$Xmn               #
  
-       pclmulqdq       \$0x11,$Hkey,$Xhn       #######
           movdqa        $Xi,$T2                 # 2nd phase
           psrlq         \$1,$Xi
+       pclmulqdq       \$0x11,$Hkey,$Xhn       #######
           pxor          $T2,$Xhi                #
           pxor          $Xi,$T2
           psrlq         \$5,$Xi
@@ -896,7 +902,6 @@ $code.=<<___;
           psrlq         \$1,$Xi                 #
         pclmulqdq       \$0x00,$HK,$Xmn         #######
           pxor          $Xhi,$Xi                #
-         .byte         0x66,0x90
  
         sub             \$0x20,$len
         ja              .Lmod_loop