x86_64 assembly pack: Win64 SEH face-lift.

[openssl.git] / crypto / aes / asm / aesni-sha256-x86_64.pl
diff --git a/crypto/aes/asm/aesni-sha256-x86_64.pl b/crypto/aes/asm/aesni-sha256-x86_64.pl

index 19b0433b3b1bdbac254cc6c2af30bd548f0c5442..2d6424fecde3298b149e749178ec65d4dc6164e0 100644 (file)
--- a/crypto/aes/asm/aesni-sha256-x86_64.pl
+++ b/crypto/aes/asm/aesni-sha256-x86_64.pl
@@ -1,4 +1,11 @@
-#!/usr/bin/env perl
+#! /usr/bin/env perl
+# Copyright 2013-2016 The OpenSSL Project Authors. All Rights Reserved.
+#
+# Licensed under the OpenSSL license (the "License").  You may not use
+# this file except in compliance with the License.  You can obtain a copy
+# in the file LICENSE in the source distribution or at
+# https://www.openssl.org/source/license.html
+
  #
  # ====================================================================
  # Written by Andy Polyakov <appro@openssl.org> for the OpenSSL
@@ -25,9 +32,10 @@
  # Sandy Bridge     5.05/6.05/7.05+11.6         13.0    +28%/36%/43%
  # Ivy Bridge       5.05/6.05/7.05+10.3         11.6    +32%/41%/50%
  # Haswell          4.43/5.29/6.19+7.80         8.79    +39%/49%/59%
+# Skylake          2.62/3.14/3.62+7.70         8.10    +27%/34%/40%
  # Bulldozer        5.77/6.89/8.00+13.7         13.7    +42%/50%/58%
  #
-# (*)  there are XOP, AVX1 and AVX2 code pathes, meaning that
+# (*)  there are XOP, AVX1 and AVX2 code paths, meaning that
  #      Westmere is omitted from loop, this is because gain was not
  #      estimated high enough to justify the effort;
  # (**) these are EVP-free results, results obtained with 'speed
@@ -59,14 +67,14 @@ if (!$avx && $win64 && ($flavour =~ /masm/ || $ENV{ASM} =~ /ml64/) &&
         $avx = ($1>=10) + ($1>=12);
  }
  
-if (!$avx && `$ENV{CC} -v 2>&1` =~ /(^clang version|based on LLVM) ([3-9]\.[0-9]+)/) {
+if (!$avx && `$ENV{CC} -v 2>&1` =~ /((?:^clang|LLVM) version|.*based on LLVM) ([3-9]\.[0-9]+)/) {
         $avx = ($2>=3.0) + ($2>3.0);
  }
  
  $shaext=$avx;  ### set to zero if compiling for 1.0.1
  $avx=1         if (!$shaext && $avx);
  
-open OUT,"| \"$^X\" $xlate $flavour $output";
+open OUT,"| \"$^X\" \"$xlate\" $flavour \"$output\"";
  *STDOUT=*OUT;
  
  $func="aesni_cbc_sha256_enc";
@@ -139,11 +147,8 @@ $code.=<<___ if ($avx>1);
         je      ${func}_avx2
  ___
  $code.=<<___;
-       and     \$`1<<30`,%eax                  # mask "Intel CPU" bit
-       and     \$`1<<28|1<<9`,%r10d            # mask AVX+SSSE3 bits
-       or      %eax,%r10d
-       cmp     \$`1<<28|1<<9|1<<30`,%r10d
-       je      ${func}_avx
+       and     \$`1<<28`,%r10d                 # check for AVX
+       jnz     ${func}_avx
         ud2
  ___
                                                 }
@@ -336,13 +341,13 @@ $code.=<<___;
  ${func}_xop:
  .Lxop_shortcut:
         mov     `($win64?56:8)`(%rsp),$in0      # load 7th parameter
+       mov     %rsp,%rax               # copy %rsp
         push    %rbx
         push    %rbp
         push    %r12
         push    %r13
         push    %r14
         push    %r15
-       mov     %rsp,%r11               # copy %rsp
         sub     \$`$framesz+$win64*16*10`,%rsp
         and     \$-64,%rsp              # align stack frame
  
@@ -358,7 +363,7 @@ ${func}_xop:
         mov     $ivp,$_ivp
         mov     $ctx,$_ctx
         mov     $in0,$_in0
-       mov     %r11,$_rsp
+       mov     %rax,$_rsp
  ___
  $code.=<<___ if ($win64);
         movaps  %xmm6,`$framesz+16*0`(%rsp)
@@ -612,13 +617,13 @@ $code.=<<___ if ($win64);
         movaps  `$framesz+16*9`(%rsp),%xmm15
  ___
  $code.=<<___;
-       mov     (%rsi),%r15
-       mov     8(%rsi),%r14
-       mov     16(%rsi),%r13
-       mov     24(%rsi),%r12
-       mov     32(%rsi),%rbp
-       mov     40(%rsi),%rbx
-       lea     48(%rsi),%rsp
+       mov     -48(%rsi),%r15
+       mov     -40(%rsi),%r14
+       mov     -32(%rsi),%r13
+       mov     -24(%rsi),%r12
+       mov     -16(%rsi),%rbp
+       mov     -8(%rsi),%rbx
+       lea     (%rsi),%rsp
  .Lepilogue_xop:
         ret
  .size  ${func}_xop,.-${func}_xop
@@ -634,13 +639,13 @@ $code.=<<___;
  ${func}_avx:
  .Lavx_shortcut:
         mov     `($win64?56:8)`(%rsp),$in0      # load 7th parameter
+       mov     %rsp,%rax               # copy %rsp
         push    %rbx
         push    %rbp
         push    %r12
         push    %r13
         push    %r14
         push    %r15
-       mov     %rsp,%r11               # copy %rsp
         sub     \$`$framesz+$win64*16*10`,%rsp
         and     \$-64,%rsp              # align stack frame
  
@@ -656,7 +661,7 @@ ${func}_avx:
         mov     $ivp,$_ivp
         mov     $ctx,$_ctx
         mov     $in0,$_in0
-       mov     %r11,$_rsp
+       mov     %rax,$_rsp
  ___
  $code.=<<___ if ($win64);
         movaps  %xmm6,`$framesz+16*0`(%rsp)
@@ -863,13 +868,13 @@ $code.=<<___ if ($win64);
         movaps  `$framesz+16*9`(%rsp),%xmm15
  ___
  $code.=<<___;
-       mov     (%rsi),%r15
-       mov     8(%rsi),%r14
-       mov     16(%rsi),%r13
-       mov     24(%rsi),%r12
-       mov     32(%rsi),%rbp
-       mov     40(%rsi),%rbx
-       lea     48(%rsi),%rsp
+       mov     -48(%rsi),%r15
+       mov     -40(%rsi),%r14
+       mov     -32(%rsi),%r13
+       mov     -24(%rsi),%r12
+       mov     -16(%rsi),%rbp
+       mov     -8(%rsi),%rbx
+       lea     (%rsi),%rsp
  .Lepilogue_avx:
         ret
  .size  ${func}_avx,.-${func}_avx
@@ -879,7 +884,7 @@ if ($avx>1) {{
  ######################################################################
  # AVX2+BMI code path
  #
-my $a5=$SZ==4?"%esi":"%rsi";   # zap $inp 
+my $a5=$SZ==4?"%esi":"%rsi";   # zap $inp
  my $PUSH8=8*2*$SZ;
  use integer;
  
@@ -930,13 +935,13 @@ $code.=<<___;
  ${func}_avx2:
  .Lavx2_shortcut:
         mov     `($win64?56:8)`(%rsp),$in0      # load 7th parameter
+       mov     %rsp,%rax               # copy %rsp
         push    %rbx
         push    %rbp
         push    %r12
         push    %r13
         push    %r14
         push    %r15
-       mov     %rsp,%r11               # copy %rsp
         sub     \$`2*$SZ*$rounds+8*8+$win64*16*10`,%rsp
         and     \$-256*$SZ,%rsp         # align stack frame
         add     \$`2*$SZ*($rounds-8)`,%rsp
@@ -953,7 +958,7 @@ ${func}_avx2:
         mov     $ivp,$_ivp
         mov     $ctx,$_ctx
         mov     $in0,$_in0
-       mov     %r11,$_rsp
+       mov     %rax,$_rsp
  ___
  $code.=<<___ if ($win64);
         movaps  %xmm6,`$framesz+16*0`(%rsp)
@@ -1200,13 +1205,13 @@ $code.=<<___ if ($win64);
         movaps  `$framesz+16*9`(%rsp),%xmm15
  ___
  $code.=<<___;
-       mov     (%rsi),%r15
-       mov     8(%rsi),%r14
-       mov     16(%rsi),%r13
-       mov     24(%rsi),%r12
-       mov     32(%rsi),%rbp
-       mov     40(%rsi),%rbx
-       lea     48(%rsi),%rsp
+       mov     -48(%rsi),%r15
+       mov     -40(%rsi),%r14
+       mov     -32(%rsi),%r13
+       mov     -24(%rsi),%r12
+       mov     -16(%rsi),%rbp
+       mov     -8(%rsi),%rbx
+       lea     (%rsi),%rsp
  .Lepilogue_avx2:
         ret
  .size  ${func}_avx2,.-${func}_avx2
@@ -1564,7 +1569,6 @@ ___
  $code.=<<___;
         mov     %rax,%rsi               # put aside Rsp
         mov     16*$SZ+7*8(%rax),%rax   # pull $_rsp
-       lea     48(%rax),%rax
  
         mov     -8(%rax),%rbx
         mov     -16(%rax),%rbp