Following the license change, modify the boilerplates in crypto/aes/
[openssl.git] / crypto / aes / asm / bsaes-x86_64.pl
index d2c3978b962e451f0e901f0e578138813c5ef08c..5a82ff63600bc96b9316e761d0db4cd6f38d7907 100644 (file)
@@ -1,4 +1,11 @@
-#!/usr/bin/env perl
+#! /usr/bin/env perl
+# Copyright 2011-2016 The OpenSSL Project Authors. All Rights Reserved.
+#
+# Licensed under the Apache License 2.0 (the "License").  You may not use
+# this file except in compliance with the License.  You can obtain a copy
+# in the file LICENSE in the source distribution or at
+# https://www.openssl.org/source/license.html
+
 
 ###################################################################
 ### AES-128 [originally in CTR mode]                           ###
@@ -40,6 +47,8 @@
 # Core 2       9.30            8.69            +7%
 # Nehalem(**)  7.63            6.88            +11%
 # Atom         17.1            16.4            +4%
+# Silvermont   -               12.9
+# Goldmont     -               8.85
 #
 # (*)  Comparison is not completely fair, because "this" is ECB,
 #      i.e. no extra processing such as counter values calculation
@@ -78,6 +87,8 @@
 # Core 2       9.98
 # Nehalem      7.80
 # Atom         17.9
+# Silvermont   14.0
+# Goldmont     10.2
 #
 # November 2011.
 #
@@ -97,7 +108,7 @@ $0 =~ m/(.*[\/\\])[^\/\\]+$/; $dir=$1;
 ( $xlate="${dir}../../perlasm/x86_64-xlate.pl" and -f $xlate) or
 die "can't locate x86_64-xlate.pl";
 
-open OUT,"| \"$^X\" $xlate $flavour $output";
+open OUT,"| \"$^X\" \"$xlate\" $flavour \"$output\"";
 *STDOUT=*OUT;
 
 my ($inp,$out,$len,$key,$ivp)=("%rdi","%rsi","%rdx","%rcx");
@@ -120,7 +131,7 @@ my @s=@_[12..15];
 
 sub InBasisChange {
 # input in  lsb > [b0, b1, b2, b3, b4, b5, b6, b7] < msb
-# output in lsb > [b6, b5, b0, b3, b7, b1, b4, b2] < msb 
+# output in lsb > [b6, b5, b0, b3, b7, b1, b4, b2] < msb
 my @b=@_[0..7];
 $code.=<<___;
        pxor    @b[6], @b[5]
@@ -370,7 +381,7 @@ $code.=<<___;
        pxor    @s[0], @t[3]
        pxor    @s[1], @t[2]
        pxor    @s[2], @t[1]
-       pxor    @s[3], @t[0] 
+       pxor    @s[3], @t[0]
 
        #Inv_GF16 \t0, \t1, \t2, \t3, \s0, \s1, \s2, \s3
 
@@ -1154,15 +1165,23 @@ $code.=<<___;
 .type  bsaes_ecb_encrypt_blocks,\@abi-omnipotent
 .align 16
 bsaes_ecb_encrypt_blocks:
+.cfi_startproc
        mov     %rsp, %rax
 .Lecb_enc_prologue:
        push    %rbp
+.cfi_push      %rbp
        push    %rbx
+.cfi_push      %rbx
        push    %r12
+.cfi_push      %r12
        push    %r13
+.cfi_push      %r13
        push    %r14
+.cfi_push      %r14
        push    %r15
+.cfi_push      %r15
        lea     -0x48(%rsp),%rsp
+.cfi_adjust_cfa_offset 0x48
 ___
 $code.=<<___ if ($win64);
        lea     -0xa0(%rsp), %rsp
@@ -1180,6 +1199,7 @@ $code.=<<___ if ($win64);
 ___
 $code.=<<___;
        mov     %rsp,%rbp               # backup %rsp
+.cfi_def_cfa_register  %rbp
        mov     240($arg4),%eax         # rounds
        mov     $arg1,$inp              # backup arguments
        mov     $arg2,$out
@@ -1323,7 +1343,8 @@ $code.=<<___;
        cmp     %rax, %rbp
        jb      .Lecb_enc_bzero
 
-       lea     (%rbp),%rsp             # restore %rsp
+       lea     0x78(%rbp),%rax
+.cfi_def_cfa   %rax,8
 ___
 $code.=<<___ if ($win64);
        movaps  0x40(%rbp), %xmm6
@@ -1336,34 +1357,50 @@ $code.=<<___ if ($win64);
        movaps  0xb0(%rbp), %xmm13
        movaps  0xc0(%rbp), %xmm14
        movaps  0xd0(%rbp), %xmm15
-       lea     0xa0(%rbp), %rsp
+       lea     0xa0(%rax), %rax
+.Lecb_enc_tail:
 ___
 $code.=<<___;
-       mov     0x48(%rsp), %r15
-       mov     0x50(%rsp), %r14
-       mov     0x58(%rsp), %r13
-       mov     0x60(%rsp), %r12
-       mov     0x68(%rsp), %rbx
-       mov     0x70(%rsp), %rax
-       lea     0x78(%rsp), %rsp
-       mov     %rax, %rbp
+       mov     -48(%rax), %r15
+.cfi_restore   %r15
+       mov     -40(%rax), %r14
+.cfi_restore   %r14
+       mov     -32(%rax), %r13
+.cfi_restore   %r13
+       mov     -24(%rax), %r12
+.cfi_restore   %r12
+       mov     -16(%rax), %rbx
+.cfi_restore   %rbx
+       mov     -8(%rax), %rbp
+.cfi_restore   %rbp
+       lea     (%rax), %rsp            # restore %rsp
+.cfi_def_cfa_register  %rsp
 .Lecb_enc_epilogue:
        ret
+.cfi_endproc
 .size  bsaes_ecb_encrypt_blocks,.-bsaes_ecb_encrypt_blocks
 
 .globl bsaes_ecb_decrypt_blocks
 .type  bsaes_ecb_decrypt_blocks,\@abi-omnipotent
 .align 16
 bsaes_ecb_decrypt_blocks:
+.cfi_startproc
        mov     %rsp, %rax
 .Lecb_dec_prologue:
        push    %rbp
+.cfi_push      %rbp
        push    %rbx
+.cfi_push      %rbx
        push    %r12
+.cfi_push      %r12
        push    %r13
+.cfi_push      %r13
        push    %r14
+.cfi_push      %r14
        push    %r15
+.cfi_push      %r15
        lea     -0x48(%rsp),%rsp
+.cfi_adjust_cfa_offset 0x48
 ___
 $code.=<<___ if ($win64);
        lea     -0xa0(%rsp), %rsp
@@ -1381,6 +1418,7 @@ $code.=<<___ if ($win64);
 ___
 $code.=<<___;
        mov     %rsp,%rbp               # backup %rsp
+.cfi_def_cfa_register  %rbp
        mov     240($arg4),%eax         # rounds
        mov     $arg1,$inp              # backup arguments
        mov     $arg2,$out
@@ -1525,7 +1563,8 @@ $code.=<<___;
        cmp     %rax, %rbp
        jb      .Lecb_dec_bzero
 
-       lea     (%rbp),%rsp             # restore %rsp
+       lea     0x78(%rbp),%rax
+.cfi_def_cfa   %rax,8
 ___
 $code.=<<___ if ($win64);
        movaps  0x40(%rbp), %xmm6
@@ -1538,19 +1577,27 @@ $code.=<<___ if ($win64);
        movaps  0xb0(%rbp), %xmm13
        movaps  0xc0(%rbp), %xmm14
        movaps  0xd0(%rbp), %xmm15
-       lea     0xa0(%rbp), %rsp
+       lea     0xa0(%rax), %rax
+.Lecb_dec_tail:
 ___
 $code.=<<___;
-       mov     0x48(%rsp), %r15
-       mov     0x50(%rsp), %r14
-       mov     0x58(%rsp), %r13
-       mov     0x60(%rsp), %r12
-       mov     0x68(%rsp), %rbx
-       mov     0x70(%rsp), %rax
-       lea     0x78(%rsp), %rsp
-       mov     %rax, %rbp
+       mov     -48(%rax), %r15
+.cfi_restore   %r15
+       mov     -40(%rax), %r14
+.cfi_restore   %r14
+       mov     -32(%rax), %r13
+.cfi_restore   %r13
+       mov     -24(%rax), %r12
+.cfi_restore   %r12
+       mov     -16(%rax), %rbx
+.cfi_restore   %rbx
+       mov     -8(%rax), %rbp
+.cfi_restore   %rbp
+       lea     (%rax), %rsp            # restore %rsp
+.cfi_def_cfa_register  %rsp
 .Lecb_dec_epilogue:
        ret
+.cfi_endproc
 .size  bsaes_ecb_decrypt_blocks,.-bsaes_ecb_decrypt_blocks
 ___
 }
@@ -1560,6 +1607,7 @@ $code.=<<___;
 .type  bsaes_cbc_encrypt,\@abi-omnipotent
 .align 16
 bsaes_cbc_encrypt:
+.cfi_startproc
 ___
 $code.=<<___ if ($win64);
        mov     48(%rsp),$arg6          # pull direction flag
@@ -1573,12 +1621,19 @@ $code.=<<___;
        mov     %rsp, %rax
 .Lcbc_dec_prologue:
        push    %rbp
+.cfi_push      %rbp
        push    %rbx
+.cfi_push      %rbx
        push    %r12
+.cfi_push      %r12
        push    %r13
+.cfi_push      %r13
        push    %r14
+.cfi_push      %r14
        push    %r15
+.cfi_push      %r15
        lea     -0x48(%rsp), %rsp
+.cfi_adjust_cfa_offset 0x48
 ___
 $code.=<<___ if ($win64);
        mov     0xa0(%rsp),$arg5        # pull ivp
@@ -1597,6 +1652,7 @@ $code.=<<___ if ($win64);
 ___
 $code.=<<___;
        mov     %rsp, %rbp              # backup %rsp
+.cfi_def_cfa_register  %rbp
        mov     240($arg4), %eax        # rounds
        mov     $arg1, $inp             # backup arguments
        mov     $arg2, $out
@@ -1815,7 +1871,8 @@ $code.=<<___;
        cmp     %rax, %rbp
        ja      .Lcbc_dec_bzero
 
-       lea     (%rbp),%rsp             # restore %rsp
+       lea     0x78(%rbp),%rax
+.cfi_def_cfa   %rax,8
 ___
 $code.=<<___ if ($win64);
        movaps  0x40(%rbp), %xmm6
@@ -1828,34 +1885,50 @@ $code.=<<___ if ($win64);
        movaps  0xb0(%rbp), %xmm13
        movaps  0xc0(%rbp), %xmm14
        movaps  0xd0(%rbp), %xmm15
-       lea     0xa0(%rbp), %rsp
+       lea     0xa0(%rax), %rax
+.Lcbc_dec_tail:
 ___
 $code.=<<___;
-       mov     0x48(%rsp), %r15
-       mov     0x50(%rsp), %r14
-       mov     0x58(%rsp), %r13
-       mov     0x60(%rsp), %r12
-       mov     0x68(%rsp), %rbx
-       mov     0x70(%rsp), %rax
-       lea     0x78(%rsp), %rsp
-       mov     %rax, %rbp
+       mov     -48(%rax), %r15
+.cfi_restore   %r15
+       mov     -40(%rax), %r14
+.cfi_restore   %r14
+       mov     -32(%rax), %r13
+.cfi_restore   %r13
+       mov     -24(%rax), %r12
+.cfi_restore   %r12
+       mov     -16(%rax), %rbx
+.cfi_restore   %rbx
+       mov     -8(%rax), %rbp
+.cfi_restore   %rbp
+       lea     (%rax), %rsp            # restore %rsp
+.cfi_def_cfa_register  %rsp
 .Lcbc_dec_epilogue:
        ret
+.cfi_endproc
 .size  bsaes_cbc_encrypt,.-bsaes_cbc_encrypt
 
 .globl bsaes_ctr32_encrypt_blocks
 .type  bsaes_ctr32_encrypt_blocks,\@abi-omnipotent
 .align 16
 bsaes_ctr32_encrypt_blocks:
+.cfi_startproc
        mov     %rsp, %rax
 .Lctr_enc_prologue:
        push    %rbp
+.cfi_push      %rbp
        push    %rbx
+.cfi_push      %rbx
        push    %r12
+.cfi_push      %r12
        push    %r13
+.cfi_push      %r13
        push    %r14
+.cfi_push      %r14
        push    %r15
+.cfi_push      %r15
        lea     -0x48(%rsp), %rsp
+.cfi_adjust_cfa_offset 0x48
 ___
 $code.=<<___ if ($win64);
        mov     0xa0(%rsp),$arg5        # pull ivp
@@ -1874,6 +1947,7 @@ $code.=<<___ if ($win64);
 ___
 $code.=<<___;
        mov     %rsp, %rbp              # backup %rsp
+.cfi_def_cfa_register  %rbp
        movdqu  ($arg5), %xmm0          # load counter
        mov     240($arg4), %eax        # rounds
        mov     $arg1, $inp             # backup arguments
@@ -2047,7 +2121,8 @@ $code.=<<___;
        cmp     %rax, %rbp
        ja      .Lctr_enc_bzero
 
-       lea     (%rbp),%rsp             # restore %rsp
+       lea     0x78(%rbp),%rax
+.cfi_def_cfa   %rax,8
 ___
 $code.=<<___ if ($win64);
        movaps  0x40(%rbp), %xmm6
@@ -2060,19 +2135,27 @@ $code.=<<___ if ($win64);
        movaps  0xb0(%rbp), %xmm13
        movaps  0xc0(%rbp), %xmm14
        movaps  0xd0(%rbp), %xmm15
-       lea     0xa0(%rbp), %rsp
+       lea     0xa0(%rax), %rax
+.Lctr_enc_tail:
 ___
 $code.=<<___;
-       mov     0x48(%rsp), %r15
-       mov     0x50(%rsp), %r14
-       mov     0x58(%rsp), %r13
-       mov     0x60(%rsp), %r12
-       mov     0x68(%rsp), %rbx
-       mov     0x70(%rsp), %rax
-       lea     0x78(%rsp), %rsp
-       mov     %rax, %rbp
+       mov     -48(%rax), %r15
+.cfi_restore   %r15
+       mov     -40(%rax), %r14
+.cfi_restore   %r14
+       mov     -32(%rax), %r13
+.cfi_restore   %r13
+       mov     -24(%rax), %r12
+.cfi_restore   %r12
+       mov     -16(%rax), %rbx
+.cfi_restore   %rbx
+       mov     -8(%rax), %rbp
+.cfi_restore   %rbp
+       lea     (%rax), %rsp            # restore %rsp
+.cfi_def_cfa_register  %rsp
 .Lctr_enc_epilogue:
        ret
+.cfi_endproc
 .size  bsaes_ctr32_encrypt_blocks,.-bsaes_ctr32_encrypt_blocks
 ___
 ######################################################################
@@ -2088,15 +2171,23 @@ $code.=<<___;
 .type  bsaes_xts_encrypt,\@abi-omnipotent
 .align 16
 bsaes_xts_encrypt:
+.cfi_startproc
        mov     %rsp, %rax
 .Lxts_enc_prologue:
        push    %rbp
+.cfi_push      %rbp
        push    %rbx
+.cfi_push      %rbx
        push    %r12
+.cfi_push      %r12
        push    %r13
+.cfi_push      %r13
        push    %r14
+.cfi_push      %r14
        push    %r15
+.cfi_push      %r15
        lea     -0x48(%rsp), %rsp
+.cfi_adjust_cfa_offset 0x48
 ___
 $code.=<<___ if ($win64);
        mov     0xa0(%rsp),$arg5        # pull key2
@@ -2116,6 +2207,7 @@ $code.=<<___ if ($win64);
 ___
 $code.=<<___;
        mov     %rsp, %rbp              # backup %rsp
+.cfi_def_cfa_register  %rbp
        mov     $arg1, $inp             # backup arguments
        mov     $arg2, $out
        mov     $arg3, $len
@@ -2437,7 +2529,8 @@ $code.=<<___;
        cmp     %rax, %rbp
        ja      .Lxts_enc_bzero
 
-       lea     (%rbp),%rsp             # restore %rsp
+       lea     0x78(%rbp),%rax
+.cfi_def_cfa   %rax,8
 ___
 $code.=<<___ if ($win64);
        movaps  0x40(%rbp), %xmm6
@@ -2450,34 +2543,50 @@ $code.=<<___ if ($win64);
        movaps  0xb0(%rbp), %xmm13
        movaps  0xc0(%rbp), %xmm14
        movaps  0xd0(%rbp), %xmm15
-       lea     0xa0(%rbp), %rsp
+       lea     0xa0(%rax), %rax
+.Lxts_enc_tail:
 ___
 $code.=<<___;
-       mov     0x48(%rsp), %r15
-       mov     0x50(%rsp), %r14
-       mov     0x58(%rsp), %r13
-       mov     0x60(%rsp), %r12
-       mov     0x68(%rsp), %rbx
-       mov     0x70(%rsp), %rax
-       lea     0x78(%rsp), %rsp
-       mov     %rax, %rbp
+       mov     -48(%rax), %r15
+.cfi_restore   %r15
+       mov     -40(%rax), %r14
+.cfi_restore   %r14
+       mov     -32(%rax), %r13
+.cfi_restore   %r13
+       mov     -24(%rax), %r12
+.cfi_restore   %r12
+       mov     -16(%rax), %rbx
+.cfi_restore   %rbx
+       mov     -8(%rax), %rbp
+.cfi_restore   %rbp
+       lea     (%rax), %rsp            # restore %rsp
+.cfi_def_cfa_register  %rsp
 .Lxts_enc_epilogue:
        ret
+.cfi_endproc
 .size  bsaes_xts_encrypt,.-bsaes_xts_encrypt
 
 .globl bsaes_xts_decrypt
 .type  bsaes_xts_decrypt,\@abi-omnipotent
 .align 16
 bsaes_xts_decrypt:
+.cfi_startproc
        mov     %rsp, %rax
 .Lxts_dec_prologue:
        push    %rbp
+.cfi_push      %rbp
        push    %rbx
+.cfi_push      %rbx
        push    %r12
+.cfi_push      %r12
        push    %r13
+.cfi_push      %r13
        push    %r14
+.cfi_push      %r14
        push    %r15
+.cfi_push      %r15
        lea     -0x48(%rsp), %rsp
+.cfi_adjust_cfa_offset 0x48
 ___
 $code.=<<___ if ($win64);
        mov     0xa0(%rsp),$arg5        # pull key2
@@ -2844,7 +2953,8 @@ $code.=<<___;
        cmp     %rax, %rbp
        ja      .Lxts_dec_bzero
 
-       lea     (%rbp),%rsp             # restore %rsp
+       lea     0x78(%rbp),%rax
+.cfi_def_cfa   %rax,8
 ___
 $code.=<<___ if ($win64);
        movaps  0x40(%rbp), %xmm6
@@ -2857,19 +2967,27 @@ $code.=<<___ if ($win64);
        movaps  0xb0(%rbp), %xmm13
        movaps  0xc0(%rbp), %xmm14
        movaps  0xd0(%rbp), %xmm15
-       lea     0xa0(%rbp), %rsp
+       lea     0xa0(%rax), %rax
+.Lxts_dec_tail:
 ___
 $code.=<<___;
-       mov     0x48(%rsp), %r15
-       mov     0x50(%rsp), %r14
-       mov     0x58(%rsp), %r13
-       mov     0x60(%rsp), %r12
-       mov     0x68(%rsp), %rbx
-       mov     0x70(%rsp), %rax
-       lea     0x78(%rsp), %rsp
-       mov     %rax, %rbp
+       mov     -48(%rax), %r15
+.cfi_restore   %r15
+       mov     -40(%rax), %r14
+.cfi_restore   %r14
+       mov     -32(%rax), %r13
+.cfi_restore   %r13
+       mov     -24(%rax), %r12
+.cfi_restore   %r12
+       mov     -16(%rax), %rbx
+.cfi_restore   %rbx
+       mov     -8(%rax), %rbp
+.cfi_restore   %rbp
+       lea     (%rax), %rsp            # restore %rsp
+.cfi_def_cfa_register  %rsp
 .Lxts_dec_epilogue:
        ret
+.cfi_endproc
 .size  bsaes_xts_decrypt,.-bsaes_xts_decrypt
 ___
 }
@@ -2963,31 +3081,34 @@ se_handler:
 
        mov     0(%r11),%r10d           # HandlerData[0]
        lea     (%rsi,%r10),%r10        # prologue label
-       cmp     %r10,%rbx               # context->Rip<prologue label
-       jb      .Lin_prologue
-
-       mov     152($context),%rax      # pull context->Rsp
+       cmp     %r10,%rbx               # context->Rip<=prologue label
+       jbe     .Lin_prologue
 
        mov     4(%r11),%r10d           # HandlerData[1]
        lea     (%rsi,%r10),%r10        # epilogue label
        cmp     %r10,%rbx               # context->Rip>=epilogue label
        jae     .Lin_prologue
 
+       mov     8(%r11),%r10d           # HandlerData[2]
+       lea     (%rsi,%r10),%r10        # epilogue label
+       cmp     %r10,%rbx               # context->Rip>=tail label
+       jae     .Lin_tail
+
        mov     160($context),%rax      # pull context->Rbp
 
        lea     0x40(%rax),%rsi         # %xmm save area
        lea     512($context),%rdi      # &context.Xmm6
        mov     \$20,%ecx               # 10*sizeof(%xmm0)/sizeof(%rax)
        .long   0xa548f3fc              # cld; rep movsq
-       lea     0xa0(%rax),%rax         # adjust stack pointer
-
-       mov     0x70(%rax),%rbp
-       mov     0x68(%rax),%rbx
-       mov     0x60(%rax),%r12
-       mov     0x58(%rax),%r13
-       mov     0x50(%rax),%r14
-       mov     0x48(%rax),%r15
-       lea     0x78(%rax),%rax         # adjust stack pointer
+       lea     0xa0+0x78(%rax),%rax    # adjust stack pointer
+
+.Lin_tail:
+       mov     -48(%rax),%rbp
+       mov     -40(%rax),%rbx
+       mov     -32(%rax),%r12
+       mov     -24(%rax),%r13
+       mov     -16(%rax),%r14
+       mov     -8(%rax),%r15
        mov     %rbx,144($context)      # restore context->Rbx
        mov     %rbp,160($context)      # restore context->Rbp
        mov     %r12,216($context)      # restore context->R12
@@ -3068,28 +3189,40 @@ $code.=<<___ if ($ecb);
        .byte   9,0,0,0
        .rva    se_handler
        .rva    .Lecb_enc_body,.Lecb_enc_epilogue       # HandlerData[]
+       .rva    .Lecb_enc_tail
+       .long   0
 .Lecb_dec_info:
        .byte   9,0,0,0
        .rva    se_handler
        .rva    .Lecb_dec_body,.Lecb_dec_epilogue       # HandlerData[]
+       .rva    .Lecb_dec_tail
+       .long   0
 ___
 $code.=<<___;
 .Lcbc_dec_info:
        .byte   9,0,0,0
        .rva    se_handler
        .rva    .Lcbc_dec_body,.Lcbc_dec_epilogue       # HandlerData[]
+       .rva    .Lcbc_dec_tail
+       .long   0
 .Lctr_enc_info:
        .byte   9,0,0,0
        .rva    se_handler
        .rva    .Lctr_enc_body,.Lctr_enc_epilogue       # HandlerData[]
+       .rva    .Lctr_enc_tail
+       .long   0
 .Lxts_enc_info:
        .byte   9,0,0,0
        .rva    se_handler
        .rva    .Lxts_enc_body,.Lxts_enc_epilogue       # HandlerData[]
+       .rva    .Lxts_enc_tail
+       .long   0
 .Lxts_dec_info:
        .byte   9,0,0,0
        .rva    se_handler
        .rva    .Lxts_dec_body,.Lxts_dec_epilogue       # HandlerData[]
+       .rva    .Lxts_dec_tail
+       .long   0
 ___
 }