crypto/sha/asm/keccak1600-armv8.pl

   1 #!/usr/bin/env perl
   2 # Copyright 2017 The OpenSSL Project Authors. All Rights Reserved.
   3 #
   4 # Licensed under the OpenSSL license (the "License").  You may not use
   5 # this file except in compliance with the License.  You can obtain a copy
   6 # in the file LICENSE in the source distribution or at
   7 # https://www.openssl.org/source/license.html
   8 #
   9 # ====================================================================
  10 # Written by Andy Polyakov <appro@openssl.org> for the OpenSSL
  11 # project. The module is, however, dual licensed under OpenSSL and
  12 # CRYPTOGAMS licenses depending on where you obtain it. For further
  13 # details see http://www.openssl.org/~appro/cryptogams/.
  14 # ====================================================================
  15 #
  16 # Keccak-1600 for ARMv8.
  17 #
  18 # June 2017.
  19 #
  20 # This is straightforward KECCAK_1X_ALT implementation. It makes no
  21 # sense to attempt SIMD/NEON implementation for following reason.
  22 # 64-bit lanes of vector registers can't be addressed as easily as in
  23 # 32-bit mode. This means that 64-bit NEON is bound to be slower than
  24 # 32-bit NEON, and this implementation is faster than 32-bit NEON on
  25 # same processor. Even though it takes more scalar xor's and andn's,
  26 # it gets compensated by availability of rotate. Not to forget that
  27 # most processors achieve higher issue rate with scalar instructions.
  28 #
  29 ######################################################################
  30 # Numbers are cycles per processed byte.
  31 #
  32 #               r=1088(*)
  33 #
  34 # Cortex-A53    13
  35 # Cortex-A57    12
  36 # X-Gene        14
  37 # Mongoose      10
  38 # Denver        7.8
  39 # Apple A7      7.2
  40 #
  41 # (*)   Corresponds to SHA3-256. No improvement coefficients are listed
  42 #       because they vary too much from compiler to compiler. Newer
  43 #       compiler does much better and improvement varies from 5% on
  44 #       Cortex-A57 to 25% on Cortex-A53. While in comparison to older
  45 #       compiler this code is at least 2x faster...
  46
  47 $flavour = shift;
  48 $output  = shift;
  49
  50 $0 =~ m/(.*[\/\\])[^\/\\]+$/; $dir=$1;
  51 ( $xlate="${dir}arm-xlate.pl" and -f $xlate ) or
  52 ( $xlate="${dir}../../perlasm/arm-xlate.pl" and -f $xlate) or
  53 die "can't locate arm-xlate.pl";
  54
  55 open OUT,"| \"$^X\" $xlate $flavour $output";
  56 *STDOUT=*OUT;
  57
  58 my @A = map([ "x$_", "x".($_+1), "x".($_+2), "x".($_+3), "x".($_+4) ],
  59             (0, 5, 10, 15, 20));
  60    $A[3][3] = "x25"; # x18 is reserved
  61
  62 my @C = map("x$_", (26,27,28,30));
  63
  64 my @rhotates = ([  0,  1, 62, 28, 27 ],
  65                 [ 36, 44,  6, 55, 20 ],
  66                 [  3, 10, 43, 25, 39 ],
  67                 [ 41, 45, 15, 21,  8 ],
  68                 [ 18,  2, 61, 56, 14 ]);
  69
  70 $code.=<<___;
  71 .text
  72
  73 .align 8        // strategic alignment and padding that allows to use
  74                 // address value as loop termination condition...
  75         .quad   0,0,0,0,0,0,0,0
  76 .type   iotas,%object
  77 iotas:
  78         .quad   0x0000000000000001
  79         .quad   0x0000000000008082
  80         .quad   0x800000000000808a
  81         .quad   0x8000000080008000
  82         .quad   0x000000000000808b
  83         .quad   0x0000000080000001
  84         .quad   0x8000000080008081
  85         .quad   0x8000000000008009
  86         .quad   0x000000000000008a
  87         .quad   0x0000000000000088
  88         .quad   0x0000000080008009
  89         .quad   0x000000008000000a
  90         .quad   0x000000008000808b
  91         .quad   0x800000000000008b
  92         .quad   0x8000000000008089
  93         .quad   0x8000000000008003
  94         .quad   0x8000000000008002
  95         .quad   0x8000000000000080
  96         .quad   0x000000000000800a
  97         .quad   0x800000008000000a
  98         .quad   0x8000000080008081
  99         .quad   0x8000000000008080
 100         .quad   0x0000000080000001
 101         .quad   0x8000000080008008
 102 .size   iotas,.-iotas
 103
 104 .type   KeccakF1600_int,%function
 105 .align  5
 106 KeccakF1600_int:
 107         adr     $C[2],iotas
 108         stp     $C[2],x30,[sp,#16]              // 32 bytes on top are mine
 109         b       .Loop
 110 .align  4
 111 .Loop:
 112         ////////////////////////////////////////// Theta
 113         eor     $C[0],$A[0][0],$A[1][0]
 114         stp     $A[0][4],$A[1][4],[sp,#0]       // offload pair...
 115         eor     $C[1],$A[0][1],$A[1][1]
 116         eor     $C[2],$A[0][2],$A[1][2]
 117         eor     $C[3],$A[0][3],$A[1][3]
 118 ___
 119         $C[4]=$A[0][4];
 120         $C[5]=$A[1][4];
 121 $code.=<<___;
 122         eor     $C[4],$A[0][4],$A[1][4]
 123         eor     $C[0],$C[0],$A[2][0]
 124         eor     $C[1],$C[1],$A[2][1]
 125         eor     $C[2],$C[2],$A[2][2]
 126         eor     $C[3],$C[3],$A[2][3]
 127         eor     $C[4],$C[4],$A[2][4]
 128         eor     $C[0],$C[0],$A[3][0]
 129         eor     $C[1],$C[1],$A[3][1]
 130         eor     $C[2],$C[2],$A[3][2]
 131         eor     $C[3],$C[3],$A[3][3]
 132         eor     $C[4],$C[4],$A[3][4]
 133         eor     $C[0],$C[0],$A[4][0]
 134         eor     $C[2],$C[2],$A[4][2]
 135         eor     $C[1],$C[1],$A[4][1]
 136         eor     $C[3],$C[3],$A[4][3]
 137         eor     $C[4],$C[4],$A[4][4]
 138
 139         eor     $C[5],$C[0],$C[2],ror#63
 140
 141         eor     $A[0][1],$A[0][1],$C[5]
 142         eor     $A[1][1],$A[1][1],$C[5]
 143         eor     $A[2][1],$A[2][1],$C[5]
 144         eor     $A[3][1],$A[3][1],$C[5]
 145         eor     $A[4][1],$A[4][1],$C[5]
 146
 147         eor     $C[5],$C[1],$C[3],ror#63
 148         eor     $C[2],$C[2],$C[4],ror#63
 149         eor     $C[3],$C[3],$C[0],ror#63
 150         eor     $C[4],$C[4],$C[1],ror#63
 151
 152         eor     $C[1],   $A[0][2],$C[5]         // mov  $C[1],$A[0][2]
 153         eor     $A[1][2],$A[1][2],$C[5]
 154         eor     $A[2][2],$A[2][2],$C[5]
 155         eor     $A[3][2],$A[3][2],$C[5]
 156         eor     $A[4][2],$A[4][2],$C[5]
 157
 158         eor     $A[0][0],$A[0][0],$C[4]
 159         eor     $A[1][0],$A[1][0],$C[4]
 160         eor     $A[2][0],$A[2][0],$C[4]
 161         eor     $A[3][0],$A[3][0],$C[4]
 162         eor     $A[4][0],$A[4][0],$C[4]
 163 ___
 164         $C[4]=undef;
 165         $C[5]=undef;
 166 $code.=<<___;
 167         ldp     $A[0][4],$A[1][4],[sp,#0]       // re-load offloaded data
 168         eor     $C[0],   $A[0][3],$C[2]         // mov  $C[0],$A[0][3]
 169         eor     $A[1][3],$A[1][3],$C[2]
 170         eor     $A[2][3],$A[2][3],$C[2]
 171         eor     $A[3][3],$A[3][3],$C[2]
 172         eor     $A[4][3],$A[4][3],$C[2]
 173
 174         eor     $C[2],   $A[0][4],$C[3]         // mov  $C[2],$A[0][4]
 175         eor     $A[1][4],$A[1][4],$C[3]
 176         eor     $A[2][4],$A[2][4],$C[3]
 177         eor     $A[3][4],$A[3][4],$C[3]
 178         eor     $A[4][4],$A[4][4],$C[3]
 179
 180         ////////////////////////////////////////// Rho+Pi
 181         mov     $C[3],$A[0][1]
 182         ror     $A[0][1],$A[1][1],#64-$rhotates[1][1]
 183         //mov   $C[1],$A[0][2]
 184         ror     $A[0][2],$A[2][2],#64-$rhotates[2][2]
 185         //mov   $C[0],$A[0][3]
 186         ror     $A[0][3],$A[3][3],#64-$rhotates[3][3]
 187         //mov   $C[2],$A[0][4]
 188         ror     $A[0][4],$A[4][4],#64-$rhotates[4][4]
 189
 190         ror     $A[1][1],$A[1][4],#64-$rhotates[1][4]
 191         ror     $A[2][2],$A[2][3],#64-$rhotates[2][3]
 192         ror     $A[3][3],$A[3][2],#64-$rhotates[3][2]
 193         ror     $A[4][4],$A[4][1],#64-$rhotates[4][1]
 194
 195         ror     $A[1][4],$A[4][2],#64-$rhotates[4][2]
 196         ror     $A[2][3],$A[3][4],#64-$rhotates[3][4]
 197         ror     $A[3][2],$A[2][1],#64-$rhotates[2][1]
 198         ror     $A[4][1],$A[1][3],#64-$rhotates[1][3]
 199
 200         ror     $A[4][2],$A[2][4],#64-$rhotates[2][4]
 201         ror     $A[3][4],$A[4][3],#64-$rhotates[4][3]
 202         ror     $A[2][1],$A[1][2],#64-$rhotates[1][2]
 203         ror     $A[1][3],$A[3][1],#64-$rhotates[3][1]
 204
 205         ror     $A[2][4],$A[4][0],#64-$rhotates[4][0]
 206         ror     $A[4][3],$A[3][0],#64-$rhotates[3][0]
 207         ror     $A[1][2],$A[2][0],#64-$rhotates[2][0]
 208         ror     $A[3][1],$A[1][0],#64-$rhotates[1][0]
 209
 210         ror     $A[1][0],$C[0],#64-$rhotates[0][3]
 211         ror     $A[2][0],$C[3],#64-$rhotates[0][1]
 212         ror     $A[3][0],$C[2],#64-$rhotates[0][4]
 213         ror     $A[4][0],$C[1],#64-$rhotates[0][2]
 214
 215         ////////////////////////////////////////// Chi+Iota
 216         bic     $C[0],$A[0][2],$A[0][1]
 217         bic     $C[1],$A[0][3],$A[0][2]
 218         bic     $C[2],$A[0][0],$A[0][4]
 219         bic     $C[3],$A[0][1],$A[0][0]
 220         eor     $A[0][0],$A[0][0],$C[0]
 221         bic     $C[0],$A[0][4],$A[0][3]
 222         eor     $A[0][1],$A[0][1],$C[1]
 223          ldr    $C[1],[sp,#16]
 224         eor     $A[0][3],$A[0][3],$C[2]
 225         eor     $A[0][4],$A[0][4],$C[3]
 226         eor     $A[0][2],$A[0][2],$C[0]
 227          ldr    $C[3],[$C[1]],#8                // Iota[i++]
 228
 229         bic     $C[0],$A[1][2],$A[1][1]
 230          tst    $C[1],#255                      // are we done?
 231          str    $C[1],[sp,#16]
 232         bic     $C[1],$A[1][3],$A[1][2]
 233         bic     $C[2],$A[1][0],$A[1][4]
 234          eor    $A[0][0],$A[0][0],$C[3]         // A[0][0] ^= Iota
 235         bic     $C[3],$A[1][1],$A[1][0]
 236         eor     $A[1][0],$A[1][0],$C[0]
 237         bic     $C[0],$A[1][4],$A[1][3]
 238         eor     $A[1][1],$A[1][1],$C[1]
 239         eor     $A[1][3],$A[1][3],$C[2]
 240         eor     $A[1][4],$A[1][4],$C[3]
 241         eor     $A[1][2],$A[1][2],$C[0]
 242
 243         bic     $C[0],$A[2][2],$A[2][1]
 244         bic     $C[1],$A[2][3],$A[2][2]
 245         bic     $C[2],$A[2][0],$A[2][4]
 246         bic     $C[3],$A[2][1],$A[2][0]
 247         eor     $A[2][0],$A[2][0],$C[0]
 248         bic     $C[0],$A[2][4],$A[2][3]
 249         eor     $A[2][1],$A[2][1],$C[1]
 250         eor     $A[2][3],$A[2][3],$C[2]
 251         eor     $A[2][4],$A[2][4],$C[3]
 252         eor     $A[2][2],$A[2][2],$C[0]
 253
 254         bic     $C[0],$A[3][2],$A[3][1]
 255         bic     $C[1],$A[3][3],$A[3][2]
 256         bic     $C[2],$A[3][0],$A[3][4]
 257         bic     $C[3],$A[3][1],$A[3][0]
 258         eor     $A[3][0],$A[3][0],$C[0]
 259         bic     $C[0],$A[3][4],$A[3][3]
 260         eor     $A[3][1],$A[3][1],$C[1]
 261         eor     $A[3][3],$A[3][3],$C[2]
 262         eor     $A[3][4],$A[3][4],$C[3]
 263         eor     $A[3][2],$A[3][2],$C[0]
 264
 265         bic     $C[0],$A[4][2],$A[4][1]
 266         bic     $C[1],$A[4][3],$A[4][2]
 267         bic     $C[2],$A[4][0],$A[4][4]
 268         bic     $C[3],$A[4][1],$A[4][0]
 269         eor     $A[4][0],$A[4][0],$C[0]
 270         bic     $C[0],$A[4][4],$A[4][3]
 271         eor     $A[4][1],$A[4][1],$C[1]
 272         eor     $A[4][3],$A[4][3],$C[2]
 273         eor     $A[4][4],$A[4][4],$C[3]
 274         eor     $A[4][2],$A[4][2],$C[0]
 275
 276         bne     .Loop
 277
 278         ldr     x30,[sp,#24]
 279         ret
 280 .size   KeccakF1600_int,.-KeccakF1600_int
 281
 282 .type   KeccakF1600,%function
 283 .align  5
 284 KeccakF1600:
 285         stp     x29,x30,[sp,#-128]!
 286         add     x29,sp,#0
 287         stp     x19,x20,[sp,#16]
 288         stp     x21,x22,[sp,#32]
 289         stp     x23,x24,[sp,#48]
 290         stp     x25,x26,[sp,#64]
 291         stp     x27,x28,[sp,#80]
 292         sub     sp,sp,#48
 293
 294         str     x0,[sp,#32]                     // offload argument
 295         mov     $C[0],x0
 296         ldp     $A[0][0],$A[0][1],[x0,#16*0]
 297         ldp     $A[0][2],$A[0][3],[$C[0],#16*1]
 298         ldp     $A[0][4],$A[1][0],[$C[0],#16*2]
 299         ldp     $A[1][1],$A[1][2],[$C[0],#16*3]
 300         ldp     $A[1][3],$A[1][4],[$C[0],#16*4]
 301         ldp     $A[2][0],$A[2][1],[$C[0],#16*5]
 302         ldp     $A[2][2],$A[2][3],[$C[0],#16*6]
 303         ldp     $A[2][4],$A[3][0],[$C[0],#16*7]
 304         ldp     $A[3][1],$A[3][2],[$C[0],#16*8]
 305         ldp     $A[3][3],$A[3][4],[$C[0],#16*9]
 306         ldp     $A[4][0],$A[4][1],[$C[0],#16*10]
 307         ldp     $A[4][2],$A[4][3],[$C[0],#16*11]
 308         ldr     $A[4][4],[$C[0],#16*12]
 309
 310         bl      KeccakF1600_int
 311
 312         ldr     $C[0],[sp,#32]
 313         stp     $A[0][0],$A[0][1],[$C[0],#16*0]
 314         stp     $A[0][2],$A[0][3],[$C[0],#16*1]
 315         stp     $A[0][4],$A[1][0],[$C[0],#16*2]
 316         stp     $A[1][1],$A[1][2],[$C[0],#16*3]
 317         stp     $A[1][3],$A[1][4],[$C[0],#16*4]
 318         stp     $A[2][0],$A[2][1],[$C[0],#16*5]
 319         stp     $A[2][2],$A[2][3],[$C[0],#16*6]
 320         stp     $A[2][4],$A[3][0],[$C[0],#16*7]
 321         stp     $A[3][1],$A[3][2],[$C[0],#16*8]
 322         stp     $A[3][3],$A[3][4],[$C[0],#16*9]
 323         stp     $A[4][0],$A[4][1],[$C[0],#16*10]
 324         stp     $A[4][2],$A[4][3],[$C[0],#16*11]
 325         str     $A[4][4],[$C[0],#16*12]
 326
 327         ldp     x19,x20,[x29,#16]
 328         add     sp,sp,#48
 329         ldp     x21,x22,[x29,#32]
 330         ldp     x23,x24,[x29,#48]
 331         ldp     x25,x26,[x29,#64]
 332         ldp     x27,x28,[x29,#80]
 333         ldp     x29,x30,[sp],#128
 334         ret
 335 .size   KeccakF1600,.-KeccakF1600
 336
 337 .globl  SHA3_absorb
 338 .type   SHA3_absorb,%function
 339 .align  5
 340 SHA3_absorb:
 341         stp     x29,x30,[sp,#-128]!
 342         add     x29,sp,#0
 343         stp     x19,x20,[sp,#16]
 344         stp     x21,x22,[sp,#32]
 345         stp     x23,x24,[sp,#48]
 346         stp     x25,x26,[sp,#64]
 347         stp     x27,x28,[sp,#80]
 348         sub     sp,sp,#64
 349
 350         stp     x0,x1,[sp,#32]                  // offload arguments
 351         stp     x2,x3,[sp,#48]
 352
 353         mov     $C[0],x0                        // uint64_t A[5][5]
 354         mov     $C[1],x1                        // const void *inp
 355         mov     $C[2],x2                        // size_t len
 356         mov     $C[3],x3                        // size_t bsz
 357         ldp     $A[0][0],$A[0][1],[$C[0],#16*0]
 358         ldp     $A[0][2],$A[0][3],[$C[0],#16*1]
 359         ldp     $A[0][4],$A[1][0],[$C[0],#16*2]
 360         ldp     $A[1][1],$A[1][2],[$C[0],#16*3]
 361         ldp     $A[1][3],$A[1][4],[$C[0],#16*4]
 362         ldp     $A[2][0],$A[2][1],[$C[0],#16*5]
 363         ldp     $A[2][2],$A[2][3],[$C[0],#16*6]
 364         ldp     $A[2][4],$A[3][0],[$C[0],#16*7]
 365         ldp     $A[3][1],$A[3][2],[$C[0],#16*8]
 366         ldp     $A[3][3],$A[3][4],[$C[0],#16*9]
 367         ldp     $A[4][0],$A[4][1],[$C[0],#16*10]
 368         ldp     $A[4][2],$A[4][3],[$C[0],#16*11]
 369         ldr     $A[4][4],[$C[0],#16*12]
 370         b       .Loop_absorb
 371
 372 .align  4
 373 .Loop_absorb:
 374         subs    $C[0],$C[2],$C[3]               // len - bsz
 375         blo     .Labsorbed
 376
 377         str     $C[0],[sp,#48]                  // save len - bsz
 378 ___
 379 for (my $i=0; $i<24; $i+=2) {
 380 my $j = $i+1;
 381 $code.=<<___;
 382         ldr     $C[0],[$C[1]],#8                // *inp++
 383 #ifdef  __AARCH64EB__
 384         rev     $C[0],$C[0]
 385 #endif
 386         eor     $A[$i/5][$i%5],$A[$i/5][$i%5],$C[0]
 387         cmp     $C[3],#8*($i+2)
 388         blo     .Lprocess_block
 389         ldr     $C[0],[$C[1]],#8                // *inp++
 390 #ifdef  __AARCH64EB__
 391         rev     $C[0],$C[0]
 392 #endif
 393         eor     $A[$j/5][$j%5],$A[$j/5][$j%5],$C[0]
 394         beq     .Lprocess_block
 395 ___
 396 }
 397 $code.=<<___;
 398         ldr     $C[0],[$C[1]],#8                // *inp++
 399 #ifdef  __AARCH64EB__
 400         rev     $C[0],$C[0]
 401 #endif
 402         eor     $A[4][4],$A[4][4],$C[0]
 403
 404 .Lprocess_block:
 405         str     $C[1],[sp,#40]                  // save inp
 406
 407         bl      KeccakF1600_int
 408
 409         ldr     $C[1],[sp,#40]                  // restore arguments
 410         ldp     $C[2],$C[3],[sp,#48]
 411         b       .Loop_absorb
 412
 413 .align  4
 414 .Labsorbed:
 415         ldr     $C[1],[sp,#32]
 416         stp     $A[0][0],$A[0][1],[$C[1],#16*0]
 417         stp     $A[0][2],$A[0][3],[$C[1],#16*1]
 418         stp     $A[0][4],$A[1][0],[$C[1],#16*2]
 419         stp     $A[1][1],$A[1][2],[$C[1],#16*3]
 420         stp     $A[1][3],$A[1][4],[$C[1],#16*4]
 421         stp     $A[2][0],$A[2][1],[$C[1],#16*5]
 422         stp     $A[2][2],$A[2][3],[$C[1],#16*6]
 423         stp     $A[2][4],$A[3][0],[$C[1],#16*7]
 424         stp     $A[3][1],$A[3][2],[$C[1],#16*8]
 425         stp     $A[3][3],$A[3][4],[$C[1],#16*9]
 426         stp     $A[4][0],$A[4][1],[$C[1],#16*10]
 427         stp     $A[4][2],$A[4][3],[$C[1],#16*11]
 428         str     $A[4][4],[$C[1],#16*12]
 429
 430         mov     x0,$C[2]                        // return value
 431         ldp     x19,x20,[x29,#16]
 432         add     sp,sp,#64
 433         ldp     x21,x22,[x29,#32]
 434         ldp     x23,x24,[x29,#48]
 435         ldp     x25,x26,[x29,#64]
 436         ldp     x27,x28,[x29,#80]
 437         ldp     x29,x30,[sp],#128
 438         ret
 439 .size   SHA3_absorb,.-SHA3_absorb
 440 ___
 441 {
 442 my ($A_flat,$out,$len,$bsz) = map("x$_",(19..22));
 443 $code.=<<___;
 444 .globl  SHA3_squeeze
 445 .type   SHA3_squeeze,%function
 446 .align  5
 447 SHA3_squeeze:
 448         stp     x29,x30,[sp,#-48]!
 449         add     x29,sp,#0
 450         stp     x19,x20,[sp,#16]
 451         stp     x21,x22,[sp,#32]
 452
 453         mov     $A_flat,x0                      // put aside arguments
 454         mov     $out,x1
 455         mov     $len,x2
 456         mov     $bsz,x3
 457
 458 .Loop_squeeze:
 459         ldr     x4,[x0],#8
 460         cmp     $len,#8
 461         blo     .Lsqueeze_tail
 462 #ifdef  __AARCH64EB__
 463         rev     x4,x4
 464 #endif
 465         str     x4,[$out],#8
 466         subs    $len,$len,#8
 467         beq     .Lsqueeze_done
 468
 469         subs    x3,x3,#8
 470         bhi     .Loop_squeeze
 471
 472         mov     x0,$A_flat
 473         bl      KeccakF1600
 474         mov     x0,$A_flat
 475         mov     x3,$bsz
 476         b       .Loop_squeeze
 477
 478 .align  4
 479 .Lsqueeze_tail:
 480         strb    w4,[$out],#1
 481         lsr     x4,x4,#8
 482         subs    $len,$len,#1
 483         beq     .Lsqueeze_done
 484         strb    w4,[$out],#1
 485         lsr     x4,x4,#8
 486         subs    $len,$len,#1
 487         beq     .Lsqueeze_done
 488         strb    w4,[$out],#1
 489         lsr     x4,x4,#8
 490         subs    $len,$len,#1
 491         beq     .Lsqueeze_done
 492         strb    w4,[$out],#1
 493         lsr     x4,x4,#8
 494         subs    $len,$len,#1
 495         beq     .Lsqueeze_done
 496         strb    w4,[$out],#1
 497         lsr     x4,x4,#8
 498         subs    $len,$len,#1
 499         beq     .Lsqueeze_done
 500         strb    w4,[$out],#1
 501         lsr     x4,x4,#8
 502         subs    $len,$len,#1
 503         beq     .Lsqueeze_done
 504         strb    w4,[$out],#1
 505
 506 .Lsqueeze_done:
 507         ldp     x19,x20,[sp,#16]
 508         ldp     x21,x22,[sp,#32]
 509         ldp     x29,x30,[sp],#48
 510         ret
 511 .size   SHA3_squeeze,.-SHA3_squeeze
 512 .asciz  "Keccak-1600 absorb and squeeze for ARMv8, CRYPTOGAMS by <appro\@openssl.org>"
 513 ___
 514 }
 515
 516 print $code;
 517 close STDOUT;