crypto/aes/asm/vpaes-ppc.pl

   1 #! /usr/bin/env perl
   2 # Copyright 2013-2016 The OpenSSL Project Authors. All Rights Reserved.
   3 #
   4 # Licensed under the OpenSSL license (the "License").  You may not use
   5 # this file except in compliance with the License.  You can obtain a copy
   6 # in the file LICENSE in the source distribution or at
   7 # https://www.openssl.org/source/license.html
   8
   9
  10 ######################################################################
  11 ## Constant-time SSSE3 AES core implementation.
  12 ## version 0.1
  13 ##
  14 ## By Mike Hamburg (Stanford University), 2009
  15 ## Public domain.
  16 ##
  17 ## For details see http://shiftleft.org/papers/vector_aes/ and
  18 ## http://crypto.stanford.edu/vpaes/.
  19
  20 # CBC encrypt/decrypt performance in cycles per byte processed with
  21 # 128-bit key.
  22 #
  23 #               aes-ppc.pl              this
  24 # PPC74x0/G4e   35.5/52.1/(23.8)        11.9(*)/15.4
  25 # PPC970/G5     37.9/55.0/(28.5)        22.2/28.5
  26 # POWER6        42.7/54.3/(28.2)        63.0/92.8(**)
  27 # POWER7        32.3/42.9/(18.4)        18.5/23.3
  28 #
  29 # (*)   This is ~10% worse than reported in paper. The reason is
  30 #       twofold. This module doesn't make any assumption about
  31 #       key schedule (or data for that matter) alignment and handles
  32 #       it in-line. Secondly it, being transliterated from
  33 #       vpaes-x86_64.pl, relies on "nested inversion" better suited
  34 #       for Intel CPUs.
  35 # (**)  Inadequate POWER6 performance is due to astronomic AltiVec
  36 #       latency, 9 cycles per simple logical operation.
  37
  38 $flavour = shift;
  39
  40 if ($flavour =~ /64/) {
  41         $SIZE_T =8;
  42         $LRSAVE =2*$SIZE_T;
  43         $STU    ="stdu";
  44         $POP    ="ld";
  45         $PUSH   ="std";
  46         $UCMP   ="cmpld";
  47 } elsif ($flavour =~ /32/) {
  48         $SIZE_T =4;
  49         $LRSAVE =$SIZE_T;
  50         $STU    ="stwu";
  51         $POP    ="lwz";
  52         $PUSH   ="stw";
  53         $UCMP   ="cmplw";
  54 } else { die "nonsense $flavour"; }
  55
  56 $sp="r1";
  57 $FRAME=6*$SIZE_T+13*16; # 13*16 is for v20-v31 offload
  58
  59 $0 =~ m/(.*[\/\\])[^\/\\]+$/; $dir=$1;
  60 ( $xlate="${dir}ppc-xlate.pl" and -f $xlate ) or
  61 ( $xlate="${dir}../../perlasm/ppc-xlate.pl" and -f $xlate) or
  62 die "can't locate ppc-xlate.pl";
  63
  64 open STDOUT,"| $^X $xlate $flavour ".shift || die "can't call $xlate: $!";
  65
  66 $code.=<<___;
  67 .machine        "any"
  68
  69 .text
  70
  71 .align  7       # totally strategic alignment
  72 _vpaes_consts:
  73 Lk_mc_forward:  # mc_forward
  74         .long   0x01020300, 0x05060704, 0x090a0b08, 0x0d0e0f0c  ?inv
  75         .long   0x05060704, 0x090a0b08, 0x0d0e0f0c, 0x01020300  ?inv
  76         .long   0x090a0b08, 0x0d0e0f0c, 0x01020300, 0x05060704  ?inv
  77         .long   0x0d0e0f0c, 0x01020300, 0x05060704, 0x090a0b08  ?inv
  78 Lk_mc_backward: # mc_backward
  79         .long   0x03000102, 0x07040506, 0x0b08090a, 0x0f0c0d0e  ?inv
  80         .long   0x0f0c0d0e, 0x03000102, 0x07040506, 0x0b08090a  ?inv
  81         .long   0x0b08090a, 0x0f0c0d0e, 0x03000102, 0x07040506  ?inv
  82         .long   0x07040506, 0x0b08090a, 0x0f0c0d0e, 0x03000102  ?inv
  83 Lk_sr:          # sr
  84         .long   0x00010203, 0x04050607, 0x08090a0b, 0x0c0d0e0f  ?inv
  85         .long   0x00050a0f, 0x04090e03, 0x080d0207, 0x0c01060b  ?inv
  86         .long   0x0009020b, 0x040d060f, 0x08010a03, 0x0c050e07  ?inv
  87         .long   0x000d0a07, 0x04010e0b, 0x0805020f, 0x0c090603  ?inv
  88
  89 ##
  90 ## "Hot" constants
  91 ##
  92 Lk_inv:         # inv, inva
  93         .long   0xf001080d, 0x0f06050e, 0x020c0b0a, 0x09030704  ?rev
  94         .long   0xf0070b0f, 0x060a0401, 0x09080502, 0x0c0e0d03  ?rev
  95 Lk_ipt:         # input transform (lo, hi)
  96         .long   0x00702a5a, 0x98e8b2c2, 0x08782252, 0x90e0baca  ?rev
  97         .long   0x004d7c31, 0x7d30014c, 0x81ccfdb0, 0xfcb180cd  ?rev
  98 Lk_sbo:         # sbou, sbot
  99         .long   0x00c7bd6f, 0x176dd2d0, 0x78a802c5, 0x7abfaa15  ?rev
 100         .long   0x006abb5f, 0xa574e4cf, 0xfa352b41, 0xd1901e8e  ?rev
 101 Lk_sb1:         # sb1u, sb1t
 102         .long   0x0023e2fa, 0x15d41836, 0xefd92e0d, 0xc1ccf73b  ?rev
 103         .long   0x003e50cb, 0x8fe19bb1, 0x44f52a14, 0x6e7adfa5  ?rev
 104 Lk_sb2:         # sb2u, sb2t
 105         .long   0x0029e10a, 0x4088eb69, 0x4a2382ab, 0xc863a1c2  ?rev
 106         .long   0x0024710b, 0xc6937ae2, 0xcd2f98bc, 0x55e9b75e  ?rev
 107
 108 ##
 109 ##  Decryption stuff
 110 ##
 111 Lk_dipt:        # decryption input transform
 112         .long   0x005f540b, 0x045b500f, 0x1a454e11, 0x1e414a15  ?rev
 113         .long   0x00650560, 0xe683e386, 0x94f191f4, 0x72177712  ?rev
 114 Lk_dsbo:        # decryption sbox final output
 115         .long   0x0040f97e, 0x53ea8713, 0x2d3e94d4, 0xb96daac7  ?rev
 116         .long   0x001d4493, 0x0f56d712, 0x9c8ec5d8, 0x59814bca  ?rev
 117 Lk_dsb9:        # decryption sbox output *9*u, *9*t
 118         .long   0x00d6869a, 0x53031c85, 0xc94c994f, 0x501fd5ca  ?rev
 119         .long   0x0049d7ec, 0x89173bc0, 0x65a5fbb2, 0x9e2c5e72  ?rev
 120 Lk_dsbd:        # decryption sbox output *D*u, *D*t
 121         .long   0x00a2b1e6, 0xdfcc577d, 0x39442a88, 0x139b6ef5  ?rev
 122         .long   0x00cbc624, 0xf7fae23c, 0xd3efde15, 0x0d183129  ?rev
 123 Lk_dsbb:        # decryption sbox output *B*u, *B*t
 124         .long   0x0042b496, 0x926422d0, 0x04d4f2b0, 0xf6462660  ?rev
 125         .long   0x006759cd, 0xa69894c1, 0x6baa5532, 0x3e0cfff3  ?rev
 126 Lk_dsbe:        # decryption sbox output *E*u, *E*t
 127         .long   0x00d0d426, 0x9692f246, 0xb0f6b464, 0x04604222  ?rev
 128         .long   0x00c1aaff, 0xcda6550c, 0x323e5998, 0x6bf36794  ?rev
 129
 130 ##
 131 ##  Key schedule constants
 132 ##
 133 Lk_dksd:        # decryption key schedule: invskew x*D
 134         .long   0x0047e4a3, 0x5d1ab9fe, 0xf9be1d5a, 0xa4e34007  ?rev
 135         .long   0x008336b5, 0xf477c241, 0x1e9d28ab, 0xea69dc5f  ?rev
 136 Lk_dksb:        # decryption key schedule: invskew x*B
 137         .long   0x00d55085, 0x1fca4f9a, 0x994cc91c, 0x8653d603  ?rev
 138         .long   0x004afcb6, 0xa7ed5b11, 0xc882347e, 0x6f2593d9  ?rev
 139 Lk_dkse:        # decryption key schedule: invskew x*E + 0x63
 140         .long   0x00d6c91f, 0xca1c03d5, 0x86504f99, 0x4c9a8553  ?rev
 141         .long   0xe87bdc4f, 0x059631a2, 0x8714b320, 0x6af95ecd  ?rev
 142 Lk_dks9:        # decryption key schedule: invskew x*9
 143         .long   0x00a7d97e, 0xc86f11b6, 0xfc5b2582, 0x3493ed4a  ?rev
 144         .long   0x00331427, 0x62517645, 0xcefddae9, 0xac9fb88b  ?rev
 145
 146 Lk_rcon:        # rcon
 147         .long   0xb6ee9daf, 0xb991831f, 0x817d7c4d, 0x08982a70  ?asis
 148 Lk_s63:
 149         .long   0x5b5b5b5b, 0x5b5b5b5b, 0x5b5b5b5b, 0x5b5b5b5b  ?asis
 150
 151 Lk_opt:         # output transform
 152         .long   0x0060b6d6, 0x29499fff, 0x0868bede, 0x214197f7  ?rev
 153         .long   0x00ecbc50, 0x51bded01, 0xe00c5cb0, 0xb15d0de1  ?rev
 154 Lk_deskew:      # deskew tables: inverts the sbox's "skew"
 155         .long   0x00e3a447, 0x40a3e407, 0x1af9be5d, 0x5ab9fe1d  ?rev
 156         .long   0x0069ea83, 0xdcb5365f, 0x771e9df4, 0xabc24128  ?rev
 157 .align  5
 158 Lconsts:
 159         mflr    r0
 160         bcl     20,31,\$+4
 161         mflr    r12     #vvvvv "distance between . and _vpaes_consts
 162         addi    r12,r12,-0x308
 163         mtlr    r0
 164         blr
 165         .long   0
 166         .byte   0,12,0x14,0,0,0,0,0
 167 .asciz  "Vector Permutation AES for AltiVec, Mike Hamburg (Stanford University)"
 168 .align  6
 169 ___
 170 \f
 171 my ($inptail,$inpperm,$outhead,$outperm,$outmask,$keyperm) = map("v$_",(26..31));
 172 {
 173 my ($inp,$out,$key) = map("r$_",(3..5));
 174
 175 my ($invlo,$invhi,$iptlo,$ipthi,$sbou,$sbot) = map("v$_",(10..15));
 176 my ($sb1u,$sb1t,$sb2u,$sb2t) = map("v$_",(16..19));
 177 my ($sb9u,$sb9t,$sbdu,$sbdt,$sbbu,$sbbt,$sbeu,$sbet)=map("v$_",(16..23));
 178
 179 $code.=<<___;
 180 ##
 181 ##  _aes_preheat
 182 ##
 183 ##  Fills register %r10 -> .aes_consts (so you can -fPIC)
 184 ##  and %xmm9-%xmm15 as specified below.
 185 ##
 186 .align  4
 187 _vpaes_encrypt_preheat:
 188         mflr    r8
 189         bl      Lconsts
 190         mtlr    r8
 191         li      r11, 0xc0               # Lk_inv
 192         li      r10, 0xd0
 193         li      r9,  0xe0               # Lk_ipt
 194         li      r8,  0xf0
 195         vxor    v7, v7, v7              # 0x00..00
 196         vspltisb        v8,4            # 0x04..04
 197         vspltisb        v9,0x0f         # 0x0f..0f
 198         lvx     $invlo, r12, r11
 199         li      r11, 0x100
 200         lvx     $invhi, r12, r10
 201         li      r10, 0x110
 202         lvx     $iptlo, r12, r9
 203         li      r9,  0x120
 204         lvx     $ipthi, r12, r8
 205         li      r8,  0x130
 206         lvx     $sbou, r12, r11
 207         li      r11, 0x140
 208         lvx     $sbot, r12, r10
 209         li      r10, 0x150
 210         lvx     $sb1u, r12, r9
 211         lvx     $sb1t, r12, r8
 212         lvx     $sb2u, r12, r11
 213         lvx     $sb2t, r12, r10
 214         blr
 215         .long   0
 216         .byte   0,12,0x14,0,0,0,0,0
 217
 218 ##
 219 ##  _aes_encrypt_core
 220 ##
 221 ##  AES-encrypt %xmm0.
 222 ##
 223 ##  Inputs:
 224 ##     %xmm0 = input
 225 ##     %xmm9-%xmm15 as in _vpaes_preheat
 226 ##    (%rdx) = scheduled keys
 227 ##
 228 ##  Output in %xmm0
 229 ##  Clobbers  %xmm1-%xmm6, %r9, %r10, %r11, %rax
 230 ##
 231 ##
 232 .align 5
 233 _vpaes_encrypt_core:
 234         lwz     r8, 240($key)           # pull rounds
 235         li      r9, 16
 236         lvx     v5, 0, $key             # vmovdqu       (%r9),  %xmm5           # round0 key
 237         li      r11, 0x10
 238         lvx     v6, r9, $key
 239         addi    r9, r9, 16
 240         ?vperm  v5, v5, v6, $keyperm    # align round key
 241         addi    r10, r11, 0x40
 242         vsrb    v1, v0, v8              # vpsrlb        \$4,    %xmm0,  %xmm0
 243         vperm   v0, $iptlo, $iptlo, v0  # vpshufb       %xmm1,  %xmm2,  %xmm1
 244         vperm   v1, $ipthi, $ipthi, v1  # vpshufb       %xmm0,  %xmm3,  %xmm2
 245         vxor    v0, v0, v5              # vpxor %xmm5,  %xmm1,  %xmm0
 246         vxor    v0, v0, v1              # vpxor %xmm2,  %xmm0,  %xmm0
 247         mtctr   r8
 248         b       Lenc_entry
 249
 250 .align 4
 251 Lenc_loop:
 252         # middle of middle round
 253         vperm   v4, $sb1t, v7, v2       # vpshufb       %xmm2,  %xmm13, %xmm4   # 4 = sb1u
 254         lvx     v1, r12, r11            # vmovdqa       -0x40(%r11,%r10), %xmm1 # .Lk_mc_forward[]
 255         addi    r11, r11, 16
 256         vperm   v0, $sb1u, v7, v3       # vpshufb       %xmm3,  %xmm12, %xmm0   # 0 = sb1t
 257         vxor    v4, v4, v5              # vpxor         %xmm5,  %xmm4,  %xmm4   # 4 = sb1u + k
 258         andi.   r11, r11, 0x30          # and           \$0x30, %r11    # ... mod 4
 259         vperm   v5, $sb2t, v7, v2       # vpshufb       %xmm2,  %xmm15, %xmm5   # 4 = sb2u
 260         vxor    v0, v0, v4              # vpxor         %xmm4,  %xmm0,  %xmm0   # 0 = A
 261         vperm   v2, $sb2u, v7, v3       # vpshufb       %xmm3,  %xmm14, %xmm2   # 2 = sb2t
 262         lvx     v4, r12, r10            # vmovdqa       (%r11,%r10), %xmm4      # .Lk_mc_backward[]
 263         addi    r10, r11, 0x40
 264         vperm   v3, v0, v7, v1          # vpshufb       %xmm1,  %xmm0,  %xmm3   # 0 = B
 265         vxor    v2, v2, v5              # vpxor         %xmm5,  %xmm2,  %xmm2   # 2 = 2A
 266         vperm   v0, v0, v7, v4          # vpshufb       %xmm4,  %xmm0,  %xmm0   # 3 = D
 267         vxor    v3, v3, v2              # vpxor         %xmm2,  %xmm3,  %xmm3   # 0 = 2A+B
 268         vperm   v4, v3, v7, v1          # vpshufb       %xmm1,  %xmm3,  %xmm4   # 0 = 2B+C
 269         vxor    v0, v0, v3              # vpxor         %xmm3,  %xmm0,  %xmm0   # 3 = 2A+B+D
 270         vxor    v0, v0, v4              # vpxor         %xmm4,  %xmm0, %xmm0    # 0 = 2A+3B+C+D
 271
 272 Lenc_entry:
 273         # top of round
 274         vsrb    v1, v0, v8              # vpsrlb        \$4,    %xmm0,  %xmm0   # 1 = i
 275         vperm   v5, $invhi, $invhi, v0  # vpshufb       %xmm1,  %xmm11, %xmm5   # 2 = a/k
 276         vxor    v0, v0, v1              # vpxor         %xmm0,  %xmm1,  %xmm1   # 0 = j
 277         vperm   v3, $invlo, $invlo, v1  # vpshufb       %xmm0,  %xmm10, %xmm3   # 3 = 1/i
 278         vperm   v4, $invlo, $invlo, v0  # vpshufb       %xmm1,  %xmm10, %xmm4   # 4 = 1/j
 279         vand    v0, v0, v9
 280         vxor    v3, v3, v5              # vpxor         %xmm5,  %xmm3,  %xmm3   # 3 = iak = 1/i + a/k
 281         vxor    v4, v4, v5              # vpxor         %xmm5,  %xmm4,  %xmm4   # 4 = jak = 1/j + a/k
 282         vperm   v2, $invlo, v7, v3      # vpshufb       %xmm3,  %xmm10, %xmm2   # 2 = 1/iak
 283         vmr     v5, v6
 284         lvx     v6, r9, $key            # vmovdqu       (%r9), %xmm5
 285         vperm   v3, $invlo, v7, v4      # vpshufb       %xmm4,  %xmm10, %xmm3   # 3 = 1/jak
 286         addi    r9, r9, 16
 287         vxor    v2, v2, v0              # vpxor         %xmm1,  %xmm2,  %xmm2   # 2 = io
 288         ?vperm  v5, v5, v6, $keyperm    # align round key
 289         vxor    v3, v3, v1              # vpxor         %xmm0,  %xmm3,  %xmm3   # 3 = jo
 290         bdnz    Lenc_loop
 291
 292         # middle of last round
 293         addi    r10, r11, 0x80
 294                                         # vmovdqa       -0x60(%r10), %xmm4      # 3 : sbou      .Lk_sbo
 295                                         # vmovdqa       -0x50(%r10), %xmm0      # 0 : sbot      .Lk_sbo+16
 296         vperm   v4, $sbou, v7, v2       # vpshufb       %xmm2,  %xmm4,  %xmm4   # 4 = sbou
 297         lvx     v1, r12, r10            # vmovdqa       0x40(%r11,%r10), %xmm1  # .Lk_sr[]
 298         vperm   v0, $sbot, v7, v3       # vpshufb       %xmm3,  %xmm0,  %xmm0   # 0 = sb1t
 299         vxor    v4, v4, v5              # vpxor         %xmm5,  %xmm4,  %xmm4   # 4 = sb1u + k
 300         vxor    v0, v0, v4              # vpxor         %xmm4,  %xmm0,  %xmm0   # 0 = A
 301         vperm   v0, v0, v7, v1          # vpshufb       %xmm1,  %xmm0,  %xmm0
 302         blr
 303         .long   0
 304         .byte   0,12,0x14,0,0,0,0,0
 305
 306 .globl  .vpaes_encrypt
 307 .align  5
 308 .vpaes_encrypt:
 309         $STU    $sp,-$FRAME($sp)
 310         li      r10,`15+6*$SIZE_T`
 311         li      r11,`31+6*$SIZE_T`
 312         mflr    r6
 313         mfspr   r7, 256                 # save vrsave
 314         stvx    v20,r10,$sp
 315         addi    r10,r10,32
 316         stvx    v21,r11,$sp
 317         addi    r11,r11,32
 318         stvx    v22,r10,$sp
 319         addi    r10,r10,32
 320         stvx    v23,r11,$sp
 321         addi    r11,r11,32
 322         stvx    v24,r10,$sp
 323         addi    r10,r10,32
 324         stvx    v25,r11,$sp
 325         addi    r11,r11,32
 326         stvx    v26,r10,$sp
 327         addi    r10,r10,32
 328         stvx    v27,r11,$sp
 329         addi    r11,r11,32
 330         stvx    v28,r10,$sp
 331         addi    r10,r10,32
 332         stvx    v29,r11,$sp
 333         addi    r11,r11,32
 334         stvx    v30,r10,$sp
 335         stvx    v31,r11,$sp
 336         stw     r7,`$FRAME-4`($sp)      # save vrsave
 337         li      r0, -1
 338         $PUSH   r6,`$FRAME+$LRSAVE`($sp)
 339         mtspr   256, r0                 # preserve all AltiVec registers
 340
 341         bl      _vpaes_encrypt_preheat
 342
 343         ?lvsl   $inpperm, 0, $inp       # prepare for unaligned access
 344         lvx     v0, 0, $inp
 345         addi    $inp, $inp, 15          # 15 is not a typo
 346          ?lvsr  $outperm, 0, $out
 347         ?lvsl   $keyperm, 0, $key       # prepare for unaligned access
 348         lvx     $inptail, 0, $inp       # redundant in aligned case
 349         ?vperm  v0, v0, $inptail, $inpperm
 350
 351         bl      _vpaes_encrypt_core
 352
 353         andi.   r8, $out, 15
 354         li      r9, 16
 355         beq     Lenc_out_aligned
 356
 357         vperm   v0, v0, v0, $outperm    # rotate right/left
 358         mtctr   r9
 359 Lenc_out_unaligned:
 360         stvebx  v0, 0, $out
 361         addi    $out, $out, 1
 362         bdnz    Lenc_out_unaligned
 363         b       Lenc_done
 364
 365 .align  4
 366 Lenc_out_aligned:
 367         stvx    v0, 0, $out
 368 Lenc_done:
 369
 370         li      r10,`15+6*$SIZE_T`
 371         li      r11,`31+6*$SIZE_T`
 372         mtlr    r6
 373         mtspr   256, r7                 # restore vrsave
 374         lvx     v20,r10,$sp
 375         addi    r10,r10,32
 376         lvx     v21,r11,$sp
 377         addi    r11,r11,32
 378         lvx     v22,r10,$sp
 379         addi    r10,r10,32
 380         lvx     v23,r11,$sp
 381         addi    r11,r11,32
 382         lvx     v24,r10,$sp
 383         addi    r10,r10,32
 384         lvx     v25,r11,$sp
 385         addi    r11,r11,32
 386         lvx     v26,r10,$sp
 387         addi    r10,r10,32
 388         lvx     v27,r11,$sp
 389         addi    r11,r11,32
 390         lvx     v28,r10,$sp
 391         addi    r10,r10,32
 392         lvx     v29,r11,$sp
 393         addi    r11,r11,32
 394         lvx     v30,r10,$sp
 395         lvx     v31,r11,$sp
 396         addi    $sp,$sp,$FRAME
 397         blr
 398         .long   0
 399         .byte   0,12,0x04,1,0x80,0,3,0
 400         .long   0
 401 .size   .vpaes_encrypt,.-.vpaes_encrypt
 402
 403 .align  4
 404 _vpaes_decrypt_preheat:
 405         mflr    r8
 406         bl      Lconsts
 407         mtlr    r8
 408         li      r11, 0xc0               # Lk_inv
 409         li      r10, 0xd0
 410         li      r9,  0x160              # Ldipt
 411         li      r8,  0x170
 412         vxor    v7, v7, v7              # 0x00..00
 413         vspltisb        v8,4            # 0x04..04
 414         vspltisb        v9,0x0f         # 0x0f..0f
 415         lvx     $invlo, r12, r11
 416         li      r11, 0x180
 417         lvx     $invhi, r12, r10
 418         li      r10, 0x190
 419         lvx     $iptlo, r12, r9
 420         li      r9,  0x1a0
 421         lvx     $ipthi, r12, r8
 422         li      r8,  0x1b0
 423         lvx     $sbou, r12, r11
 424         li      r11, 0x1c0
 425         lvx     $sbot, r12, r10
 426         li      r10, 0x1d0
 427         lvx     $sb9u, r12, r9
 428         li      r9,  0x1e0
 429         lvx     $sb9t, r12, r8
 430         li      r8,  0x1f0
 431         lvx     $sbdu, r12, r11
 432         li      r11, 0x200
 433         lvx     $sbdt, r12, r10
 434         li      r10, 0x210
 435         lvx     $sbbu, r12, r9
 436         lvx     $sbbt, r12, r8
 437         lvx     $sbeu, r12, r11
 438         lvx     $sbet, r12, r10
 439         blr
 440         .long   0
 441         .byte   0,12,0x14,0,0,0,0,0
 442
 443 ##
 444 ##  Decryption core
 445 ##
 446 ##  Same API as encryption core.
 447 ##
 448 .align  4
 449 _vpaes_decrypt_core:
 450         lwz     r8, 240($key)           # pull rounds
 451         li      r9, 16
 452         lvx     v5, 0, $key             # vmovdqu       (%r9),  %xmm4           # round0 key
 453         li      r11, 0x30
 454         lvx     v6, r9, $key
 455         addi    r9, r9, 16
 456         ?vperm  v5, v5, v6, $keyperm    # align round key
 457         vsrb    v1, v0, v8              # vpsrlb        \$4,    %xmm0,  %xmm0
 458         vperm   v0, $iptlo, $iptlo, v0  # vpshufb       %xmm1,  %xmm2,  %xmm2
 459         vperm   v1, $ipthi, $ipthi, v1  # vpshufb       %xmm0,  %xmm1,  %xmm0
 460         vxor    v0, v0, v5              # vpxor %xmm4,  %xmm2,  %xmm2
 461         vxor    v0, v0, v1              # vpxor %xmm2,  %xmm0,  %xmm0
 462         mtctr   r8
 463         b       Ldec_entry
 464
 465 .align 4
 466 Ldec_loop:
 467 #
 468 #  Inverse mix columns
 469 #
 470         lvx     v0, r12, r11            # v5 and v0 are flipped
 471                                         # vmovdqa       -0x20(%r10),%xmm4               # 4 : sb9u
 472                                         # vmovdqa       -0x10(%r10),%xmm1               # 0 : sb9t
 473         vperm   v4, $sb9u, v7, v2       # vpshufb       %xmm2,  %xmm4,  %xmm4           # 4 = sb9u
 474         subi    r11, r11, 16
 475         vperm   v1, $sb9t, v7, v3       # vpshufb       %xmm3,  %xmm1,  %xmm1           # 0 = sb9t
 476         andi.   r11, r11, 0x30
 477         vxor    v5, v5, v4              # vpxor         %xmm4,  %xmm0,  %xmm0
 478                                         # vmovdqa       0x00(%r10),%xmm4                # 4 : sbdu
 479         vxor    v5, v5, v1              # vpxor         %xmm1,  %xmm0,  %xmm0           # 0 = ch
 480                                         # vmovdqa       0x10(%r10),%xmm1                # 0 : sbdt
 481
 482         vperm   v4, $sbdu, v7, v2       # vpshufb       %xmm2,  %xmm4,  %xmm4           # 4 = sbdu
 483         vperm   v5, v5, v7, v0          # vpshufb       %xmm5,  %xmm0,  %xmm0           # MC ch
 484         vperm   v1, $sbdt, v7, v3       # vpshufb       %xmm3,  %xmm1,  %xmm1           # 0 = sbdt
 485         vxor    v5, v5, v4              # vpxor         %xmm4,  %xmm0,  %xmm0           # 4 = ch
 486                                         # vmovdqa       0x20(%r10),     %xmm4           # 4 : sbbu
 487         vxor    v5, v5, v1              # vpxor         %xmm1,  %xmm0,  %xmm0           # 0 = ch
 488                                         # vmovdqa       0x30(%r10),     %xmm1           # 0 : sbbt
 489
 490         vperm   v4, $sbbu, v7, v2       # vpshufb       %xmm2,  %xmm4,  %xmm4           # 4 = sbbu
 491         vperm   v5, v5, v7, v0          # vpshufb       %xmm5,  %xmm0,  %xmm0           # MC ch
 492         vperm   v1, $sbbt, v7, v3       # vpshufb       %xmm3,  %xmm1,  %xmm1           # 0 = sbbt
 493         vxor    v5, v5, v4              # vpxor         %xmm4,  %xmm0,  %xmm0           # 4 = ch
 494                                         # vmovdqa       0x40(%r10),     %xmm4           # 4 : sbeu
 495         vxor    v5, v5, v1              # vpxor         %xmm1,  %xmm0,  %xmm0           # 0 = ch
 496                                         # vmovdqa       0x50(%r10),     %xmm1           # 0 : sbet
 497
 498         vperm   v4, $sbeu, v7, v2       # vpshufb       %xmm2,  %xmm4,  %xmm4           # 4 = sbeu
 499         vperm   v5, v5, v7, v0          # vpshufb       %xmm5,  %xmm0,  %xmm0           # MC ch
 500         vperm   v1, $sbet, v7, v3       # vpshufb       %xmm3,  %xmm1,  %xmm1           # 0 = sbet
 501         vxor    v0, v5, v4              # vpxor         %xmm4,  %xmm0,  %xmm0           # 4 = ch
 502         vxor    v0, v0, v1              # vpxor         %xmm1,  %xmm0,  %xmm0           # 0 = ch
 503
 504 Ldec_entry:
 505         # top of round
 506         vsrb    v1, v0, v8              # vpsrlb        \$4,    %xmm0,  %xmm0   # 1 = i
 507         vperm   v2, $invhi, $invhi, v0  # vpshufb       %xmm1,  %xmm11, %xmm2   # 2 = a/k
 508         vxor    v0, v0, v1              # vpxor         %xmm0,  %xmm1,  %xmm1   # 0 = j
 509         vperm   v3, $invlo, $invlo, v1  # vpshufb       %xmm0,  %xmm10, %xmm3   # 3 = 1/i
 510         vperm   v4, $invlo, $invlo, v0  # vpshufb       %xmm1,  %xmm10, %xmm4   # 4 = 1/j
 511         vand    v0, v0, v9
 512         vxor    v3, v3, v2              # vpxor         %xmm2,  %xmm3,  %xmm3   # 3 = iak = 1/i + a/k
 513         vxor    v4, v4, v2              # vpxor         %xmm2,  %xmm4,  %xmm4   # 4 = jak = 1/j + a/k
 514         vperm   v2, $invlo, v7, v3      # vpshufb       %xmm3,  %xmm10, %xmm2   # 2 = 1/iak
 515         vmr     v5, v6
 516         lvx     v6, r9, $key            # vmovdqu       (%r9),  %xmm0
 517         vperm   v3, $invlo, v7, v4      # vpshufb       %xmm4,  %xmm10, %xmm3   # 3 = 1/jak
 518         addi    r9, r9, 16
 519         vxor    v2, v2, v0              # vpxor         %xmm1,  %xmm2,  %xmm2   # 2 = io
 520         ?vperm  v5, v5, v6, $keyperm    # align round key
 521         vxor    v3, v3, v1              # vpxor         %xmm0,  %xmm3,  %xmm3   # 3 = jo
 522         bdnz    Ldec_loop
 523
 524         # middle of last round
 525         addi    r10, r11, 0x80
 526                                         # vmovdqa       0x60(%r10),     %xmm4   # 3 : sbou
 527         vperm   v4, $sbou, v7, v2       # vpshufb       %xmm2,  %xmm4,  %xmm4   # 4 = sbou
 528                                         # vmovdqa       0x70(%r10),     %xmm1   # 0 : sbot
 529         lvx     v2, r12, r10            # vmovdqa       -0x160(%r11),   %xmm2   # .Lk_sr-.Lk_dsbd=-0x160
 530         vperm   v1, $sbot, v7, v3       # vpshufb       %xmm3,  %xmm1,  %xmm1   # 0 = sb1t
 531         vxor    v4, v4, v5              # vpxor         %xmm0,  %xmm4,  %xmm4   # 4 = sb1u + k
 532         vxor    v0, v1, v4              # vpxor         %xmm4,  %xmm1,  %xmm0   # 0 = A
 533         vperm   v0, v0, v7, v2          # vpshufb       %xmm2,  %xmm0,  %xmm0
 534         blr
 535         .long   0
 536         .byte   0,12,0x14,0,0,0,0,0
 537
 538 .globl  .vpaes_decrypt
 539 .align  5
 540 .vpaes_decrypt:
 541         $STU    $sp,-$FRAME($sp)
 542         li      r10,`15+6*$SIZE_T`
 543         li      r11,`31+6*$SIZE_T`
 544         mflr    r6
 545         mfspr   r7, 256                 # save vrsave
 546         stvx    v20,r10,$sp
 547         addi    r10,r10,32
 548         stvx    v21,r11,$sp
 549         addi    r11,r11,32
 550         stvx    v22,r10,$sp
 551         addi    r10,r10,32
 552         stvx    v23,r11,$sp
 553         addi    r11,r11,32
 554         stvx    v24,r10,$sp
 555         addi    r10,r10,32
 556         stvx    v25,r11,$sp
 557         addi    r11,r11,32
 558         stvx    v26,r10,$sp
 559         addi    r10,r10,32
 560         stvx    v27,r11,$sp
 561         addi    r11,r11,32
 562         stvx    v28,r10,$sp
 563         addi    r10,r10,32
 564         stvx    v29,r11,$sp
 565         addi    r11,r11,32
 566         stvx    v30,r10,$sp
 567         stvx    v31,r11,$sp
 568         stw     r7,`$FRAME-4`($sp)      # save vrsave
 569         li      r0, -1
 570         $PUSH   r6,`$FRAME+$LRSAVE`($sp)
 571         mtspr   256, r0                 # preserve all AltiVec registers
 572
 573         bl      _vpaes_decrypt_preheat
 574
 575         ?lvsl   $inpperm, 0, $inp       # prepare for unaligned access
 576         lvx     v0, 0, $inp
 577         addi    $inp, $inp, 15          # 15 is not a typo
 578          ?lvsr  $outperm, 0, $out
 579         ?lvsl   $keyperm, 0, $key
 580         lvx     $inptail, 0, $inp       # redundant in aligned case
 581         ?vperm  v0, v0, $inptail, $inpperm
 582
 583         bl      _vpaes_decrypt_core
 584
 585         andi.   r8, $out, 15
 586         li      r9, 16
 587         beq     Ldec_out_aligned
 588
 589         vperm   v0, v0, v0, $outperm    # rotate right/left
 590         mtctr   r9
 591 Ldec_out_unaligned:
 592         stvebx  v0, 0, $out
 593         addi    $out, $out, 1
 594         bdnz    Ldec_out_unaligned
 595         b       Ldec_done
 596
 597 .align  4
 598 Ldec_out_aligned:
 599         stvx    v0, 0, $out
 600 Ldec_done:
 601
 602         li      r10,`15+6*$SIZE_T`
 603         li      r11,`31+6*$SIZE_T`
 604         mtlr    r6
 605         mtspr   256, r7                 # restore vrsave
 606         lvx     v20,r10,$sp
 607         addi    r10,r10,32
 608         lvx     v21,r11,$sp
 609         addi    r11,r11,32
 610         lvx     v22,r10,$sp
 611         addi    r10,r10,32
 612         lvx     v23,r11,$sp
 613         addi    r11,r11,32
 614         lvx     v24,r10,$sp
 615         addi    r10,r10,32
 616         lvx     v25,r11,$sp
 617         addi    r11,r11,32
 618         lvx     v26,r10,$sp
 619         addi    r10,r10,32
 620         lvx     v27,r11,$sp
 621         addi    r11,r11,32
 622         lvx     v28,r10,$sp
 623         addi    r10,r10,32
 624         lvx     v29,r11,$sp
 625         addi    r11,r11,32
 626         lvx     v30,r10,$sp
 627         lvx     v31,r11,$sp
 628         addi    $sp,$sp,$FRAME
 629         blr
 630         .long   0
 631         .byte   0,12,0x04,1,0x80,0,3,0
 632         .long   0
 633 .size   .vpaes_decrypt,.-.vpaes_decrypt
 634
 635 .globl  .vpaes_cbc_encrypt
 636 .align  5
 637 .vpaes_cbc_encrypt:
 638         ${UCMP}i r5,16
 639         bltlr-
 640
 641         $STU    $sp,-`($FRAME+2*$SIZE_T)`($sp)
 642         mflr    r0
 643         li      r10,`15+6*$SIZE_T`
 644         li      r11,`31+6*$SIZE_T`
 645         mfspr   r12, 256
 646         stvx    v20,r10,$sp
 647         addi    r10,r10,32
 648         stvx    v21,r11,$sp
 649         addi    r11,r11,32
 650         stvx    v22,r10,$sp
 651         addi    r10,r10,32
 652         stvx    v23,r11,$sp
 653         addi    r11,r11,32
 654         stvx    v24,r10,$sp
 655         addi    r10,r10,32
 656         stvx    v25,r11,$sp
 657         addi    r11,r11,32
 658         stvx    v26,r10,$sp
 659         addi    r10,r10,32
 660         stvx    v27,r11,$sp
 661         addi    r11,r11,32
 662         stvx    v28,r10,$sp
 663         addi    r10,r10,32
 664         stvx    v29,r11,$sp
 665         addi    r11,r11,32
 666         stvx    v30,r10,$sp
 667         stvx    v31,r11,$sp
 668         stw     r12,`$FRAME-4`($sp)     # save vrsave
 669         $PUSH   r30,`$FRAME+$SIZE_T*0`($sp)
 670         $PUSH   r31,`$FRAME+$SIZE_T*1`($sp)
 671         li      r9, -16
 672         $PUSH   r0, `$FRAME+$SIZE_T*2+$LRSAVE`($sp)
 673
 674         and     r30, r5, r9             # copy length&-16
 675         andi.   r9, $out, 15            # is $out aligned?
 676         mr      r5, r6                  # copy pointer to key
 677         mr      r31, r7                 # copy pointer to iv
 678         li      r6, -1
 679         mcrf    cr1, cr0                # put aside $out alignment flag
 680         mr      r7, r12                 # copy vrsave
 681         mtspr   256, r6                 # preserve all AltiVec registers
 682
 683         lvx     v24, 0, r31             # load [potentially unaligned] iv
 684         li      r9, 15
 685         ?lvsl   $inpperm, 0, r31
 686         lvx     v25, r9, r31
 687         ?vperm  v24, v24, v25, $inpperm
 688
 689         cmpwi   r8, 0                   # test direction
 690         neg     r8, $inp                # prepare for unaligned access
 691          vxor   v7, v7, v7
 692         ?lvsl   $keyperm, 0, $key
 693          ?lvsr  $outperm, 0, $out
 694         ?lvsr   $inpperm, 0, r8         # -$inp
 695          vnor   $outmask, v7, v7        # 0xff..ff
 696         lvx     $inptail, 0, $inp
 697          ?vperm $outmask, v7, $outmask, $outperm
 698         addi    $inp, $inp, 15          # 15 is not a typo
 699
 700         beq     Lcbc_decrypt
 701
 702         bl      _vpaes_encrypt_preheat
 703         li      r0, 16
 704
 705         beq     cr1, Lcbc_enc_loop      # $out is aligned
 706
 707         vmr     v0, $inptail
 708         lvx     $inptail, 0, $inp
 709         addi    $inp, $inp, 16
 710         ?vperm  v0, v0, $inptail, $inpperm
 711         vxor    v0, v0, v24             # ^= iv
 712
 713         bl      _vpaes_encrypt_core
 714
 715         andi.   r8, $out, 15
 716         vmr     v24, v0                 # put aside iv
 717         sub     r9, $out, r8
 718         vperm   $outhead, v0, v0, $outperm      # rotate right/left
 719
 720 Lcbc_enc_head:
 721         stvebx  $outhead, r8, r9
 722         cmpwi   r8, 15
 723         addi    r8, r8, 1
 724         bne     Lcbc_enc_head
 725
 726         sub.    r30, r30, r0            # len -= 16
 727         addi    $out, $out, 16
 728         beq     Lcbc_unaligned_done
 729
 730 Lcbc_enc_loop:
 731         vmr     v0, $inptail
 732         lvx     $inptail, 0, $inp
 733         addi    $inp, $inp, 16
 734         ?vperm  v0, v0, $inptail, $inpperm
 735         vxor    v0, v0, v24             # ^= iv
 736
 737         bl      _vpaes_encrypt_core
 738
 739         vmr     v24, v0                 # put aside iv
 740         sub.    r30, r30, r0            # len -= 16
 741         vperm   v0, v0, v0, $outperm    # rotate right/left
 742         vsel    v1, $outhead, v0, $outmask
 743         vmr     $outhead, v0
 744         stvx    v1, 0, $out
 745         addi    $out, $out, 16
 746         bne     Lcbc_enc_loop
 747
 748         b       Lcbc_done
 749
 750 .align  5
 751 Lcbc_decrypt:
 752         bl      _vpaes_decrypt_preheat
 753         li      r0, 16
 754
 755         beq     cr1, Lcbc_dec_loop      # $out is aligned
 756
 757         vmr     v0, $inptail
 758         lvx     $inptail, 0, $inp
 759         addi    $inp, $inp, 16
 760         ?vperm  v0, v0, $inptail, $inpperm
 761         vmr     v25, v0                 # put aside input
 762
 763         bl      _vpaes_decrypt_core
 764
 765         andi.   r8, $out, 15
 766         vxor    v0, v0, v24             # ^= iv
 767         vmr     v24, v25
 768         sub     r9, $out, r8
 769         vperm   $outhead, v0, v0, $outperm      # rotate right/left
 770
 771 Lcbc_dec_head:
 772         stvebx  $outhead, r8, r9
 773         cmpwi   r8, 15
 774         addi    r8, r8, 1
 775         bne     Lcbc_dec_head
 776
 777         sub.    r30, r30, r0            # len -= 16
 778         addi    $out, $out, 16
 779         beq     Lcbc_unaligned_done
 780
 781 Lcbc_dec_loop:
 782         vmr     v0, $inptail
 783         lvx     $inptail, 0, $inp
 784         addi    $inp, $inp, 16
 785         ?vperm  v0, v0, $inptail, $inpperm
 786         vmr     v25, v0                 # put aside input
 787
 788         bl      _vpaes_decrypt_core
 789
 790         vxor    v0, v0, v24             # ^= iv
 791         vmr     v24, v25
 792         sub.    r30, r30, r0            # len -= 16
 793         vperm   v0, v0, v0, $outperm    # rotate right/left
 794         vsel    v1, $outhead, v0, $outmask
 795         vmr     $outhead, v0
 796         stvx    v1, 0, $out
 797         addi    $out, $out, 16
 798         bne     Lcbc_dec_loop
 799
 800 Lcbc_done:
 801         beq     cr1, Lcbc_write_iv      # $out is aligned
 802
 803 Lcbc_unaligned_done:
 804         andi.   r8, $out, 15
 805         sub     $out, $out, r8
 806         li      r9, 0
 807 Lcbc_tail:
 808         stvebx  $outhead, r9, $out
 809         addi    r9, r9, 1
 810         cmpw    r9, r8
 811         bne     Lcbc_tail
 812
 813 Lcbc_write_iv:
 814         neg     r8, r31                 # write [potentially unaligned] iv
 815         li      r10, 4
 816         ?lvsl   $outperm, 0, r8
 817         li      r11, 8
 818         li      r12, 12
 819         vperm   v24, v24, v24, $outperm # rotate right/left
 820         stvewx  v24, 0, r31             # ivp is at least 32-bit aligned
 821         stvewx  v24, r10, r31
 822         stvewx  v24, r11, r31
 823         stvewx  v24, r12, r31
 824
 825         mtspr   256, r7                 # restore vrsave
 826         li      r10,`15+6*$SIZE_T`
 827         li      r11,`31+6*$SIZE_T`
 828         lvx     v20,r10,$sp
 829         addi    r10,r10,32
 830         lvx     v21,r11,$sp
 831         addi    r11,r11,32
 832         lvx     v22,r10,$sp
 833         addi    r10,r10,32
 834         lvx     v23,r11,$sp
 835         addi    r11,r11,32
 836         lvx     v24,r10,$sp
 837         addi    r10,r10,32
 838         lvx     v25,r11,$sp
 839         addi    r11,r11,32
 840         lvx     v26,r10,$sp
 841         addi    r10,r10,32
 842         lvx     v27,r11,$sp
 843         addi    r11,r11,32
 844         lvx     v28,r10,$sp
 845         addi    r10,r10,32
 846         lvx     v29,r11,$sp
 847         addi    r11,r11,32
 848         lvx     v30,r10,$sp
 849         lvx     v31,r11,$sp
 850 Lcbc_abort:
 851         $POP    r0, `$FRAME+$SIZE_T*2+$LRSAVE`($sp)
 852         $POP    r30,`$FRAME+$SIZE_T*0`($sp)
 853         $POP    r31,`$FRAME+$SIZE_T*1`($sp)
 854         mtlr    r0
 855         addi    $sp,$sp,`$FRAME+$SIZE_T*2`
 856         blr
 857         .long   0
 858         .byte   0,12,0x04,1,0x80,2,6,0
 859         .long   0
 860 .size   .vpaes_cbc_encrypt,.-.vpaes_cbc_encrypt
 861 ___
 862 }\f
 863 {
 864 my ($inp,$bits,$out)=map("r$_",(3..5));
 865 my $dir="cr1";
 866 my ($invlo,$invhi,$iptlo,$ipthi,$rcon) = map("v$_",(10..13,24));
 867
 868 $code.=<<___;
 869 ########################################################
 870 ##                                                    ##
 871 ##                  AES key schedule                  ##
 872 ##                                                    ##
 873 ########################################################
 874 .align  4
 875 _vpaes_key_preheat:
 876         mflr    r8
 877         bl      Lconsts
 878         mtlr    r8
 879         li      r11, 0xc0               # Lk_inv
 880         li      r10, 0xd0
 881         li      r9,  0xe0               # L_ipt
 882         li      r8,  0xf0
 883
 884         vspltisb        v8,4            # 0x04..04
 885         vxor    v9,v9,v9                # 0x00..00
 886         lvx     $invlo, r12, r11        # Lk_inv
 887         li      r11, 0x120
 888         lvx     $invhi, r12, r10
 889         li      r10, 0x130
 890         lvx     $iptlo, r12, r9         # Lk_ipt
 891         li      r9, 0x220
 892         lvx     $ipthi, r12, r8
 893         li      r8, 0x230
 894
 895         lvx     v14, r12, r11           # Lk_sb1
 896         li      r11, 0x240
 897         lvx     v15, r12, r10
 898         li      r10, 0x250
 899
 900         lvx     v16, r12, r9            # Lk_dksd
 901         li      r9, 0x260
 902         lvx     v17, r12, r8
 903         li      r8, 0x270
 904         lvx     v18, r12, r11           # Lk_dksb
 905         li      r11, 0x280
 906         lvx     v19, r12, r10
 907         li      r10, 0x290
 908         lvx     v20, r12, r9            # Lk_dkse
 909         li      r9, 0x2a0
 910         lvx     v21, r12, r8
 911         li      r8, 0x2b0
 912         lvx     v22, r12, r11           # Lk_dks9
 913         lvx     v23, r12, r10
 914
 915         lvx     v24, r12, r9            # Lk_rcon
 916         lvx     v25, 0, r12             # Lk_mc_forward[0]
 917         lvx     v26, r12, r8            # Lks63
 918         blr
 919         .long   0
 920         .byte   0,12,0x14,0,0,0,0,0
 921
 922 .align  4
 923 _vpaes_schedule_core:
 924         mflr    r7
 925
 926         bl      _vpaes_key_preheat      # load the tables
 927
 928         #lvx    v0, 0, $inp             # vmovdqu       (%rdi), %xmm0           # load key (unaligned)
 929         neg     r8, $inp                # prepare for unaligned access
 930         lvx     v0, 0, $inp
 931         addi    $inp, $inp, 15          # 15 is not typo
 932         ?lvsr   $inpperm, 0, r8         # -$inp
 933         lvx     v6, 0, $inp             # v6 serves as inptail
 934         addi    $inp, $inp, 8
 935         ?vperm  v0, v0, v6, $inpperm
 936
 937         # input transform
 938         vmr     v3, v0                  # vmovdqa       %xmm0,  %xmm3
 939         bl      _vpaes_schedule_transform
 940         vmr     v7, v0                  # vmovdqa       %xmm0,  %xmm7
 941
 942         bne     $dir, Lschedule_am_decrypting
 943
 944         # encrypting, output zeroth round key after transform
 945         li      r8, 0x30                # mov   \$0x30,%r8d
 946         li      r9, 4
 947         li      r10, 8
 948         li      r11, 12
 949
 950         ?lvsr   $outperm, 0, $out       # prepare for unaligned access
 951         vnor    $outmask, v9, v9        # 0xff..ff
 952         ?vperm  $outmask, v9, $outmask, $outperm
 953
 954         #stvx   v0, 0, $out             # vmovdqu       %xmm0,  (%rdx)
 955         vperm   $outhead, v0, v0, $outperm      # rotate right/left
 956         stvewx  $outhead, 0, $out       # some are superfluous
 957         stvewx  $outhead, r9, $out
 958         stvewx  $outhead, r10, $out
 959         addi    r10, r12, 0x80          # lea   .Lk_sr(%rip),%r10
 960         stvewx  $outhead, r11, $out
 961         b       Lschedule_go
 962
 963 Lschedule_am_decrypting:
 964         srwi    r8, $bits, 1            # shr   \$1,%r8d
 965         andi.   r8, r8, 32              # and   \$32,%r8d
 966         xori    r8, r8, 32              # xor   \$32,%r8d       # nbits==192?0:32
 967         addi    r10, r12, 0x80          # lea   .Lk_sr(%rip),%r10
 968         # decrypting, output zeroth round key after shiftrows
 969         lvx     v1, r8, r10             # vmovdqa       (%r8,%r10),     %xmm1
 970         li      r9, 4
 971         li      r10, 8
 972         li      r11, 12
 973         vperm   v4, v3, v3, v1          # vpshufb       %xmm1,  %xmm3,  %xmm3
 974
 975         neg     r0, $out                # prepare for unaligned access
 976         ?lvsl   $outperm, 0, r0
 977         vnor    $outmask, v9, v9        # 0xff..ff
 978         ?vperm  $outmask, $outmask, v9, $outperm
 979
 980         #stvx   v4, 0, $out             # vmovdqu       %xmm3,  (%rdx)
 981         vperm   $outhead, v4, v4, $outperm      # rotate right/left
 982         stvewx  $outhead, 0, $out       # some are superfluous
 983         stvewx  $outhead, r9, $out
 984         stvewx  $outhead, r10, $out
 985         addi    r10, r12, 0x80          # lea   .Lk_sr(%rip),%r10
 986         stvewx  $outhead, r11, $out
 987         addi    $out, $out, 15          # 15 is not typo
 988         xori    r8, r8, 0x30            # xor   \$0x30, %r8
 989
 990 Lschedule_go:
 991         cmplwi  $bits, 192              # cmp   \$192,  %esi
 992         bgt     Lschedule_256
 993         beq     Lschedule_192
 994         # 128: fall though
 995
 996 ##
 997 ##  .schedule_128
 998 ##
 999 ##  128-bit specific part of key schedule.
1000 ##
1001 ##  This schedule is really simple, because all its parts
1002 ##  are accomplished by the subroutines.
1003 ##
1004 Lschedule_128:
1005         li      r0, 10                  # mov   \$10, %esi
1006         mtctr   r0
1007
1008 Loop_schedule_128:
1009         bl      _vpaes_schedule_round
1010         bdz     Lschedule_mangle_last   # dec   %esi
1011         bl      _vpaes_schedule_mangle  # write output
1012         b       Loop_schedule_128
1013
1014 ##
1015 ##  .aes_schedule_192
1016 ##
1017 ##  192-bit specific part of key schedule.
1018 ##
1019 ##  The main body of this schedule is the same as the 128-bit
1020 ##  schedule, but with more smearing.  The long, high side is
1021 ##  stored in %xmm7 as before, and the short, low side is in
1022 ##  the high bits of %xmm6.
1023 ##
1024 ##  This schedule is somewhat nastier, however, because each
1025 ##  round produces 192 bits of key material, or 1.5 round keys.
1026 ##  Therefore, on each cycle we do 2 rounds and produce 3 round
1027 ##  keys.
1028 ##
1029 .align  4
1030 Lschedule_192:
1031         li      r0, 4                   # mov   \$4,    %esi
1032         lvx     v0, 0, $inp
1033         ?vperm  v0, v6, v0, $inpperm
1034         ?vsldoi v0, v3, v0, 8           # vmovdqu       8(%rdi),%xmm0           # load key part 2 (very unaligned)
1035         bl      _vpaes_schedule_transform       # input transform
1036         ?vsldoi v6, v0, v9, 8
1037         ?vsldoi v6, v9, v6, 8           # clobber "low" side with zeros
1038         mtctr   r0
1039
1040 Loop_schedule_192:
1041         bl      _vpaes_schedule_round
1042         ?vsldoi v0, v6, v0, 8           # vpalignr      \$8,%xmm6,%xmm0,%xmm0
1043         bl      _vpaes_schedule_mangle  # save key n
1044         bl      _vpaes_schedule_192_smear
1045         bl      _vpaes_schedule_mangle  # save key n+1
1046         bl      _vpaes_schedule_round
1047         bdz     Lschedule_mangle_last   # dec   %esi
1048         bl      _vpaes_schedule_mangle  # save key n+2
1049         bl      _vpaes_schedule_192_smear
1050         b       Loop_schedule_192
1051
1052 ##
1053 ##  .aes_schedule_256
1054 ##
1055 ##  256-bit specific part of key schedule.
1056 ##
1057 ##  The structure here is very similar to the 128-bit
1058 ##  schedule, but with an additional "low side" in
1059 ##  %xmm6.  The low side's rounds are the same as the
1060 ##  high side's, except no rcon and no rotation.
1061 ##
1062 .align  4
1063 Lschedule_256:
1064         li      r0, 7                   # mov   \$7, %esi
1065         addi    $inp, $inp, 8
1066         lvx     v0, 0, $inp             # vmovdqu       16(%rdi),%xmm0          # load key part 2 (unaligned)
1067         ?vperm  v0, v6, v0, $inpperm
1068         bl      _vpaes_schedule_transform       # input transform
1069         mtctr   r0
1070
1071 Loop_schedule_256:
1072         bl      _vpaes_schedule_mangle  # output low result
1073         vmr     v6, v0                  # vmovdqa       %xmm0,  %xmm6           # save cur_lo in xmm6
1074
1075         # high round
1076         bl      _vpaes_schedule_round
1077         bdz     Lschedule_mangle_last   # dec   %esi
1078         bl      _vpaes_schedule_mangle
1079
1080         # low round. swap xmm7 and xmm6
1081         ?vspltw v0, v0, 3               # vpshufd       \$0xFF, %xmm0,  %xmm0
1082         vmr     v5, v7                  # vmovdqa       %xmm7,  %xmm5
1083         vmr     v7, v6                  # vmovdqa       %xmm6,  %xmm7
1084         bl      _vpaes_schedule_low_round
1085         vmr     v7, v5                  # vmovdqa       %xmm5,  %xmm7
1086
1087         b       Loop_schedule_256
1088 ##
1089 ##  .aes_schedule_mangle_last
1090 ##
1091 ##  Mangler for last round of key schedule
1092 ##  Mangles %xmm0
1093 ##    when encrypting, outputs out(%xmm0) ^ 63
1094 ##    when decrypting, outputs unskew(%xmm0)
1095 ##
1096 ##  Always called right before return... jumps to cleanup and exits
1097 ##
1098 .align  4
1099 Lschedule_mangle_last:
1100         # schedule last round key from xmm0
1101         li      r11, 0x2e0              # lea   .Lk_deskew(%rip),%r11
1102         li      r9,  0x2f0
1103         bne     $dir, Lschedule_mangle_last_dec
1104
1105         # encrypting
1106         lvx     v1, r8, r10             # vmovdqa       (%r8,%r10),%xmm1
1107         li      r11, 0x2c0              # lea           .Lk_opt(%rip),  %r11    # prepare to output transform
1108         li      r9,  0x2d0              # prepare to output transform
1109         vperm   v0, v0, v0, v1          # vpshufb       %xmm1,  %xmm0,  %xmm0   # output permute
1110
1111         lvx     $iptlo, r11, r12        # reload $ipt
1112         lvx     $ipthi, r9, r12
1113         addi    $out, $out, 16          # add   \$16,   %rdx
1114         vxor    v0, v0, v26             # vpxor         .Lk_s63(%rip),  %xmm0,  %xmm0
1115         bl      _vpaes_schedule_transform       # output transform
1116
1117         #stvx   v0, r0, $out            # vmovdqu       %xmm0,  (%rdx)          # save last key
1118         vperm   v0, v0, v0, $outperm    # rotate right/left
1119         li      r10, 4
1120         vsel    v2, $outhead, v0, $outmask
1121         li      r11, 8
1122         stvx    v2, 0, $out
1123         li      r12, 12
1124         stvewx  v0, 0, $out             # some (or all) are redundant
1125         stvewx  v0, r10, $out
1126         stvewx  v0, r11, $out
1127         stvewx  v0, r12, $out
1128         b       Lschedule_mangle_done
1129
1130 .align  4
1131 Lschedule_mangle_last_dec:
1132         lvx     $iptlo, r11, r12        # reload $ipt
1133         lvx     $ipthi, r9,  r12
1134         addi    $out, $out, -16         # add   \$-16,  %rdx
1135         vxor    v0, v0, v26             # vpxor .Lk_s63(%rip),  %xmm0,  %xmm0
1136         bl      _vpaes_schedule_transform       # output transform
1137
1138         #stvx   v0, r0, $out            # vmovdqu       %xmm0,  (%rdx)          # save last key
1139         addi    r9, $out, -15           # -15 is not typo
1140         vperm   v0, v0, v0, $outperm    # rotate right/left
1141         li      r10, 4
1142         vsel    v2, $outhead, v0, $outmask
1143         li      r11, 8
1144         stvx    v2, 0, $out
1145         li      r12, 12
1146         stvewx  v0, 0, r9               # some (or all) are redundant
1147         stvewx  v0, r10, r9
1148         stvewx  v0, r11, r9
1149         stvewx  v0, r12, r9
1150
1151
1152 Lschedule_mangle_done:
1153         mtlr    r7
1154         # cleanup
1155         vxor    v0, v0, v0              # vpxor         %xmm0,  %xmm0,  %xmm0
1156         vxor    v1, v1, v1              # vpxor         %xmm1,  %xmm1,  %xmm1
1157         vxor    v2, v2, v2              # vpxor         %xmm2,  %xmm2,  %xmm2
1158         vxor    v3, v3, v3              # vpxor         %xmm3,  %xmm3,  %xmm3
1159         vxor    v4, v4, v4              # vpxor         %xmm4,  %xmm4,  %xmm4
1160         vxor    v5, v5, v5              # vpxor         %xmm5,  %xmm5,  %xmm5
1161         vxor    v6, v6, v6              # vpxor         %xmm6,  %xmm6,  %xmm6
1162         vxor    v7, v7, v7              # vpxor         %xmm7,  %xmm7,  %xmm7
1163
1164         blr
1165         .long   0
1166         .byte   0,12,0x14,0,0,0,0,0
1167
1168 ##
1169 ##  .aes_schedule_192_smear
1170 ##
1171 ##  Smear the short, low side in the 192-bit key schedule.
1172 ##
1173 ##  Inputs:
1174 ##    %xmm7: high side, b  a  x  y
1175 ##    %xmm6:  low side, d  c  0  0
1176 ##    %xmm13: 0
1177 ##
1178 ##  Outputs:
1179 ##    %xmm6: b+c+d  b+c  0  0
1180 ##    %xmm0: b+c+d  b+c  b  a
1181 ##
1182 .align  4
1183 _vpaes_schedule_192_smear:
1184         ?vspltw v0, v7, 3
1185         ?vsldoi v1, v9, v6, 12          # vpshufd       \$0x80, %xmm6,  %xmm1   # d c 0 0 -> c 0 0 0
1186         ?vsldoi v0, v7, v0, 8           # vpshufd       \$0xFE, %xmm7,  %xmm0   # b a _ _ -> b b b a
1187         vxor    v6, v6, v1              # vpxor         %xmm1,  %xmm6,  %xmm6   # -> c+d c 0 0
1188         vxor    v6, v6, v0              # vpxor         %xmm0,  %xmm6,  %xmm6   # -> b+c+d b+c b a
1189         vmr     v0, v6
1190         ?vsldoi v6, v6, v9, 8
1191         ?vsldoi v6, v9, v6, 8           # clobber low side with zeros
1192         blr
1193         .long   0
1194         .byte   0,12,0x14,0,0,0,0,0
1195
1196 ##
1197 ##  .aes_schedule_round
1198 ##
1199 ##  Runs one main round of the key schedule on %xmm0, %xmm7
1200 ##
1201 ##  Specifically, runs subbytes on the high dword of %xmm0
1202 ##  then rotates it by one byte and xors into the low dword of
1203 ##  %xmm7.
1204 ##
1205 ##  Adds rcon from low byte of %xmm8, then rotates %xmm8 for
1206 ##  next rcon.
1207 ##
1208 ##  Smears the dwords of %xmm7 by xoring the low into the
1209 ##  second low, result into third, result into highest.
1210 ##
1211 ##  Returns results in %xmm7 = %xmm0.
1212 ##  Clobbers %xmm1-%xmm4, %r11.
1213 ##
1214 .align  4
1215 _vpaes_schedule_round:
1216         # extract rcon from xmm8
1217         #vxor   v4, v4, v4              # vpxor         %xmm4,  %xmm4,  %xmm4
1218         ?vsldoi v1, $rcon, v9, 15       # vpalignr      \$15,   %xmm8,  %xmm4,  %xmm1
1219         ?vsldoi $rcon, $rcon, $rcon, 15 # vpalignr      \$15,   %xmm8,  %xmm8,  %xmm8
1220         vxor    v7, v7, v1              # vpxor         %xmm1,  %xmm7,  %xmm7
1221
1222         # rotate
1223         ?vspltw v0, v0, 3               # vpshufd       \$0xFF, %xmm0,  %xmm0
1224         ?vsldoi v0, v0, v0, 1           # vpalignr      \$1,    %xmm0,  %xmm0,  %xmm0
1225
1226         # fall through...
1227
1228         # low round: same as high round, but no rotation and no rcon.
1229 _vpaes_schedule_low_round:
1230         # smear xmm7
1231         ?vsldoi v1, v9, v7, 12          # vpslldq       \$4,    %xmm7,  %xmm1
1232         vxor    v7, v7, v1              # vpxor         %xmm1,  %xmm7,  %xmm7
1233         vspltisb        v1, 0x0f        # 0x0f..0f
1234         ?vsldoi v4, v9, v7, 8           # vpslldq       \$8,    %xmm7,  %xmm4
1235
1236         # subbytes
1237         vand    v1, v1, v0              # vpand         %xmm9,  %xmm0,  %xmm1           # 0 = k
1238         vsrb    v0, v0, v8              # vpsrlb        \$4,    %xmm0,  %xmm0           # 1 = i
1239          vxor   v7, v7, v4              # vpxor         %xmm4,  %xmm7,  %xmm7
1240         vperm   v2, $invhi, v9, v1      # vpshufb       %xmm1,  %xmm11, %xmm2           # 2 = a/k
1241         vxor    v1, v1, v0              # vpxor         %xmm0,  %xmm1,  %xmm1           # 0 = j
1242         vperm   v3, $invlo, v9, v0      # vpshufb       %xmm0,  %xmm10, %xmm3           # 3 = 1/i
1243         vxor    v3, v3, v2              # vpxor         %xmm2,  %xmm3,  %xmm3           # 3 = iak = 1/i + a/k
1244         vperm   v4, $invlo, v9, v1      # vpshufb       %xmm1,  %xmm10, %xmm4           # 4 = 1/j
1245          vxor   v7, v7, v26             # vpxor         .Lk_s63(%rip),  %xmm7,  %xmm7
1246         vperm   v3, $invlo, v9, v3      # vpshufb       %xmm3,  %xmm10, %xmm3           # 2 = 1/iak
1247         vxor    v4, v4, v2              # vpxor         %xmm2,  %xmm4,  %xmm4           # 4 = jak = 1/j + a/k
1248         vperm   v2, $invlo, v9, v4      # vpshufb       %xmm4,  %xmm10, %xmm2           # 3 = 1/jak
1249         vxor    v3, v3, v1              # vpxor         %xmm1,  %xmm3,  %xmm3           # 2 = io
1250         vxor    v2, v2, v0              # vpxor         %xmm0,  %xmm2,  %xmm2           # 3 = jo
1251         vperm   v4, v15, v9, v3         # vpshufb       %xmm3,  %xmm13, %xmm4           # 4 = sbou
1252         vperm   v1, v14, v9, v2         # vpshufb       %xmm2,  %xmm12, %xmm1           # 0 = sb1t
1253         vxor    v1, v1, v4              # vpxor         %xmm4,  %xmm1,  %xmm1           # 0 = sbox output
1254
1255         # add in smeared stuff
1256         vxor    v0, v1, v7              # vpxor         %xmm7,  %xmm1,  %xmm0
1257         vxor    v7, v1, v7              # vmovdqa       %xmm0,  %xmm7
1258         blr
1259         .long   0
1260         .byte   0,12,0x14,0,0,0,0,0
1261
1262 ##
1263 ##  .aes_schedule_transform
1264 ##
1265 ##  Linear-transform %xmm0 according to tables at (%r11)
1266 ##
1267 ##  Requires that %xmm9 = 0x0F0F... as in preheat
1268 ##  Output in %xmm0
1269 ##  Clobbers %xmm2
1270 ##
1271 .align  4
1272 _vpaes_schedule_transform:
1273         #vand   v1, v0, v9              # vpand         %xmm9,  %xmm0,  %xmm1
1274         vsrb    v2, v0, v8              # vpsrlb        \$4,    %xmm0,  %xmm0
1275                                         # vmovdqa       (%r11), %xmm2   # lo
1276         vperm   v0, $iptlo, $iptlo, v0  # vpshufb       %xmm1,  %xmm2,  %xmm2
1277                                         # vmovdqa       16(%r11),       %xmm1 # hi
1278         vperm   v2, $ipthi, $ipthi, v2  # vpshufb       %xmm0,  %xmm1,  %xmm0
1279         vxor    v0, v0, v2              # vpxor         %xmm2,  %xmm0,  %xmm0
1280         blr
1281         .long   0
1282         .byte   0,12,0x14,0,0,0,0,0
1283
1284 ##
1285 ##  .aes_schedule_mangle
1286 ##
1287 ##  Mangle xmm0 from (basis-transformed) standard version
1288 ##  to our version.
1289 ##
1290 ##  On encrypt,
1291 ##    xor with 0x63
1292 ##    multiply by circulant 0,1,1,1
1293 ##    apply shiftrows transform
1294 ##
1295 ##  On decrypt,
1296 ##    xor with 0x63
1297 ##    multiply by "inverse mixcolumns" circulant E,B,D,9
1298 ##    deskew
1299 ##    apply shiftrows transform
1300 ##
1301 ##
1302 ##  Writes out to (%rdx), and increments or decrements it
1303 ##  Keeps track of round number mod 4 in %r8
1304 ##  Preserves xmm0
1305 ##  Clobbers xmm1-xmm5
1306 ##
1307 .align  4
1308 _vpaes_schedule_mangle:
1309         #vmr    v4, v0                  # vmovdqa       %xmm0,  %xmm4   # save xmm0 for later
1310                                         # vmovdqa       .Lk_mc_forward(%rip),%xmm5
1311         bne     $dir, Lschedule_mangle_dec
1312
1313         # encrypting
1314         vxor    v4, v0, v26             # vpxor .Lk_s63(%rip),  %xmm0,  %xmm4
1315         addi    $out, $out, 16          # add   \$16,   %rdx
1316         vperm   v4, v4, v4, v25         # vpshufb       %xmm5,  %xmm4,  %xmm4
1317         vperm   v1, v4, v4, v25         # vpshufb       %xmm5,  %xmm4,  %xmm1
1318         vperm   v3, v1, v1, v25         # vpshufb       %xmm5,  %xmm1,  %xmm3
1319         vxor    v4, v4, v1              # vpxor         %xmm1,  %xmm4,  %xmm4
1320         lvx     v1, r8, r10             # vmovdqa       (%r8,%r10),     %xmm1
1321         vxor    v3, v3, v4              # vpxor         %xmm4,  %xmm3,  %xmm3
1322
1323         vperm   v3, v3, v3, v1          # vpshufb       %xmm1,  %xmm3,  %xmm3
1324         addi    r8, r8, -16             # add   \$-16,  %r8
1325         andi.   r8, r8, 0x30            # and   \$0x30, %r8
1326
1327         #stvx   v3, 0, $out             # vmovdqu       %xmm3,  (%rdx)
1328         vperm   v1, v3, v3, $outperm    # rotate right/left
1329         vsel    v2, $outhead, v1, $outmask
1330         vmr     $outhead, v1
1331         stvx    v2, 0, $out
1332         blr
1333
1334 .align  4
1335 Lschedule_mangle_dec:
1336         # inverse mix columns
1337                                         # lea   .Lk_dksd(%rip),%r11
1338         vsrb    v1, v0, v8              # vpsrlb        \$4,    %xmm4,  %xmm1   # 1 = hi
1339         #and    v4, v0, v9              # vpand         %xmm9,  %xmm4,  %xmm4   # 4 = lo
1340
1341                                         # vmovdqa       0x00(%r11),     %xmm2
1342         vperm   v2, v16, v16, v0        # vpshufb       %xmm4,  %xmm2,  %xmm2
1343                                         # vmovdqa       0x10(%r11),     %xmm3
1344         vperm   v3, v17, v17, v1        # vpshufb       %xmm1,  %xmm3,  %xmm3
1345         vxor    v3, v3, v2              # vpxor         %xmm2,  %xmm3,  %xmm3
1346         vperm   v3, v3, v9, v25         # vpshufb       %xmm5,  %xmm3,  %xmm3
1347
1348                                         # vmovdqa       0x20(%r11),     %xmm2
1349         vperm   v2, v18, v18, v0        # vpshufb       %xmm4,  %xmm2,  %xmm2
1350         vxor    v2, v2, v3              # vpxor         %xmm3,  %xmm2,  %xmm2
1351                                         # vmovdqa       0x30(%r11),     %xmm3
1352         vperm   v3, v19, v19, v1        # vpshufb       %xmm1,  %xmm3,  %xmm3
1353         vxor    v3, v3, v2              # vpxor         %xmm2,  %xmm3,  %xmm3
1354         vperm   v3, v3, v9, v25         # vpshufb       %xmm5,  %xmm3,  %xmm3
1355
1356                                         # vmovdqa       0x40(%r11),     %xmm2
1357         vperm   v2, v20, v20, v0        # vpshufb       %xmm4,  %xmm2,  %xmm2
1358         vxor    v2, v2, v3              # vpxor         %xmm3,  %xmm2,  %xmm2
1359                                         # vmovdqa       0x50(%r11),     %xmm3
1360         vperm   v3, v21, v21, v1        # vpshufb       %xmm1,  %xmm3,  %xmm3
1361         vxor    v3, v3, v2              # vpxor         %xmm2,  %xmm3,  %xmm3
1362
1363                                         # vmovdqa       0x60(%r11),     %xmm2
1364         vperm   v2, v22, v22, v0        # vpshufb       %xmm4,  %xmm2,  %xmm2
1365         vperm   v3, v3, v9, v25         # vpshufb       %xmm5,  %xmm3,  %xmm3
1366                                         # vmovdqa       0x70(%r11),     %xmm4
1367         vperm   v4, v23, v23, v1        # vpshufb       %xmm1,  %xmm4,  %xmm4
1368         lvx     v1, r8, r10             # vmovdqa       (%r8,%r10),     %xmm1
1369         vxor    v2, v2, v3              # vpxor         %xmm3,  %xmm2,  %xmm2
1370         vxor    v3, v4, v2              # vpxor         %xmm2,  %xmm4,  %xmm3
1371
1372         addi    $out, $out, -16         # add   \$-16,  %rdx
1373
1374         vperm   v3, v3, v3, v1          # vpshufb       %xmm1,  %xmm3,  %xmm3
1375         addi    r8, r8, -16             # add   \$-16,  %r8
1376         andi.   r8, r8, 0x30            # and   \$0x30, %r8
1377
1378         #stvx   v3, 0, $out             # vmovdqu       %xmm3,  (%rdx)
1379         vperm   v1, v3, v3, $outperm    # rotate right/left
1380         vsel    v2, $outhead, v1, $outmask
1381         vmr     $outhead, v1
1382         stvx    v2, 0, $out
1383         blr
1384         .long   0
1385         .byte   0,12,0x14,0,0,0,0,0
1386
1387 .globl  .vpaes_set_encrypt_key
1388 .align  5
1389 .vpaes_set_encrypt_key:
1390         $STU    $sp,-$FRAME($sp)
1391         li      r10,`15+6*$SIZE_T`
1392         li      r11,`31+6*$SIZE_T`
1393         mflr    r0
1394         mfspr   r6, 256                 # save vrsave
1395         stvx    v20,r10,$sp
1396         addi    r10,r10,32
1397         stvx    v21,r11,$sp
1398         addi    r11,r11,32
1399         stvx    v22,r10,$sp
1400         addi    r10,r10,32
1401         stvx    v23,r11,$sp
1402         addi    r11,r11,32
1403         stvx    v24,r10,$sp
1404         addi    r10,r10,32
1405         stvx    v25,r11,$sp
1406         addi    r11,r11,32
1407         stvx    v26,r10,$sp
1408         addi    r10,r10,32
1409         stvx    v27,r11,$sp
1410         addi    r11,r11,32
1411         stvx    v28,r10,$sp
1412         addi    r10,r10,32
1413         stvx    v29,r11,$sp
1414         addi    r11,r11,32
1415         stvx    v30,r10,$sp
1416         stvx    v31,r11,$sp
1417         stw     r6,`$FRAME-4`($sp)      # save vrsave
1418         li      r7, -1
1419         $PUSH   r0, `$FRAME+$LRSAVE`($sp)
1420         mtspr   256, r7                 # preserve all AltiVec registers
1421
1422         srwi    r9, $bits, 5            # shr   \$5,%eax
1423         addi    r9, r9, 6               # add   \$5,%eax
1424         stw     r9, 240($out)           # mov   %eax,240(%rdx)  # AES_KEY->rounds = nbits/32+5;
1425
1426         cmplw   $dir, $bits, $bits      # set encrypt direction
1427         li      r8, 0x30                # mov   \$0x30,%r8d
1428         bl      _vpaes_schedule_core
1429
1430         $POP    r0, `$FRAME+$LRSAVE`($sp)
1431         li      r10,`15+6*$SIZE_T`
1432         li      r11,`31+6*$SIZE_T`
1433         mtspr   256, r6                 # restore vrsave
1434         mtlr    r0
1435         xor     r3, r3, r3
1436         lvx     v20,r10,$sp
1437         addi    r10,r10,32
1438         lvx     v21,r11,$sp
1439         addi    r11,r11,32
1440         lvx     v22,r10,$sp
1441         addi    r10,r10,32
1442         lvx     v23,r11,$sp
1443         addi    r11,r11,32
1444         lvx     v24,r10,$sp
1445         addi    r10,r10,32
1446         lvx     v25,r11,$sp
1447         addi    r11,r11,32
1448         lvx     v26,r10,$sp
1449         addi    r10,r10,32
1450         lvx     v27,r11,$sp
1451         addi    r11,r11,32
1452         lvx     v28,r10,$sp
1453         addi    r10,r10,32
1454         lvx     v29,r11,$sp
1455         addi    r11,r11,32
1456         lvx     v30,r10,$sp
1457         lvx     v31,r11,$sp
1458         addi    $sp,$sp,$FRAME
1459         blr
1460         .long   0
1461         .byte   0,12,0x04,1,0x80,0,3,0
1462         .long   0
1463 .size   .vpaes_set_encrypt_key,.-.vpaes_set_encrypt_key
1464
1465 .globl  .vpaes_set_decrypt_key
1466 .align  4
1467 .vpaes_set_decrypt_key:
1468         $STU    $sp,-$FRAME($sp)
1469         li      r10,`15+6*$SIZE_T`
1470         li      r11,`31+6*$SIZE_T`
1471         mflr    r0
1472         mfspr   r6, 256                 # save vrsave
1473         stvx    v20,r10,$sp
1474         addi    r10,r10,32
1475         stvx    v21,r11,$sp
1476         addi    r11,r11,32
1477         stvx    v22,r10,$sp
1478         addi    r10,r10,32
1479         stvx    v23,r11,$sp
1480         addi    r11,r11,32
1481         stvx    v24,r10,$sp
1482         addi    r10,r10,32
1483         stvx    v25,r11,$sp
1484         addi    r11,r11,32
1485         stvx    v26,r10,$sp
1486         addi    r10,r10,32
1487         stvx    v27,r11,$sp
1488         addi    r11,r11,32
1489         stvx    v28,r10,$sp
1490         addi    r10,r10,32
1491         stvx    v29,r11,$sp
1492         addi    r11,r11,32
1493         stvx    v30,r10,$sp
1494         stvx    v31,r11,$sp
1495         stw     r6,`$FRAME-4`($sp)      # save vrsave
1496         li      r7, -1
1497         $PUSH   r0, `$FRAME+$LRSAVE`($sp)
1498         mtspr   256, r7                 # preserve all AltiVec registers
1499
1500         srwi    r9, $bits, 5            # shr   \$5,%eax
1501         addi    r9, r9, 6               # add   \$5,%eax
1502         stw     r9, 240($out)           # mov   %eax,240(%rdx)  # AES_KEY->rounds = nbits/32+5;
1503
1504         slwi    r9, r9, 4               # shl   \$4,%eax
1505         add     $out, $out, r9          # lea   (%rdx,%rax),%rdx
1506
1507         cmplwi  $dir, $bits, 0          # set decrypt direction
1508         srwi    r8, $bits, 1            # shr   \$1,%r8d
1509         andi.   r8, r8, 32              # and   \$32,%r8d
1510         xori    r8, r8, 32              # xor   \$32,%r8d       # nbits==192?0:32
1511         bl      _vpaes_schedule_core
1512
1513         $POP    r0,  `$FRAME+$LRSAVE`($sp)
1514         li      r10,`15+6*$SIZE_T`
1515         li      r11,`31+6*$SIZE_T`
1516         mtspr   256, r6                 # restore vrsave
1517         mtlr    r0
1518         xor     r3, r3, r3
1519         lvx     v20,r10,$sp
1520         addi    r10,r10,32
1521         lvx     v21,r11,$sp
1522         addi    r11,r11,32
1523         lvx     v22,r10,$sp
1524         addi    r10,r10,32
1525         lvx     v23,r11,$sp
1526         addi    r11,r11,32
1527         lvx     v24,r10,$sp
1528         addi    r10,r10,32
1529         lvx     v25,r11,$sp
1530         addi    r11,r11,32
1531         lvx     v26,r10,$sp
1532         addi    r10,r10,32
1533         lvx     v27,r11,$sp
1534         addi    r11,r11,32
1535         lvx     v28,r10,$sp
1536         addi    r10,r10,32
1537         lvx     v29,r11,$sp
1538         addi    r11,r11,32
1539         lvx     v30,r10,$sp
1540         lvx     v31,r11,$sp
1541         addi    $sp,$sp,$FRAME
1542         blr
1543         .long   0
1544         .byte   0,12,0x04,1,0x80,0,3,0
1545         .long   0
1546 .size   .vpaes_set_decrypt_key,.-.vpaes_set_decrypt_key
1547 ___
1548 }
1549
1550 my $consts=1;
1551 foreach  (split("\n",$code)) {
1552         s/\`([^\`]*)\`/eval $1/geo;
1553
1554         # constants table endian-specific conversion
1555         if ($consts && m/\.long\s+(.+)\s+(\?[a-z]*)$/o) {
1556             my $conv=$2;
1557             my @bytes=();
1558
1559             # convert to endian-agnostic format
1560             foreach (split(/,\s+/,$1)) {
1561                 my $l = /^0/?oct:int;
1562                 push @bytes,($l>>24)&0xff,($l>>16)&0xff,($l>>8)&0xff,$l&0xff;
1563             }
1564
1565             # little-endian conversion
1566             if ($flavour =~ /le$/o) {
1567                 SWITCH: for($conv)  {
1568                     /\?inv/ && do   { @bytes=map($_^0xf,@bytes); last; };
1569                     /\?rev/ && do   { @bytes=reverse(@bytes);    last; };
1570                 }
1571             }
1572
1573             #emit
1574             print ".byte\t",join(',',map (sprintf("0x%02x",$_),@bytes)),"\n";
1575             next;
1576         }
1577         $consts=0 if (m/Lconsts:/o);    # end of table
1578
1579         # instructions prefixed with '?' are endian-specific and need
1580         # to be adjusted accordingly...
1581         if ($flavour =~ /le$/o) {       # little-endian
1582             s/\?lvsr/lvsl/o or
1583             s/\?lvsl/lvsr/o or
1584             s/\?(vperm\s+v[0-9]+,\s*)(v[0-9]+,\s*)(v[0-9]+,\s*)(v[0-9]+)/$1$3$2$4/o or
1585             s/\?(vsldoi\s+v[0-9]+,\s*)(v[0-9]+,)\s*(v[0-9]+,\s*)([0-9]+)/$1$3$2 16-$4/o or
1586             s/\?(vspltw\s+v[0-9]+,\s*)(v[0-9]+,)\s*([0-9])/$1$2 3-$3/o;
1587         } else {                        # big-endian
1588             s/\?([a-z]+)/$1/o;
1589         }
1590
1591         print $_,"\n";
1592 }
1593
1594 close STDOUT;