x86[_64] assembly pack: add optimized AES-NI OCB subroutines.
[openssl.git] / crypto / modes / ocb128.c
1 /* ====================================================================
2  * Copyright (c) 2014 The OpenSSL Project.  All rights reserved.
3  *
4  * Redistribution and use in source and binary forms, with or without
5  * modification, are permitted provided that the following conditions
6  * are met:
7  *
8  * 1. Redistributions of source code must retain the above copyright
9  *    notice, this list of conditions and the following disclaimer.
10  *
11  * 2. Redistributions in binary form must reproduce the above copyright
12  *    notice, this list of conditions and the following disclaimer in
13  *    the documentation and/or other materials provided with the
14  *    distribution.
15  *
16  * 3. All advertising materials mentioning features or use of this
17  *    software must display the following acknowledgment:
18  *    "This product includes software developed by the OpenSSL Project
19  *    for use in the OpenSSL Toolkit. (http://www.openssl.org/)"
20  *
21  * 4. The names "OpenSSL Toolkit" and "OpenSSL Project" must not be used to
22  *    endorse or promote products derived from this software without
23  *    prior written permission. For written permission, please contact
24  *    openssl-core@openssl.org.
25  *
26  * 5. Products derived from this software may not be called "OpenSSL"
27  *    nor may "OpenSSL" appear in their names without prior written
28  *    permission of the OpenSSL Project.
29  *
30  * 6. Redistributions of any form whatsoever must retain the following
31  *    acknowledgment:
32  *    "This product includes software developed by the OpenSSL Project
33  *    for use in the OpenSSL Toolkit (http://www.openssl.org/)"
34  *
35  * THIS SOFTWARE IS PROVIDED BY THE OpenSSL PROJECT ``AS IS'' AND ANY
36  * EXPRESSED OR IMPLIED WARRANTIES, INCLUDING, BUT NOT LIMITED TO, THE
37  * IMPLIED WARRANTIES OF MERCHANTABILITY AND FITNESS FOR A PARTICULAR
38  * PURPOSE ARE DISCLAIMED.  IN NO EVENT SHALL THE OpenSSL PROJECT OR
39  * ITS CONTRIBUTORS BE LIABLE FOR ANY DIRECT, INDIRECT, INCIDENTAL,
40  * SPECIAL, EXEMPLARY, OR CONSEQUENTIAL DAMAGES (INCLUDING, BUT
41  * NOT LIMITED TO, PROCUREMENT OF SUBSTITUTE GOODS OR SERVICES;
42  * LOSS OF USE, DATA, OR PROFITS; OR BUSINESS INTERRUPTION)
43  * HOWEVER CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT,
44  * STRICT LIABILITY, OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE)
45  * ARISING IN ANY WAY OUT OF THE USE OF THIS SOFTWARE, EVEN IF ADVISED
46  * OF THE POSSIBILITY OF SUCH DAMAGE.
47  * ====================================================================
48  */
49
50 #include <string.h>
51 #include <openssl/crypto.h>
52 #include "modes_lcl.h"
53
54 #ifndef OPENSSL_NO_OCB
55
56 /*
57  * Calculate the number of binary trailing zero's in any given number
58  */
59 static u32 ocb_ntz(u64 n)
60 {
61     u32 cnt = 0;
62
63     /*
64      * We do a right-to-left simple sequential search. This is surprisingly
65      * efficient as the distribution of trailing zeros is not uniform,
66      * e.g. the number of possible inputs with no trailing zeros is equal to
67      * the number with 1 or more; the number with exactly 1 is equal to the
68      * number with 2 or more, etc. Checking the last two bits covers 75% of
69      * all numbers. Checking the last three covers 87.5%
70      */
71     while (!(n & 1)) {
72         n >>= 1;
73         cnt++;
74     }
75     return cnt;
76 }
77
78 /*
79  * Shift a block of 16 bytes left by shift bits
80  */
81 static void ocb_block_lshift(const unsigned char *in, size_t shift,
82                              unsigned char *out)
83 {
84     unsigned char shift_mask;
85     int i;
86     unsigned char mask[15];
87
88     shift_mask = 0xff;
89     shift_mask <<= (8 - shift);
90     for (i = 15; i >= 0; i--) {
91         if (i > 0) {
92             mask[i - 1] = in[i] & shift_mask;
93             mask[i - 1] >>= 8 - shift;
94         }
95         out[i] = in[i] << shift;
96
97         if (i != 15) {
98             out[i] ^= mask[i];
99         }
100     }
101 }
102
103 /*
104  * Perform a "double" operation as per OCB spec
105  */
106 static void ocb_double(OCB_BLOCK *in, OCB_BLOCK *out)
107 {
108     unsigned char mask;
109
110     /*
111      * Calculate the mask based on the most significant bit. There are more
112      * efficient ways to do this - but this way is constant time
113      */
114     mask = in->c[0] & 0x80;
115     mask >>= 7;
116     mask *= 135;
117
118     ocb_block_lshift(in->c, 1, out->c);
119
120     out->c[15] ^= mask;
121 }
122
123 /*
124  * Perform an xor on in1 and in2 - each of len bytes. Store result in out
125  */
126 static void ocb_block_xor(const unsigned char *in1,
127                           const unsigned char *in2, size_t len,
128                           unsigned char *out)
129 {
130     size_t i;
131     for (i = 0; i < len; i++) {
132         out[i] = in1[i] ^ in2[i];
133     }
134 }
135
136 /*
137  * Lookup L_index in our lookup table. If we haven't already got it we need to
138  * calculate it
139  */
140 static OCB_BLOCK *ocb_lookup_l(OCB128_CONTEXT *ctx, size_t idx)
141 {
142     size_t l_index = ctx->l_index;
143
144     if (idx <= l_index) {
145         return ctx->l + idx;
146     }
147
148     /* We don't have it - so calculate it */
149     if (idx >= ctx->max_l_index) {
150         /*
151          * Each additional entry allows to process almost double as
152          * much data, so that in linear world the table will need to
153          * be expanded with smaller and smaller increments. Originally
154          * it was doubling in size, which was a waste. Growing it
155          * linearly is not formally optimal, but is simpler to implement.
156          * We grow table by minimally required 4*n that would accommodate
157          * the index.
158          */
159         ctx->max_l_index += (idx - ctx->max_l_index + 4) & ~3;
160         ctx->l =
161             OPENSSL_realloc(ctx->l, ctx->max_l_index * sizeof(OCB_BLOCK));
162         if (ctx->l == NULL)
163             return NULL;
164     }
165     while (l_index < idx) {
166         ocb_double(ctx->l + l_index, ctx->l + l_index + 1);
167         l_index++;
168     }
169     ctx->l_index = l_index;
170
171     return ctx->l + idx;
172 }
173
174 /*
175  * Create a new OCB128_CONTEXT
176  */
177 OCB128_CONTEXT *CRYPTO_ocb128_new(void *keyenc, void *keydec,
178                                   block128_f encrypt, block128_f decrypt,
179                                   ocb128_f stream)
180 {
181     OCB128_CONTEXT *octx;
182     int ret;
183
184     if ((octx = OPENSSL_malloc(sizeof(*octx))) != NULL) {
185         ret = CRYPTO_ocb128_init(octx, keyenc, keydec, encrypt, decrypt,
186                                  stream);
187         if (ret)
188             return octx;
189         OPENSSL_free(octx);
190     }
191
192     return NULL;
193 }
194
195 /*
196  * Initialise an existing OCB128_CONTEXT
197  */
198 int CRYPTO_ocb128_init(OCB128_CONTEXT *ctx, void *keyenc, void *keydec,
199                        block128_f encrypt, block128_f decrypt,
200                        ocb128_f stream)
201 {
202     memset(ctx, 0, sizeof(*ctx));
203     ctx->l_index = 0;
204     ctx->max_l_index = 5;
205     ctx->l = OPENSSL_malloc(ctx->max_l_index * 16);
206     if (ctx->l == NULL)
207         return 0;
208
209     /*
210      * We set both the encryption and decryption key schedules - decryption
211      * needs both. Don't really need decryption schedule if only doing
212      * encryption - but it simplifies things to take it anyway
213      */
214     ctx->encrypt = encrypt;
215     ctx->decrypt = decrypt;
216     ctx->stream = stream;
217     ctx->keyenc = keyenc;
218     ctx->keydec = keydec;
219
220     /* L_* = ENCIPHER(K, zeros(128)) */
221     ctx->encrypt(ctx->l_star.c, ctx->l_star.c, ctx->keyenc);
222
223     /* L_$ = double(L_*) */
224     ocb_double(&ctx->l_star, &ctx->l_dollar);
225
226     /* L_0 = double(L_$) */
227     ocb_double(&ctx->l_dollar, ctx->l);
228
229     /* L_{i} = double(L_{i-1}) */
230     ocb_double(ctx->l, ctx->l+1);
231     ocb_double(ctx->l+1, ctx->l+2);
232     ocb_double(ctx->l+2, ctx->l+3);
233     ocb_double(ctx->l+3, ctx->l+4);
234     ctx->l_index = 4;   /* enough to process up to 496 bytes */
235
236     return 1;
237 }
238
239 /*
240  * Copy an OCB128_CONTEXT object
241  */
242 int CRYPTO_ocb128_copy_ctx(OCB128_CONTEXT *dest, OCB128_CONTEXT *src,
243                            void *keyenc, void *keydec)
244 {
245     memcpy(dest, src, sizeof(OCB128_CONTEXT));
246     if (keyenc)
247         dest->keyenc = keyenc;
248     if (keydec)
249         dest->keydec = keydec;
250     if (src->l) {
251         dest->l = OPENSSL_malloc(src->max_l_index * 16);
252         if (dest->l == NULL)
253             return 0;
254         memcpy(dest->l, src->l, (src->l_index + 1) * 16);
255     }
256     return 1;
257 }
258
259 /*
260  * Set the IV to be used for this operation. Must be 1 - 15 bytes.
261  */
262 int CRYPTO_ocb128_setiv(OCB128_CONTEXT *ctx, const unsigned char *iv,
263                         size_t len, size_t taglen)
264 {
265     unsigned char ktop[16], tmp[16], mask;
266     unsigned char stretch[24], nonce[16];
267     size_t bottom, shift;
268
269     /*
270      * Spec says IV is 120 bits or fewer - it allows non byte aligned lengths.
271      * We don't support  this at this stage
272      */
273     if ((len > 15) || (len < 1) || (taglen > 16) || (taglen < 1)) {
274         return -1;
275     }
276
277     /* Nonce = num2str(TAGLEN mod 128,7) || zeros(120-bitlen(N)) || 1 || N */
278     nonce[0] = ((taglen * 8) % 128) << 1;
279     memset(nonce + 1, 0, 15);
280     memcpy(nonce + 16 - len, iv, len);
281     nonce[15 - len] |= 1;
282
283     /* Ktop = ENCIPHER(K, Nonce[1..122] || zeros(6)) */
284     memcpy(tmp, nonce, 16);
285     tmp[15] &= 0xc0;
286     ctx->encrypt(tmp, ktop, ctx->keyenc);
287
288     /* Stretch = Ktop || (Ktop[1..64] xor Ktop[9..72]) */
289     memcpy(stretch, ktop, 16);
290     ocb_block_xor(ktop, ktop + 1, 8, stretch + 16);
291
292     /* bottom = str2num(Nonce[123..128]) */
293     bottom = nonce[15] & 0x3f;
294
295     /* Offset_0 = Stretch[1+bottom..128+bottom] */
296     shift = bottom % 8;
297     ocb_block_lshift(stretch + (bottom / 8), shift, ctx->offset.c);
298     mask = 0xff;
299     mask <<= 8 - shift;
300     ctx->offset.c[15] |=
301         (*(stretch + (bottom / 8) + 16) & mask) >> (8 - shift);
302
303     return 1;
304 }
305
306 /*
307  * Provide any AAD. This can be called multiple times. Only the final time can
308  * have a partial block
309  */
310 int CRYPTO_ocb128_aad(OCB128_CONTEXT *ctx, const unsigned char *aad,
311                       size_t len)
312 {
313     u64 i, all_num_blocks;
314     size_t num_blocks, last_len;
315     OCB_BLOCK tmp1;
316     OCB_BLOCK tmp2;
317
318     /* Calculate the number of blocks of AAD provided now, and so far */
319     num_blocks = len / 16;
320     all_num_blocks = num_blocks + ctx->blocks_hashed;
321
322     /* Loop through all full blocks of AAD */
323     for (i = ctx->blocks_hashed + 1; i <= all_num_blocks; i++) {
324         OCB_BLOCK *lookup;
325         OCB_BLOCK *aad_block;
326
327         /* Offset_i = Offset_{i-1} xor L_{ntz(i)} */
328         lookup = ocb_lookup_l(ctx, ocb_ntz(i));
329         if (lookup == NULL)
330             return 0;
331         ocb_block16_xor(&ctx->offset_aad, lookup, &ctx->offset_aad);
332
333         /* Sum_i = Sum_{i-1} xor ENCIPHER(K, A_i xor Offset_i) */
334         aad_block = (OCB_BLOCK *)(aad + ((i - ctx->blocks_hashed - 1) * 16));
335         ocb_block16_xor(&ctx->offset_aad, aad_block, &tmp1);
336         ctx->encrypt(tmp1.c, tmp2.c, ctx->keyenc);
337         ocb_block16_xor(&ctx->sum, &tmp2, &ctx->sum);
338     }
339
340     /*
341      * Check if we have any partial blocks left over. This is only valid in the
342      * last call to this function
343      */
344     last_len = len % 16;
345
346     if (last_len > 0) {
347         /* Offset_* = Offset_m xor L_* */
348         ocb_block16_xor(&ctx->offset_aad, &ctx->l_star, &ctx->offset_aad);
349
350         /* CipherInput = (A_* || 1 || zeros(127-bitlen(A_*))) xor Offset_* */
351         memset(&tmp1, 0, 16);
352         memcpy(&tmp1, aad + (num_blocks * 16), last_len);
353         ((unsigned char *)&tmp1)[last_len] = 0x80;
354         ocb_block16_xor(&ctx->offset_aad, &tmp1, &tmp2);
355
356         /* Sum = Sum_m xor ENCIPHER(K, CipherInput) */
357         ctx->encrypt(tmp2.c, tmp1.c, ctx->keyenc);
358         ocb_block16_xor(&ctx->sum, &tmp1, &ctx->sum);
359     }
360
361     ctx->blocks_hashed = all_num_blocks;
362
363     return 1;
364 }
365
366 /*
367  * Provide any data to be encrypted. This can be called multiple times. Only
368  * the final time can have a partial block
369  */
370 int CRYPTO_ocb128_encrypt(OCB128_CONTEXT *ctx,
371                           const unsigned char *in, unsigned char *out,
372                           size_t len)
373 {
374     u64 i, all_num_blocks;
375     size_t num_blocks, last_len;
376     OCB_BLOCK tmp1;
377     OCB_BLOCK tmp2;
378     OCB_BLOCK pad;
379
380     /*
381      * Calculate the number of blocks of data to be encrypted provided now, and
382      * so far
383      */
384     num_blocks = len / 16;
385     all_num_blocks = num_blocks + ctx->blocks_processed;
386
387     if (num_blocks && all_num_blocks == (size_t)all_num_blocks
388         && ctx->stream != NULL) {
389         size_t max_idx = 0, top = (size_t)all_num_blocks;
390
391         /*
392          * See how many L_{i} entries we need to process data at hand
393          * and pre-compute missing entries in the table [if any]...
394          */
395         while (top >>= 1)
396             max_idx++;
397         if (ocb_lookup_l(ctx, max_idx) == NULL)
398             return 0;
399
400         ctx->stream(in, out, num_blocks, ctx->keyenc,
401                     (size_t)ctx->blocks_processed + 1, ctx->offset.c,
402                     (const unsigned char (*)[16])ctx->l, ctx->checksum.c);
403     } else {
404         /* Loop through all full blocks to be encrypted */
405         for (i = ctx->blocks_processed + 1; i <= all_num_blocks; i++) {
406             OCB_BLOCK *lookup;
407             OCB_BLOCK *inblock;
408             OCB_BLOCK *outblock;
409
410             /* Offset_i = Offset_{i-1} xor L_{ntz(i)} */
411             lookup = ocb_lookup_l(ctx, ocb_ntz(i));
412             if (lookup == NULL)
413                 return 0;
414             ocb_block16_xor(&ctx->offset, lookup, &ctx->offset);
415
416             /* C_i = Offset_i xor ENCIPHER(K, P_i xor Offset_i) */
417             inblock =
418                 (OCB_BLOCK *)(in + ((i - ctx->blocks_processed - 1) * 16));
419             ocb_block16_xor_misaligned(&ctx->offset, inblock, &tmp1);
420             /* Checksum_i = Checksum_{i-1} xor P_i */
421             ocb_block16_xor_misaligned(&ctx->checksum, inblock, &ctx->checksum);
422             ctx->encrypt(tmp1.c, tmp2.c, ctx->keyenc);
423             outblock =
424                 (OCB_BLOCK *)(out + ((i - ctx->blocks_processed - 1) * 16));
425             ocb_block16_xor_misaligned(&ctx->offset, &tmp2, outblock);
426         }
427     }
428
429     /*
430      * Check if we have any partial blocks left over. This is only valid in the
431      * last call to this function
432      */
433     last_len = len % 16;
434
435     if (last_len > 0) {
436         /* Offset_* = Offset_m xor L_* */
437         ocb_block16_xor(&ctx->offset, &ctx->l_star, &ctx->offset);
438
439         /* Pad = ENCIPHER(K, Offset_*) */
440         ctx->encrypt(ctx->offset.c, pad.c, ctx->keyenc);
441
442         /* C_* = P_* xor Pad[1..bitlen(P_*)] */
443         ocb_block_xor(in + (len / 16) * 16, (unsigned char *)&pad, last_len,
444                       out + (num_blocks * 16));
445
446         /* Checksum_* = Checksum_m xor (P_* || 1 || zeros(127-bitlen(P_*))) */
447         memset(&tmp1, 0, 16);
448         memcpy(&tmp1, in + (len / 16) * 16, last_len);
449         ((unsigned char *)(&tmp1))[last_len] = 0x80;
450         ocb_block16_xor(&ctx->checksum, &tmp1, &ctx->checksum);
451     }
452
453     ctx->blocks_processed = all_num_blocks;
454
455     return 1;
456 }
457
458 /*
459  * Provide any data to be decrypted. This can be called multiple times. Only
460  * the final time can have a partial block
461  */
462 int CRYPTO_ocb128_decrypt(OCB128_CONTEXT *ctx,
463                           const unsigned char *in, unsigned char *out,
464                           size_t len)
465 {
466     u64 i, all_num_blocks;
467     size_t num_blocks, last_len;
468     OCB_BLOCK tmp1;
469     OCB_BLOCK tmp2;
470     OCB_BLOCK pad;
471
472     /*
473      * Calculate the number of blocks of data to be decrypted provided now, and
474      * so far
475      */
476     num_blocks = len / 16;
477     all_num_blocks = num_blocks + ctx->blocks_processed;
478
479     if (num_blocks && all_num_blocks == (size_t)all_num_blocks
480         && ctx->stream != NULL) {
481         size_t max_idx = 0, top = (size_t)all_num_blocks;
482
483         /*
484          * See how many L_{i} entries we need to process data at hand
485          * and pre-compute missing entries in the table [if any]...
486          */
487         while (top >>= 1)
488             max_idx++;
489         if (ocb_lookup_l(ctx, max_idx) == NULL)
490             return 0;
491
492         ctx->stream(in, out, num_blocks, ctx->keydec,
493                     (size_t)ctx->blocks_processed + 1, ctx->offset.c,
494                     (const unsigned char (*)[16])ctx->l, ctx->checksum.c);
495     } else {
496         /* Loop through all full blocks to be decrypted */
497         for (i = ctx->blocks_processed + 1; i <= all_num_blocks; i++) {
498             OCB_BLOCK *inblock;
499             OCB_BLOCK *outblock;
500
501             /* Offset_i = Offset_{i-1} xor L_{ntz(i)} */
502             OCB_BLOCK *lookup = ocb_lookup_l(ctx, ocb_ntz(i));
503             if (lookup == NULL)
504                 return 0;
505             ocb_block16_xor(&ctx->offset, lookup, &ctx->offset);
506
507             /* P_i = Offset_i xor DECIPHER(K, C_i xor Offset_i) */
508             inblock =
509                 (OCB_BLOCK *)(in + ((i - ctx->blocks_processed - 1) * 16));
510             ocb_block16_xor_misaligned(&ctx->offset, inblock, &tmp1);
511             ctx->decrypt(tmp1.c, tmp2.c, ctx->keydec);
512             outblock =
513                 (OCB_BLOCK *)(out + ((i - ctx->blocks_processed - 1) * 16));
514             ocb_block16_xor_misaligned(&ctx->offset, &tmp2, outblock);
515
516             /* Checksum_i = Checksum_{i-1} xor P_i */
517             ocb_block16_xor_misaligned(&ctx->checksum, outblock, &ctx->checksum);
518         }
519     }
520
521     /*
522      * Check if we have any partial blocks left over. This is only valid in the
523      * last call to this function
524      */
525     last_len = len % 16;
526
527     if (last_len > 0) {
528         /* Offset_* = Offset_m xor L_* */
529         ocb_block16_xor(&ctx->offset, &ctx->l_star, &ctx->offset);
530
531         /* Pad = ENCIPHER(K, Offset_*) */
532         ctx->encrypt(ctx->offset.c, pad.c, ctx->keyenc);
533
534         /* P_* = C_* xor Pad[1..bitlen(C_*)] */
535         ocb_block_xor(in + (len / 16) * 16, (unsigned char *)&pad, last_len,
536                       out + (num_blocks * 16));
537
538         /* Checksum_* = Checksum_m xor (P_* || 1 || zeros(127-bitlen(P_*))) */
539         memset(&tmp1, 0, 16);
540         memcpy(&tmp1, out + (len / 16) * 16, last_len);
541         ((unsigned char *)(&tmp1))[last_len] = 0x80;
542         ocb_block16_xor(&ctx->checksum, &tmp1, &ctx->checksum);
543     }
544
545     ctx->blocks_processed = all_num_blocks;
546
547     return 1;
548 }
549
550 /*
551  * Calculate the tag and verify it against the supplied tag
552  */
553 int CRYPTO_ocb128_finish(OCB128_CONTEXT *ctx, const unsigned char *tag,
554                          size_t len)
555 {
556     OCB_BLOCK tmp1, tmp2;
557
558     /*
559      * Tag = ENCIPHER(K, Checksum_* xor Offset_* xor L_$) xor HASH(K,A)
560      */
561     ocb_block16_xor(&ctx->checksum, &ctx->offset, &tmp1);
562     ocb_block16_xor(&tmp1, &ctx->l_dollar, &tmp2);
563     ctx->encrypt(tmp2.c, tmp1.c, ctx->keyenc);
564     ocb_block16_xor(&tmp1, &ctx->sum, &ctx->tag);
565
566     if (len > 16 || len < 1) {
567         return -1;
568     }
569
570     /* Compare the tag if we've been given one */
571     if (tag)
572         return CRYPTO_memcmp(&ctx->tag, tag, len);
573     else
574         return -1;
575 }
576
577 /*
578  * Retrieve the calculated tag
579  */
580 int CRYPTO_ocb128_tag(OCB128_CONTEXT *ctx, unsigned char *tag, size_t len)
581 {
582     if (len > 16 || len < 1) {
583         return -1;
584     }
585
586     /* Calculate the tag */
587     CRYPTO_ocb128_finish(ctx, NULL, 0);
588
589     /* Copy the tag into the supplied buffer */
590     memcpy(tag, &ctx->tag, len);
591
592     return 1;
593 }
594
595 /*
596  * Release all resources
597  */
598 void CRYPTO_ocb128_cleanup(OCB128_CONTEXT *ctx)
599 {
600     if (ctx) {
601         OPENSSL_clear_free(ctx->l, ctx->max_l_index * 16);
602         OPENSSL_cleanse(ctx, sizeof(*ctx));
603     }
604 }
605
606 #endif                          /* OPENSSL_NO_OCB */