v3.9.5.4

2026-07-14 19:06:50 +00:00 · 2019-07-15 17:00:26 -04:00
parent e625ed5420
commit e2d5762ef2
63 changed files with 1973 additions and 2980 deletions
--- a/algo/quark/anime-4way.c
+++ b/algo/quark/anime-4way.c
@@ -62,7 +62,7 @@ void anime_4way_hash( void *state, const void *input )

    vh_mask = _mm256_cmpeq_epi64( _mm256_and_si256( vh[0], bit3_mask ), zero );

-    mm256_dintrlv_4x64( hash0, hash1, hash2, hash3, vhash, 512 );
+    dintrlv_4x64( hash0, hash1, hash2, hash3, vhash, 512 );

    if ( hash0[0] & mask )
    {
@@ -88,7 +88,7 @@ void anime_4way_hash( void *state, const void *input )
                                               (char*)hash3, 512 );
    }

-    mm256_intrlv_4x64( vhashA, hash0, hash1, hash2, hash3, 512 );
+    intrlv_4x64( vhashA, hash0, hash1, hash2, hash3, 512 );

    if ( mm256_anybits0( vh_mask ) )
    {
@@ -98,7 +98,7 @@ void anime_4way_hash( void *state, const void *input )

    mm256_blend_hash_4x64( vh, vhA, vhB, vh_mask );

-    mm256_dintrlv_4x64( hash0, hash1, hash2, hash3, vhash, 512 );
+    dintrlv_4x64( hash0, hash1, hash2, hash3, vhash, 512 );

    reinit_groestl( &ctx.groestl );
    update_and_final_groestl( &ctx.groestl, (char*)hash0, (char*)hash0, 512 );
@@ -109,7 +109,7 @@ void anime_4way_hash( void *state, const void *input )
    reinit_groestl( &ctx.groestl );
    update_and_final_groestl( &ctx.groestl, (char*)hash3, (char*)hash3, 512 );

-    mm256_intrlv_4x64( vhash, hash0, hash1, hash2, hash3, 512 );
+    intrlv_4x64( vhash, hash0, hash1, hash2, hash3, 512 );

    jh512_4way( &ctx.jh, vhash, 64 );
    jh512_4way_close( &ctx.jh, vhash );
@@ -155,7 +155,7 @@ void anime_4way_hash( void *state, const void *input )

    mm256_blend_hash_4x64( vh, vhA, vhB, vh_mask );

-    mm256_dintrlv_4x64( state, state+32, state+64, state+96, vhash, 256 );
+    dintrlv_4x64( state, state+32, state+64, state+96, vhash, 256 );
 }

 int scanhash_anime_4way( struct work *work, uint32_t max_nonce,
@@ -163,7 +163,6 @@ int scanhash_anime_4way( struct work *work, uint32_t max_nonce,
 {
    uint32_t hash[4*8] __attribute__ ((aligned (64)));
    uint32_t vdata[24*4] __attribute__ ((aligned (64)));
-    uint32_t edata[20] __attribute__ ((aligned (64)));
    uint32_t *pdata = work->data;
    uint32_t *ptarget = work->target;
    uint32_t n = pdata[19];
@@ -188,9 +187,7 @@ int scanhash_anime_4way( struct work *work, uint32_t max_nonce,
                0
        };

-    swab32_array( edata, pdata, 20 );
-    mm256_intrlv_4x64( vdata, edata, edata, edata, edata, 640 );
-//    mm256_bswap_intrlv80_4x64( vdata, pdata );
+    mm256_bswap32_intrlv80_4x64( vdata, pdata );

    for (int m=0; m < 6; m++)
       if (Htarg <= htmax[m])
--- a/algo/quark/hmq1725-4way.c
+++ b/algo/quark/hmq1725-4way.c
@@ -67,7 +67,7 @@ extern void hmq1725_4way_hash(void *state, const void *input)
     bmw512_4way( &ctx.bmw, input, 80 );
     bmw512_4way_close( &ctx.bmw, vhash );

-     mm256_dintrlv_4x64( hash0, hash1, hash2, hash3, vhash, 512 );
+     dintrlv_4x64( hash0, hash1, hash2, hash3, vhash, 512 );

     sph_whirlpool_init( &ctx.whirlpool );
     sph_whirlpool( &ctx.whirlpool, hash0, 64 );
@@ -84,7 +84,7 @@ extern void hmq1725_4way_hash(void *state, const void *input)

 // first fork, A is groestl serial, B is skein parallel.

-     mm256_intrlv_4x64( vhash, hash0, hash1, hash2, hash3, 512 );
+     intrlv_4x64( vhash, hash0, hash1, hash2, hash3, 512 );

     vh_mask = _mm256_cmpeq_epi64( _mm256_and_si256( vh[0], vmask ),
                                   m256_zero );
@@ -116,7 +116,7 @@ extern void hmq1725_4way_hash(void *state, const void *input)
                                               (char*)hash3, 512 );
 //     }

-     mm256_intrlv_4x64( vhashA, hash0, hash1, hash2, hash3, 512 );
+     intrlv_4x64( vhashA, hash0, hash1, hash2, hash3, 512 );

 // B

@@ -158,7 +158,7 @@ extern void hmq1725_4way_hash(void *state, const void *input)

     mm256_blend_hash_4x64( vh, vhA, vhB, vh_mask );
    
-     mm256_dintrlv_4x64( hash0, hash1, hash2, hash3, vhash, 512 );
+     dintrlv_4x64( hash0, hash1, hash2, hash3, vhash, 512 );

     init_luffa( &ctx.luffa, 512 );
     update_and_final_luffa( &ctx.luffa, (BitSequence*)hash0,
@@ -186,7 +186,7 @@ extern void hmq1725_4way_hash(void *state, const void *input)
     cubehashUpdateDigest( &ctx.cube, (BitSequence *)hash3,
                                (const BitSequence *)hash3, 64 );

-     mm256_intrlv_4x64( vhash, hash0, hash1, hash2, hash3, 512 );
+     intrlv_4x64( vhash, hash0, hash1, hash2, hash3, 512 );

 // A= keccak parallel, B= jh parallel
    
@@ -209,7 +209,7 @@ extern void hmq1725_4way_hash(void *state, const void *input)

     mm256_blend_hash_4x64( vh, vhA, vhB, vh_mask );

-     mm256_dintrlv_4x64( hash0, hash1, hash2, hash3, vhash, 512 );
+     dintrlv_4x64( hash0, hash1, hash2, hash3, vhash, 512 );

     sph_shavite512_init( &ctx.shavite );
     sph_shavite512 ( &ctx.shavite, hash0, 64 );
@@ -240,7 +240,7 @@ extern void hmq1725_4way_hash(void *state, const void *input)
 // A is whirlpool serial, B is haval parallel.
    

-     mm256_intrlv_4x64( vhash, hash0, hash1, hash2, hash3, 512 );
+     intrlv_4x64( vhash, hash0, hash1, hash2, hash3, 512 );

     vh_mask = _mm256_cmpeq_epi64( _mm256_and_si256( vh[0], vmask ),
                                   m256_zero );
@@ -271,7 +271,7 @@ extern void hmq1725_4way_hash(void *state, const void *input)
        sph_whirlpool_close( &ctx.whirlpool, hash3 );
 //     }

-     mm256_intrlv_4x64( vhashA, hash0, hash1, hash2, hash3, 512 );
+     intrlv_4x64( vhashA, hash0, hash1, hash2, hash3, 512 );

 // B

@@ -285,7 +285,7 @@ extern void hmq1725_4way_hash(void *state, const void *input)

     mm256_blend_hash_4x64( vh, vhA, vhB, vh_mask );

-     mm256_dintrlv_4x64( hash0, hash1, hash2, hash3, vhash, 512 );
+     dintrlv_4x64( hash0, hash1, hash2, hash3, vhash, 512 );
    
     init_echo( &ctx.echo, 512 );
     update_final_echo( &ctx.echo, (BitSequence *)hash0,
@@ -300,13 +300,13 @@ extern void hmq1725_4way_hash(void *state, const void *input)
     update_final_echo( &ctx.echo, (BitSequence *)hash3,
                             (const BitSequence *)hash3, 512 );

-     mm256_intrlv_4x64( vhash, hash0, hash1, hash2, hash3, 512 );
+     intrlv_4x64( vhash, hash0, hash1, hash2, hash3, 512 );
     
     blake512_4way_init( &ctx.blake );
     blake512_4way( &ctx.blake, vhash, 64 );
     blake512_4way_close( &ctx.blake, vhash );

-     mm256_dintrlv_4x64( hash0, hash1, hash2, hash3, vhash, 512 );
+     dintrlv_4x64( hash0, hash1, hash2, hash3, vhash, 512 );

 // shavite & luffa, both serial, select individually.

@@ -362,13 +362,13 @@ extern void hmq1725_4way_hash(void *state, const void *input)
                                    (const BitSequence *)hash3, 64 );
   }

-   mm256_intrlv_4x64( vhash, hash0, hash1, hash2, hash3, 512 );
+   intrlv_4x64( vhash, hash0, hash1, hash2, hash3, 512 );

   hamsi512_4way_init( &ctx.hamsi );
   hamsi512_4way( &ctx.hamsi, vhash, 64 );
   hamsi512_4way_close( &ctx.hamsi, vhash );

-   mm256_dintrlv_4x64( hash0, hash1, hash2, hash3, vhash, 512 );
+   dintrlv_4x64( hash0, hash1, hash2, hash3, vhash, 512 );

   sph_fugue512_init( &ctx.fugue );
   sph_fugue512( &ctx.fugue, hash0, 64 );
@@ -438,13 +438,13 @@ extern void hmq1725_4way_hash(void *state, const void *input)
                             (const BitSequence *)hash3, 512 );
   }

-   mm128_intrlv_4x32( vhash, hash0, hash1, hash2, hash3, 512 );
+   intrlv_4x32( vhash, hash0, hash1, hash2, hash3, 512 );

   shabal512_4way_init( &ctx.shabal );
   shabal512_4way( &ctx.shabal, vhash, 64 );
   shabal512_4way_close( &ctx.shabal, vhash );

-   mm128_dintrlv_4x32( hash0, hash1, hash2, hash3, vhash, 512 );
+   dintrlv_4x32( hash0, hash1, hash2, hash3, vhash, 512 );

   sph_whirlpool_init( &ctx.whirlpool );
   sph_whirlpool( &ctx.whirlpool, hash0, 64 );
@@ -461,7 +461,7 @@ extern void hmq1725_4way_hash(void *state, const void *input)

 // A = fugue serial, B = sha512 prarallel
   
-   mm256_intrlv_4x64( vhash, hash0, hash1, hash2, hash3, 512 );
+   intrlv_4x64( vhash, hash0, hash1, hash2, hash3, 512 );

   vh_mask = _mm256_cmpeq_epi64( _mm256_and_si256( vh[0], vmask ),
                                 m256_zero );
@@ -491,7 +491,7 @@ extern void hmq1725_4way_hash(void *state, const void *input)
      sph_fugue512_close( &ctx.fugue, hash3 );
 //   }

-   mm256_intrlv_4x64( vhashA, hash0, hash1, hash2, hash3, 512 );
+   intrlv_4x64( vhashA, hash0, hash1, hash2, hash3, 512 );

 //   if ( mm256_any_clr_256( vh_mask ) )
 //   {
@@ -502,7 +502,7 @@ extern void hmq1725_4way_hash(void *state, const void *input)

   mm256_blend_hash_4x64( vh, vhA, vhB, vh_mask );

-   mm256_dintrlv_4x64( hash0, hash1, hash2, hash3, vhash, 512 );
+   dintrlv_4x64( hash0, hash1, hash2, hash3, vhash, 512 );

   init_groestl( &ctx.groestl, 64 );
   update_and_final_groestl( &ctx.groestl, (char*)hash0, (char*)hash0, 512 );
@@ -513,7 +513,7 @@ extern void hmq1725_4way_hash(void *state, const void *input)
   init_groestl( &ctx.groestl, 64 );
   update_and_final_groestl( &ctx.groestl, (char*)hash3, (char*)hash3, 512 );

-   mm256_intrlv_4x64( vhash, hash0, hash1, hash2, hash3, 512 );
+   intrlv_4x64( vhash, hash0, hash1, hash2, hash3, 512 );

   sha512_4way_init( &ctx.sha512 ); 
   sha512_4way( &ctx.sha512, vhash, 64 );
@@ -524,7 +524,7 @@ extern void hmq1725_4way_hash(void *state, const void *input)
   vh_mask = _mm256_cmpeq_epi64( _mm256_and_si256( vh[0], vmask ),
                                 m256_zero );

-   mm256_dintrlv_4x64( hash0, hash1, hash2, hash3, vhash, 512 );
+   dintrlv_4x64( hash0, hash1, hash2, hash3, vhash, 512 );
     
 //   if ( mm256_any_set_256( vh_mask ) ) //4
 //   {
@@ -559,7 +559,7 @@ extern void hmq1725_4way_hash(void *state, const void *input)
      sph_whirlpool_close( &ctx.whirlpool, hash3 );
 //   }

-   mm256_intrlv_4x64( vhashB, hash0, hash1, hash2, hash3, 512 );
+   intrlv_4x64( vhashB, hash0, hash1, hash2, hash3, 512 );

   mm256_blend_hash_4x64( vh, vhA, vhB, vh_mask );

@@ -589,7 +589,7 @@ int scanhash_hmq1725_4way( struct work *work, uint32_t max_nonce,
   uint32_t masks[] = { 0xFFFFFFFF, 0xFFFFFFF0, 0xFFFFFF00,
                        0xFFFFF000, 0xFFFF0000,          0  };

-   mm256_bswap_intrlv80_4x64( vdata, pdata );
+   mm256_bswap32_intrlv80_4x64( vdata, pdata );
   for ( int m = 0; m < 6; m++ ) if ( Htarg <= htmax[m] )
   {
      uint32_t mask = masks[ m ];
--- a/algo/quark/quark-4way.c
+++ b/algo/quark/quark-4way.c
@@ -63,7 +63,7 @@ void quark_4way_hash( void *state, const void *input )

    vh_mask = _mm256_cmpeq_epi64( _mm256_and_si256( vh[0], bit3_mask ), zero );

-    mm256_dintrlv_4x64( hash0, hash1, hash2, hash3, vhash, 512 );
+    dintrlv_4x64( hash0, hash1, hash2, hash3, vhash, 512 );

    if ( hash0[0] & mask )
    {
@@ -89,7 +89,7 @@ void quark_4way_hash( void *state, const void *input )
                                               (char*)hash3, 512 );
    }

-    mm256_intrlv_4x64( vhashA, hash0, hash1, hash2, hash3, 512 );
+    intrlv_4x64( vhashA, hash0, hash1, hash2, hash3, 512 );

    if ( mm256_anybits0( vh_mask ) )   
    {
@@ -99,7 +99,7 @@ void quark_4way_hash( void *state, const void *input )

    mm256_blend_hash_4x64( vh, vhA, vhB, vh_mask );

-    mm256_dintrlv_4x64( hash0, hash1, hash2, hash3, vhash, 512 );
+    dintrlv_4x64( hash0, hash1, hash2, hash3, vhash, 512 );

    reinit_groestl( &ctx.groestl );
    update_and_final_groestl( &ctx.groestl, (char*)hash0, (char*)hash0, 512 );
@@ -110,7 +110,7 @@ void quark_4way_hash( void *state, const void *input )
    reinit_groestl( &ctx.groestl );
    update_and_final_groestl( &ctx.groestl, (char*)hash3, (char*)hash3, 512 );

-    mm256_intrlv_4x64( vhash, hash0, hash1, hash2, hash3, 512 );
+    intrlv_4x64( vhash, hash0, hash1, hash2, hash3, 512 );

    jh512_4way( &ctx.jh, vhash, 64 );
    jh512_4way_close( &ctx.jh, vhash );
@@ -168,7 +168,6 @@ int scanhash_quark_4way( struct work *work, uint32_t max_nonce,
 {
    uint32_t hash[4*8] __attribute__ ((aligned (64)));
    uint32_t vdata[24*4] __attribute__ ((aligned (64)));
-    uint32_t edata[20] __attribute__ ((aligned (64)));
    uint32_t lane_hash[8] __attribute__ ((aligned (64)));
    uint32_t *hash7 = &(hash[25]);
    uint32_t *pdata = work->data;
@@ -178,9 +177,7 @@ int scanhash_quark_4way( struct work *work, uint32_t max_nonce,
    __m256i  *noncev = (__m256i*)vdata + 9;   // aligned
    int thr_id = mythr->id;  // thr_id arg is deprecated

-    swab32_array( edata, pdata, 20 );
-    mm256_intrlv_4x64( vdata, edata, edata, edata, edata, 640 );
-//    mm256_bswap_intrlv80_4x64( vdata, pdata );
+    mm256_bswap32_intrlv80_4x64( vdata, pdata );
    do
    {
       *noncev = mm256_intrlv_blend_32( mm256_bswap_32(
@@ -192,7 +189,7 @@ int scanhash_quark_4way( struct work *work, uint32_t max_nonce,
       for ( int i = 0; i < 4; i++ )
       if ( ( hash7[ i<<1 ] & 0xFFFFFF00 ) == 0 )
       {
-          mm256_extr_lane_4x64( lane_hash, hash, i, 256 );
+          extr_lane_4x64( lane_hash, hash, i, 256 );
          if ( fulltest( lane_hash, ptarget ) && !opt_benchmark  )
          {
            pdata[19] = n+i;