vg_m.h

   1 /* Copyright (C) 2021-2023 Harry Godden (hgn) - All Rights Reserved
   2  *
   3  *  0. Misc
   4  *  1. Scalar operations
   5  *  2. Vectors
   6  *    2.a 2D Vectors
   7  *    2.b 3D Vectors
   8  *    2.c 4D Vectors
   9  *  3. Quaternions
  10  *  4. Matrices
  11  *    4.a 2x2 matrices
  12  *    4.b 3x3 matrices
  13  *    4.c 4x3 matrices
  14  *    4.d 4x4 matrices
  15  *  5. Geometry
  16  *    5.a Boxes
  17  *    5.b Planes
  18  *    5.c Closest points
  19  *    5.d Raycast & Spherecasts
  20  *    5.e Curves
  21  *    5.f Volumes
  22  *  6. Statistics
  23  *    6.a Random numbers
  24  **/
  25
  26 #ifndef VG_M_H
  27 #define VG_M_H
  28
  29 #include "vg_platform.h"
  30 #include <math.h>
  31 #include <stdlib.h>
  32
  33 #define VG_PIf  3.14159265358979323846264338327950288f
  34 #define VG_TAUf 6.28318530717958647692528676655900576f
  35 /*
  36  * -----------------------------------------------------------------------------
  37  * Section 0.                    Misc Operations
  38  * -----------------------------------------------------------------------------
  39  */
  40
  41 /* get the f32 as the raw bits in a u32 without converting */
  42 static u32 vg_ftu32( f32 a )
  43 {
  44    u32 *ptr = (u32 *)(&a);
  45    return *ptr;
  46 }
  47
  48 /* check if f32 is infinite */
  49 static int vg_isinff( f32 a )
  50 {
  51    return ((vg_ftu32(a)) & 0x7FFFFFFFU) == 0x7F800000U;
  52 }
  53
  54 /* check if f32 is not a number */
  55 static int vg_isnanf( f32 a )
  56 {
  57    return !vg_isinff(a) && ((vg_ftu32(a)) & 0x7F800000U) == 0x7F800000U;
  58 }
  59
  60 /* check if f32 is a number and is not infinite */
  61 static int vg_validf( f32 a )
  62 {
  63    return ((vg_ftu32(a)) & 0x7F800000U) != 0x7F800000U;
  64 }
  65
  66 static int v3_valid( v3f a ){
  67    for( u32 i=0; i<3; i++ )
  68       if( !vg_validf(a[i]) ) return 0;
  69    return 1;
  70 }
  71
  72 /*
  73  * -----------------------------------------------------------------------------
  74  * Section 1.                   Scalar Operations
  75  * -----------------------------------------------------------------------------
  76  */
  77
  78 static inline f32 vg_minf( f32 a, f32 b ){ return a < b? a: b; }
  79 static inline f32 vg_maxf( f32 a, f32 b ){ return a > b? a: b; }
  80
  81 static inline int vg_min( int a, int b ){ return a < b? a: b; }
  82 static inline int vg_max( int a, int b ){ return a > b? a: b; }
  83
  84 static inline f32 vg_clampf( f32 a, f32 min, f32 max )
  85 {
  86    return vg_minf( max, vg_maxf( a, min ) );
  87 }
  88
  89 static inline f32 vg_signf( f32 a )
  90 {
  91    return a < 0.0f? -1.0f: 1.0f;
  92 }
  93
  94 static inline f32 vg_fractf( f32 a )
  95 {
  96    return a - floorf( a );
  97 }
  98
  99 static f32 vg_cfrictf( f32 velocity, f32 F )
 100 {
 101    return -vg_signf(velocity) * vg_minf( F, fabsf(velocity) );
 102 }
 103
 104 static inline f32 vg_rad( f32 deg )
 105 {
 106    return deg * VG_PIf / 180.0f;
 107 }
 108
 109 /*
 110  * -----------------------------------------------------------------------------
 111  * Section 2.a                   2D Vectors
 112  * -----------------------------------------------------------------------------
 113  */
 114
 115 static inline void v2_copy( v2f a, v2f d )
 116 {
 117    d[0] = a[0]; d[1] = a[1];
 118 }
 119
 120 static inline void v2_zero( v2f a )
 121 {
 122    a[0] = 0.f; a[1] = 0.f;
 123 }
 124
 125 static inline void v2_add( v2f a, v2f b, v2f d )
 126 {
 127    d[0] = a[0]+b[0]; d[1] = a[1]+b[1];
 128 }
 129
 130 static inline void v2_sub( v2f a, v2f b, v2f d )
 131 {
 132    d[0] = a[0]-b[0]; d[1] = a[1]-b[1];
 133 }
 134
 135 static inline void v2_minv( v2f a, v2f b, v2f dest )
 136 {
 137    dest[0] = vg_minf(a[0], b[0]);
 138    dest[1] = vg_minf(a[1], b[1]);
 139 }
 140
 141 static inline void v2_maxv( v2f a, v2f b, v2f dest )
 142 {
 143    dest[0] = vg_maxf(a[0], b[0]);
 144    dest[1] = vg_maxf(a[1], b[1]);
 145 }
 146
 147 static inline f32 v2_dot( v2f a, v2f b )
 148 {
 149    return a[0] * b[0] + a[1] * b[1];
 150 }
 151
 152 static inline f32 v2_cross( v2f a, v2f b )
 153 {
 154    return a[0]*b[1] - a[1]*b[0];
 155 }
 156
 157 static inline void v2_abs( v2f a, v2f d )
 158 {
 159    d[0] = fabsf( a[0] );
 160    d[1] = fabsf( a[1] );
 161 }
 162
 163 static inline void v2_muls( v2f a, f32 s, v2f d )
 164 {
 165    d[0] = a[0]*s; d[1] = a[1]*s;
 166 }
 167
 168 static inline void v2_divs( v2f a, f32 s, v2f d )
 169 {
 170    d[0] = a[0]/s; d[1] = a[1]/s;
 171 }
 172
 173 static inline void v2_mul( v2f a, v2f b, v2f d )
 174 {
 175    d[0] = a[0]*b[0];
 176    d[1] = a[1]*b[1];
 177 }
 178
 179 static inline void v2_div( v2f a, v2f b, v2f d )
 180 {
 181    d[0] = a[0]/b[0]; d[1] = a[1]/b[1];
 182 }
 183
 184 static inline void v2_muladd( v2f a, v2f b, v2f s, v2f d )
 185 {
 186    d[0] = a[0]+b[0]*s[0];
 187    d[1] = a[1]+b[1]*s[1];
 188 }
 189
 190 static inline void v2_muladds( v2f a, v2f b, f32 s, v2f d )
 191 {
 192    d[0] = a[0]+b[0]*s;
 193    d[1] = a[1]+b[1]*s;
 194 }
 195
 196 static inline f32 v2_length2( v2f a )
 197 {
 198    return a[0]*a[0] + a[1]*a[1];
 199 }
 200
 201 static inline f32 v2_length( v2f a )
 202 {
 203    return sqrtf( v2_length2( a ) );
 204 }
 205
 206 static inline f32 v2_dist2( v2f a, v2f b )
 207 {
 208    v2f delta;
 209    v2_sub( a, b, delta );
 210    return v2_length2( delta );
 211 }
 212
 213 static inline f32 v2_dist( v2f a, v2f b )
 214 {
 215    return sqrtf( v2_dist2( a, b ) );
 216 }
 217
 218 static inline void v2_lerp( v2f a, v2f b, f32 t, v2f d )
 219 {
 220    d[0] = a[0] + t*(b[0]-a[0]);
 221    d[1] = a[1] + t*(b[1]-a[1]);
 222 }
 223
 224 static inline void v2_normalize( v2f a )
 225 {
 226    v2_muls( a, 1.0f / v2_length( a ), a );
 227 }
 228
 229 static void v2_normalize_clamp( v2f a )
 230 {
 231    f32 l2 = v2_length2( a );
 232    if( l2 > 1.0f )
 233       v2_muls( a, 1.0f/sqrtf(l2), a );
 234 }
 235
 236 static inline void v2_floor( v2f a, v2f b )
 237 {
 238    b[0] = floorf( a[0] );
 239    b[1] = floorf( a[1] );
 240 }
 241
 242 static inline void v2_fill( v2f a, f32 v )
 243 {
 244    a[0] = v;
 245    a[1] = v;
 246 }
 247
 248 static inline void v2_copysign( v2f a, v2f b )
 249 {
 250    a[0] = copysignf( a[0], b[0] );
 251    a[1] = copysignf( a[1], b[1] );
 252 }
 253
 254 /* integer variants
 255  * ---------------- */
 256
 257 static inline void v2i_copy( v2i a, v2i b )
 258 {
 259    b[0] = a[0]; b[1] = a[1];
 260 }
 261
 262 static inline int v2i_eq( v2i a, v2i b )
 263 {
 264    return ((a[0] == b[0]) && (a[1] == b[1]));
 265 }
 266
 267 static inline void v2i_add( v2i a, v2i b, v2i d )
 268 {
 269    d[0] = a[0]+b[0]; d[1] = a[1]+b[1];
 270 }
 271
 272 static inline void v2i_sub( v2i a, v2i b, v2i d )
 273 {
 274    d[0] = a[0]-b[0]; d[1] = a[1]-b[1];
 275 }
 276
 277 /*
 278  * -----------------------------------------------------------------------------
 279  * Section 2.b                   3D Vectors
 280  * -----------------------------------------------------------------------------
 281  */
 282
 283 static inline void v3_copy( v3f a, v3f b )
 284 {
 285    b[0] = a[0]; b[1] = a[1]; b[2] = a[2];
 286 }
 287
 288 static inline void v3_zero( v3f a )
 289 {
 290    a[0] = 0.f; a[1] = 0.f; a[2] = 0.f;
 291 }
 292
 293 static inline void v3_add( v3f a, v3f b, v3f d )
 294 {
 295    d[0] = a[0]+b[0]; d[1] = a[1]+b[1]; d[2] = a[2]+b[2];
 296 }
 297
 298 static inline void v3i_add( v3i a, v3i b, v3i d )
 299 {
 300    d[0] = a[0]+b[0]; d[1] = a[1]+b[1]; d[2] = a[2]+b[2];
 301 }
 302
 303 static inline void v3_sub( v3f a, v3f b, v3f d )
 304 {
 305    d[0] = a[0]-b[0]; d[1] = a[1]-b[1]; d[2] = a[2]-b[2];
 306 }
 307
 308 static inline void v3i_sub( v3i a, v3i b, v3i d )
 309 {
 310    d[0] = a[0]-b[0]; d[1] = a[1]-b[1]; d[2] = a[2]-b[2];
 311 }
 312
 313 static inline void v3_mul( v3f a, v3f b, v3f d )
 314 {
 315    d[0] = a[0]*b[0]; d[1] = a[1]*b[1]; d[2] = a[2]*b[2];
 316 }
 317
 318 static inline void v3_div( v3f a, v3f b, v3f d )
 319 {
 320    d[0] = b[0]!=0.0f? a[0]/b[0]: INFINITY;
 321    d[1] = b[1]!=0.0f? a[1]/b[1]: INFINITY;
 322    d[2] = b[2]!=0.0f? a[2]/b[2]: INFINITY;
 323 }
 324
 325 static inline void v3_muls( v3f a, f32 s, v3f d )
 326 {
 327    d[0] = a[0]*s; d[1] = a[1]*s; d[2] = a[2]*s;
 328 }
 329
 330 static inline void v3_fill( v3f a, f32 v )
 331 {
 332    a[0] = v;
 333    a[1] = v;
 334    a[2] = v;
 335 }
 336
 337 static inline void v3_divs( v3f a, f32 s, v3f d )
 338 {
 339    if( s == 0.0f )
 340       v3_fill( d, INFINITY );
 341    else
 342    {
 343       d[0] = a[0]/s;
 344       d[1] = a[1]/s;
 345       d[2] = a[2]/s;
 346    }
 347 }
 348
 349 static inline void v3_muladds( v3f a, v3f b, f32 s, v3f d )
 350 {
 351    d[0] = a[0]+b[0]*s; d[1] = a[1]+b[1]*s; d[2] = a[2]+b[2]*s;
 352 }
 353
 354 static inline void v3_muladd( v2f a, v2f b, v2f s, v2f d )
 355 {
 356    d[0] = a[0]+b[0]*s[0];
 357    d[1] = a[1]+b[1]*s[1];
 358    d[2] = a[2]+b[2]*s[2];
 359 }
 360
 361 static inline f32 v3_dot( v3f a, v3f b )
 362 {
 363    return a[0] * b[0] + a[1] * b[1] + a[2] * b[2];
 364 }
 365
 366 static inline void v3_cross( v3f a, v3f b, v3f dest )
 367 {
 368    v3f d;
 369    d[0] = a[1]*b[2] - a[2]*b[1];
 370    d[1] = a[2]*b[0] - a[0]*b[2];
 371    d[2] = a[0]*b[1] - a[1]*b[0];
 372    v3_copy( d, dest );
 373 }
 374
 375 static inline f32 v3_length2( v3f a )
 376 {
 377    return v3_dot( a, a );
 378 }
 379
 380 static inline f32 v3_length( v3f a )
 381 {
 382    return sqrtf( v3_length2( a ) );
 383 }
 384
 385 static inline f32 v3_dist2( v3f a, v3f b )
 386 {
 387    v3f delta;
 388    v3_sub( a, b, delta );
 389    return v3_length2( delta );
 390 }
 391
 392 static inline f32 v3_dist( v3f a, v3f b )
 393 {
 394    return sqrtf( v3_dist2( a, b ) );
 395 }
 396
 397 static inline void v3_normalize( v3f a )
 398 {
 399    v3_muls( a, 1.f / v3_length( a ), a );
 400 }
 401
 402 static inline f32 vg_lerpf( f32 a, f32 b, f32 t ){
 403    return a + t*(b-a);
 404 }
 405
 406 static inline f64 vg_lerp( f64 a, f64 b, f64 t )
 407 {
 408    return a + t*(b-a);
 409 }
 410
 411 static inline void vg_slewf( f32 *a, f32 b, f32 speed ){
 412    f32 d = vg_signf( b-*a ),
 413        c = *a + d*speed;
 414    *a = vg_minf( b*d, c*d ) * d;
 415 }
 416
 417 static inline f32 vg_smoothstepf( f32 x ){
 418    return x*x*(3.0f - 2.0f*x);
 419 }
 420
 421
 422 /* correctly lerp around circular period -pi -> pi */
 423 static f32 vg_alerpf( f32 a, f32 b, f32 t )
 424 {
 425    f32 d = fmodf( b-a, VG_TAUf ),
 426          s = fmodf( 2.0f*d, VG_TAUf ) - d;
 427    return a + s*t;
 428 }
 429
 430 static inline void v3_lerp( v3f a, v3f b, f32 t, v3f d )
 431 {
 432    d[0] = a[0] + t*(b[0]-a[0]);
 433    d[1] = a[1] + t*(b[1]-a[1]);
 434    d[2] = a[2] + t*(b[2]-a[2]);
 435 }
 436
 437 static inline void v3_minv( v3f a, v3f b, v3f dest )
 438 {
 439    dest[0] = vg_minf(a[0], b[0]);
 440    dest[1] = vg_minf(a[1], b[1]);
 441    dest[2] = vg_minf(a[2], b[2]);
 442 }
 443
 444 static inline void v3_maxv( v3f a, v3f b, v3f dest )
 445 {
 446    dest[0] = vg_maxf(a[0], b[0]);
 447    dest[1] = vg_maxf(a[1], b[1]);
 448    dest[2] = vg_maxf(a[2], b[2]);
 449 }
 450
 451 static inline f32 v3_minf( v3f a )
 452 {
 453    return vg_minf( vg_minf( a[0], a[1] ), a[2] );
 454 }
 455
 456 static inline f32 v3_maxf( v3f a )
 457 {
 458    return vg_maxf( vg_maxf( a[0], a[1] ), a[2] );
 459 }
 460
 461 static inline void v3_floor( v3f a, v3f b )
 462 {
 463    b[0] = floorf( a[0] );
 464    b[1] = floorf( a[1] );
 465    b[2] = floorf( a[2] );
 466 }
 467
 468 static inline void v3_ceil( v3f a, v3f b )
 469 {
 470    b[0] = ceilf( a[0] );
 471    b[1] = ceilf( a[1] );
 472    b[2] = ceilf( a[2] );
 473 }
 474
 475 static inline void v3_negate( v3f a, v3f b )
 476 {
 477    b[0] = -a[0];
 478    b[1] = -a[1];
 479    b[2] = -a[2];
 480 }
 481
 482 static inline void v3_rotate( v3f v, f32 angle, v3f axis, v3f d )
 483 {
 484   v3f v1, v2, k;
 485   f32 c, s;
 486
 487   c = cosf( angle );
 488   s = sinf( angle );
 489
 490   v3_copy( axis, k );
 491   v3_normalize( k );
 492   v3_muls( v, c, v1 );
 493   v3_cross( k, v, v2 );
 494   v3_muls( v2, s, v2 );
 495   v3_add( v1, v2, v1 );
 496   v3_muls( k, v3_dot(k, v) * (1.0f - c), v2);
 497   v3_add( v1, v2, d );
 498 }
 499
 500 static void v3_tangent_basis( v3f n, v3f tx, v3f ty ){
 501    /* Compute tangent basis (box2d) */
 502    if( fabsf( n[0] ) >= 0.57735027f ){
 503       tx[0] =  n[1];
 504       tx[1] = -n[0];
 505       tx[2] =  0.0f;
 506    }
 507    else{
 508       tx[0] =  0.0f;
 509       tx[1] =  n[2];
 510       tx[2] = -n[1];
 511    }
 512
 513    v3_normalize( tx );
 514    v3_cross( n, tx, ty );
 515 }
 516
 517
 518 /*
 519  * -----------------------------------------------------------------------------
 520  * Section 2.c                   4D Vectors
 521  * -----------------------------------------------------------------------------
 522  */
 523
 524 static inline void v4_copy( v4f a, v4f b )
 525 {
 526    b[0] = a[0]; b[1] = a[1]; b[2] = a[2]; b[3] = a[3];
 527 }
 528
 529 static inline void v4_add( v4f a, v4f b, v4f d )
 530 {
 531    d[0] = a[0]+b[0];
 532    d[1] = a[1]+b[1];
 533    d[2] = a[2]+b[2];
 534    d[3] = a[3]+b[3];
 535 }
 536
 537 static inline void v4_zero( v4f a )
 538 {
 539    a[0] = 0.f; a[1] = 0.f; a[2] = 0.f; a[3] = 0.f;
 540 }
 541
 542 static inline void v4_muls( v4f a, f32 s, v4f d )
 543 {
 544    d[0] = a[0]*s;
 545    d[1] = a[1]*s;
 546    d[2] = a[2]*s;
 547    d[3] = a[3]*s;
 548 }
 549
 550 static inline void v4_muladds( v4f a, v4f b, f32 s, v4f d )
 551 {
 552    d[0] = a[0]+b[0]*s;
 553    d[1] = a[1]+b[1]*s;
 554    d[2] = a[2]+b[2]*s;
 555    d[3] = a[3]+b[3]*s;
 556 }
 557
 558 static inline void v4_lerp( v4f a, v4f b, f32 t, v4f d )
 559 {
 560    d[0] = a[0] + t*(b[0]-a[0]);
 561    d[1] = a[1] + t*(b[1]-a[1]);
 562    d[2] = a[2] + t*(b[2]-a[2]);
 563    d[3] = a[3] + t*(b[3]-a[3]);
 564 }
 565
 566 static inline f32 v4_dot( v4f a, v4f b )
 567 {
 568    return a[0]*b[0] + a[1]*b[1] + a[2]*b[2] + a[3]*b[3];
 569 }
 570
 571 static inline f32 v4_length( v4f a )
 572 {
 573    return sqrtf( v4_dot(a,a) );
 574 }
 575
 576 /*
 577  * -----------------------------------------------------------------------------
 578  * Section 3                   Quaternions
 579  * -----------------------------------------------------------------------------
 580  */
 581
 582 static inline void q_identity( v4f q )
 583 {
 584    q[0] = 0.0f; q[1] = 0.0f; q[2] = 0.0f; q[3] = 1.0f;
 585 }
 586
 587 static inline void q_axis_angle( v4f q, v3f axis, f32 angle )
 588 {
 589    f32 a = angle*0.5f,
 590          c = cosf(a),
 591          s = sinf(a);
 592
 593    q[0] = s*axis[0];
 594    q[1] = s*axis[1];
 595    q[2] = s*axis[2];
 596    q[3] = c;
 597 }
 598
 599 static inline void q_mul( v4f q, v4f q1, v4f d )
 600 {
 601    v4f t;
 602    t[0] = q[3]*q1[0] + q[0]*q1[3] + q[1]*q1[2] - q[2]*q1[1];
 603    t[1] = q[3]*q1[1] - q[0]*q1[2] + q[1]*q1[3] + q[2]*q1[0];
 604    t[2] = q[3]*q1[2] + q[0]*q1[1] - q[1]*q1[0] + q[2]*q1[3];
 605    t[3] = q[3]*q1[3] - q[0]*q1[0] - q[1]*q1[1] - q[2]*q1[2];
 606    v4_copy( t, d );
 607 }
 608
 609 static inline void q_normalize( v4f q )
 610 {
 611    f32 l2 = v4_dot(q,q);
 612    if( l2 < 0.00001f ) q_identity( q );
 613    else {
 614       f32 s = 1.0f/sqrtf(l2);
 615       q[0] *= s;
 616       q[1] *= s;
 617       q[2] *= s;
 618       q[3] *= s;
 619    }
 620 }
 621
 622 static inline void q_inv( v4f q, v4f d )
 623 {
 624    f32 s = 1.0f / v4_dot(q,q);
 625    d[0] = -q[0]*s;
 626    d[1] = -q[1]*s;
 627    d[2] = -q[2]*s;
 628    d[3] =  q[3]*s;
 629 }
 630
 631 static inline void q_nlerp( v4f a, v4f b, f32 t, v4f d ){
 632    if( v4_dot(a,b) < 0.0f ){
 633       v4f c;
 634       v4_muls( b, -1.0f, c );
 635       v4_lerp( a, c, t, d );
 636    }
 637    else
 638       v4_lerp( a, b, t, d );
 639
 640    q_normalize( d );
 641 }
 642
 643 static inline void q_m3x3( v4f q, m3x3f d )
 644 {
 645    f32
 646       l = v4_length(q),
 647       s = l > 0.0f? 2.0f/l: 0.0f,
 648
 649       xx = s*q[0]*q[0], xy = s*q[0]*q[1], wx = s*q[3]*q[0],
 650       yy = s*q[1]*q[1], yz = s*q[1]*q[2], wy = s*q[3]*q[1],
 651       zz = s*q[2]*q[2], xz = s*q[0]*q[2], wz = s*q[3]*q[2];
 652
 653    d[0][0] = 1.0f - yy - zz;
 654    d[1][1] = 1.0f - xx - zz;
 655    d[2][2] = 1.0f - xx - yy;
 656    d[0][1] = xy + wz;
 657    d[1][2] = yz + wx;
 658    d[2][0] = xz + wy;
 659    d[1][0] = xy - wz;
 660    d[2][1] = yz - wx;
 661    d[0][2] = xz - wy;
 662 }
 663
 664 static void q_mulv( v4f q, v3f v, v3f d )
 665 {
 666    v3f v1, v2;
 667
 668    v3_muls( q, 2.0f*v3_dot(q,v), v1 );
 669    v3_muls( v, q[3]*q[3] - v3_dot(q,q), v2 );
 670    v3_add( v1, v2, v1 );
 671    v3_cross( q, v, v2 );
 672    v3_muls( v2, 2.0f*q[3], v2 );
 673    v3_add( v1, v2, d );
 674 }
 675
 676 /*
 677  * -----------------------------------------------------------------------------
 678  * Section 4.a                  2x2 matrices
 679  * -----------------------------------------------------------------------------
 680  */
 681
 682 #define M2X2_INDENTIY {{1.0f, 0.0f, }, \
 683                        {0.0f, 1.0f, }}
 684
 685 #define M2X2_ZERO     {{0.0f, 0.0f, }, \
 686                        {0.0f, 0.0f, }}
 687
 688 static inline void m2x2_copy( m2x2f a, m2x2f b )
 689 {
 690    v2_copy( a[0], b[0] );
 691    v2_copy( a[1], b[1] );
 692 }
 693
 694 static inline void m2x2_identity( m2x2f a )
 695 {
 696    m2x2f id = M2X2_INDENTIY;
 697    m2x2_copy( id, a );
 698 }
 699
 700 static inline void m2x2_create_rotation( m2x2f a, f32 theta )
 701 {
 702    f32 s, c;
 703
 704    s = sinf( theta );
 705    c = cosf( theta );
 706
 707    a[0][0] =  c;
 708    a[0][1] = -s;
 709    a[1][0] =  s;
 710    a[1][1] =  c;
 711 }
 712
 713 static inline void m2x2_mulv( m2x2f m, v2f v, v2f d )
 714 {
 715    v2f res;
 716
 717    res[0] = m[0][0]*v[0] + m[1][0]*v[1];
 718    res[1] = m[0][1]*v[0] + m[1][1]*v[1];
 719
 720    v2_copy( res, d );
 721 }
 722
 723 /*
 724  * -----------------------------------------------------------------------------
 725  * Section 4.b                  3x3 matrices
 726  * -----------------------------------------------------------------------------
 727  */
 728
 729 #define M3X3_IDENTITY   {{1.0f, 0.0f, 0.0f, },\
 730                         { 0.0f, 1.0f, 0.0f, },\
 731                         { 0.0f, 0.0f, 1.0f, }}
 732
 733 #define M3X3_ZERO       {{0.0f, 0.0f, 0.0f, },\
 734                         { 0.0f, 0.0f, 0.0f, },\
 735                         { 0.0f, 0.0f, 0.0f, }}
 736
 737
 738 static void euler_m3x3( v3f angles, m3x3f d )
 739 {
 740    f32 cosY = cosf( angles[0] ),
 741        sinY = sinf( angles[0] ),
 742        cosP = cosf( angles[1] ),
 743        sinP = sinf( angles[1] ),
 744        cosR = cosf( angles[2] ),
 745        sinR = sinf( angles[2] );
 746
 747    d[2][0] = -sinY * cosP;
 748    d[2][1] =  sinP;
 749    d[2][2] =  cosY * cosP;
 750
 751    d[0][0] =  cosY * cosR;
 752    d[0][1] =  sinR;
 753    d[0][2] =  sinY * cosR;
 754
 755    v3_cross( d[0], d[2], d[1] );
 756 }
 757
 758 static void m3x3_q( m3x3f m, v4f q )
 759 {
 760    f32 diag, r, rinv;
 761
 762    diag = m[0][0] + m[1][1] + m[2][2];
 763    if( diag >= 0.0f )
 764    {
 765       r    = sqrtf( 1.0f + diag );
 766       rinv = 0.5f / r;
 767       q[0] = rinv * (m[1][2] - m[2][1]);
 768       q[1] = rinv * (m[2][0] - m[0][2]);
 769       q[2] = rinv * (m[0][1] - m[1][0]);
 770       q[3] = r    * 0.5f;
 771    }
 772    else if( m[0][0] >= m[1][1] && m[0][0] >= m[2][2] )
 773    {
 774       r    = sqrtf( 1.0f - m[1][1] - m[2][2] + m[0][0] );
 775       rinv = 0.5f / r;
 776       q[0] = r    * 0.5f;
 777       q[1] = rinv * (m[0][1] + m[1][0]);
 778       q[2] = rinv * (m[0][2] + m[2][0]);
 779       q[3] = rinv * (m[1][2] - m[2][1]);
 780    }
 781    else if( m[1][1] >= m[2][2] )
 782    {
 783       r    = sqrtf( 1.0f - m[0][0] - m[2][2] + m[1][1] );
 784       rinv = 0.5f / r;
 785       q[0] = rinv * (m[0][1] + m[1][0]);
 786       q[1] = r    * 0.5f;
 787       q[2] = rinv * (m[1][2] + m[2][1]);
 788       q[3] = rinv * (m[2][0] - m[0][2]);
 789    }
 790    else
 791    {
 792       r    = sqrtf( 1.0f - m[0][0] - m[1][1] + m[2][2] );
 793       rinv = 0.5f / r;
 794       q[0] = rinv * (m[0][2] + m[2][0]);
 795       q[1] = rinv * (m[1][2] + m[2][1]);
 796       q[2] = r    * 0.5f;
 797       q[3] = rinv * (m[0][1] - m[1][0]);
 798    }
 799 }
 800
 801 /* a X b == [b]T a == ...*/
 802 static void m3x3_skew_symetric( m3x3f a, v3f v )
 803 {
 804    a[0][0] =  0.0f;
 805    a[0][1] =  v[2];
 806    a[0][2] = -v[1];
 807    a[1][0] = -v[2];
 808    a[1][1] =  0.0f;
 809    a[1][2] =  v[0];
 810    a[2][0] =  v[1];
 811    a[2][1] = -v[0];
 812    a[2][2] =  0.0f;
 813 }
 814
 815 static void m3x3_add( m3x3f a, m3x3f b, m3x3f d )
 816 {
 817    v3_add( a[0], b[0], d[0] );
 818    v3_add( a[1], b[1], d[1] );
 819    v3_add( a[2], b[2], d[2] );
 820 }
 821
 822 static inline void m3x3_copy( m3x3f a, m3x3f b )
 823 {
 824    v3_copy( a[0], b[0] );
 825    v3_copy( a[1], b[1] );
 826    v3_copy( a[2], b[2] );
 827 }
 828
 829 static inline void m3x3_identity( m3x3f a )
 830 {
 831    m3x3f id = M3X3_IDENTITY;
 832    m3x3_copy( id, a );
 833 }
 834
 835 static void m3x3_diagonal( m3x3f a, f32 v )
 836 {
 837    m3x3_identity( a );
 838    a[0][0] = v;
 839    a[1][1] = v;
 840    a[2][2] = v;
 841 }
 842
 843 static void m3x3_setdiagonalv3( m3x3f a, v3f v )
 844 {
 845    a[0][0] = v[0];
 846    a[1][1] = v[1];
 847    a[2][2] = v[2];
 848 }
 849
 850 static inline void m3x3_zero( m3x3f a )
 851 {
 852    m3x3f z = M3X3_ZERO;
 853    m3x3_copy( z, a );
 854 }
 855
 856 static inline void m3x3_inv( m3x3f src, m3x3f dest )
 857 {
 858    f32 a = src[0][0], b = src[0][1], c = src[0][2],
 859          d = src[1][0], e = src[1][1], f = src[1][2],
 860          g = src[2][0], h = src[2][1], i = src[2][2];
 861
 862    f32 det =    1.f /
 863                (+a*(e*i-h*f)
 864                 -b*(d*i-f*g)
 865                 +c*(d*h-e*g));
 866
 867    dest[0][0] =  (e*i-h*f)*det;
 868    dest[0][1] = -(b*i-c*h)*det;
 869    dest[0][2] =  (b*f-c*e)*det;
 870    dest[1][0] = -(d*i-f*g)*det;
 871    dest[1][1] =  (a*i-c*g)*det;
 872    dest[1][2] = -(a*f-d*c)*det;
 873    dest[2][0] =  (d*h-g*e)*det;
 874    dest[2][1] = -(a*h-g*b)*det;
 875    dest[2][2] =  (a*e-d*b)*det;
 876 }
 877
 878 static f32 m3x3_det( m3x3f m )
 879 {
 880    return   m[0][0] * (m[1][1] * m[2][2] - m[2][1] * m[1][2])
 881           - m[0][1] * (m[1][0] * m[2][2] - m[1][2] * m[2][0])
 882           + m[0][2] * (m[1][0] * m[2][1] - m[1][1] * m[2][0]);
 883 }
 884
 885 static inline void m3x3_transpose( m3x3f src, m3x3f dest )
 886 {
 887    f32 a = src[0][0], b = src[0][1], c = src[0][2],
 888          d = src[1][0], e = src[1][1], f = src[1][2],
 889          g = src[2][0], h = src[2][1], i = src[2][2];
 890
 891    dest[0][0] = a;
 892    dest[0][1] = d;
 893    dest[0][2] = g;
 894    dest[1][0] = b;
 895    dest[1][1] = e;
 896    dest[1][2] = h;
 897    dest[2][0] = c;
 898    dest[2][1] = f;
 899    dest[2][2] = i;
 900 }
 901
 902 static inline void m3x3_mul( m3x3f a, m3x3f b, m3x3f d )
 903 {
 904    f32 a00 = a[0][0], a01 = a[0][1], a02 = a[0][2],
 905          a10 = a[1][0], a11 = a[1][1], a12 = a[1][2],
 906          a20 = a[2][0], a21 = a[2][1], a22 = a[2][2],
 907
 908          b00 = b[0][0], b01 = b[0][1], b02 = b[0][2],
 909          b10 = b[1][0], b11 = b[1][1], b12 = b[1][2],
 910          b20 = b[2][0], b21 = b[2][1], b22 = b[2][2];
 911
 912    d[0][0] = a00*b00 + a10*b01 + a20*b02;
 913    d[0][1] = a01*b00 + a11*b01 + a21*b02;
 914    d[0][2] = a02*b00 + a12*b01 + a22*b02;
 915    d[1][0] = a00*b10 + a10*b11 + a20*b12;
 916    d[1][1] = a01*b10 + a11*b11 + a21*b12;
 917    d[1][2] = a02*b10 + a12*b11 + a22*b12;
 918    d[2][0] = a00*b20 + a10*b21 + a20*b22;
 919    d[2][1] = a01*b20 + a11*b21 + a21*b22;
 920    d[2][2] = a02*b20 + a12*b21 + a22*b22;
 921 }
 922
 923 static inline void m3x3_mulv( m3x3f m, v3f v, v3f d )
 924 {
 925    v3f res;
 926
 927    res[0] = m[0][0]*v[0] + m[1][0]*v[1] + m[2][0]*v[2];
 928    res[1] = m[0][1]*v[0] + m[1][1]*v[1] + m[2][1]*v[2];
 929    res[2] = m[0][2]*v[0] + m[1][2]*v[1] + m[2][2]*v[2];
 930
 931    v3_copy( res, d );
 932 }
 933
 934 static inline void m3x3_projection( m3x3f dst,
 935       f32 const left, f32 const right, f32 const bottom, f32 const top )
 936 {
 937    f32 rl, tb;
 938
 939    m3x3_zero( dst );
 940
 941    rl = 1.0f / (right - left);
 942    tb = 1.0f / (top   - bottom);
 943
 944    dst[0][0] = 2.0f * rl;
 945    dst[1][1] = 2.0f * tb;
 946    dst[2][2] = 1.0f;
 947 }
 948
 949 static inline void m3x3_translate( m3x3f m, v3f v )
 950 {
 951    m[2][0] = m[0][0] * v[0] + m[1][0] * v[1] + m[2][0];
 952    m[2][1] = m[0][1] * v[0] + m[1][1] * v[1] + m[2][1];
 953    m[2][2] = m[0][2] * v[0] + m[1][2] * v[1] + m[2][2];
 954 }
 955
 956 static inline void m3x3_scale( m3x3f m, v3f v )
 957 {
 958    v3_muls( m[0], v[0], m[0] );
 959    v3_muls( m[1], v[1], m[1] );
 960    v3_muls( m[2], v[2], m[2] );
 961 }
 962
 963 static inline void m3x3_scalef( m3x3f m, f32 f )
 964 {
 965    v3f v;
 966    v3_fill( v, f );
 967    m3x3_scale( m, v );
 968 }
 969
 970 static inline void m3x3_rotate( m3x3f m, f32 angle )
 971 {
 972    f32 m00 = m[0][0], m10 = m[1][0],
 973          m01 = m[0][1], m11 = m[1][1],
 974          m02 = m[0][2], m12 = m[1][2];
 975    f32 c, s;
 976
 977    s = sinf( angle );
 978    c = cosf( angle );
 979
 980    m[0][0] = m00 * c + m10 * s;
 981    m[0][1] = m01 * c + m11 * s;
 982    m[0][2] = m02 * c + m12 * s;
 983
 984    m[1][0] = m00 * -s + m10 * c;
 985    m[1][1] = m01 * -s + m11 * c;
 986    m[1][2] = m02 * -s + m12 * c;
 987 }
 988
 989 /*
 990  * -----------------------------------------------------------------------------
 991  * Section 4.c                  4x3 matrices
 992  * -----------------------------------------------------------------------------
 993  */
 994
 995 #define M4X3_IDENTITY   {{1.0f, 0.0f, 0.0f, },\
 996                         { 0.0f, 1.0f, 0.0f, },\
 997                         { 0.0f, 0.0f, 1.0f, },\
 998                         { 0.0f, 0.0f, 0.0f }}
 999
1000 static inline void m4x3_to_3x3( m4x3f a, m3x3f b )
1001 {
1002    v3_copy( a[0], b[0] );
1003    v3_copy( a[1], b[1] );
1004    v3_copy( a[2], b[2] );
1005 }
1006
1007 static inline void m4x3_invert_affine( m4x3f a, m4x3f b )
1008 {
1009    m3x3_transpose( a, b );
1010    m3x3_mulv( b, a[3], b[3] );
1011    v3_negate( b[3], b[3] );
1012 }
1013
1014 static void m4x3_invert_full( m4x3f src, m4x3f dst )
1015 {
1016   f32 t2, t4, t5,
1017         det,
1018         a = src[0][0], b = src[0][1], c = src[0][2],
1019         e = src[1][0], f = src[1][1], g = src[1][2],
1020         i = src[2][0], j = src[2][1], k = src[2][2],
1021         m = src[3][0], n = src[3][1], o = src[3][2];
1022
1023    t2 = j*o - n*k;
1024    t4 = i*o - m*k;
1025    t5 = i*n - m*j;
1026
1027    dst[0][0] =  f*k - g*j;
1028    dst[1][0] =-(e*k - g*i);
1029    dst[2][0] =  e*j - f*i;
1030    dst[3][0] =-(e*t2 - f*t4 + g*t5);
1031
1032    dst[0][1] =-(b*k - c*j);
1033    dst[1][1] =  a*k - c*i;
1034    dst[2][1] =-(a*j - b*i);
1035    dst[3][1] =  a*t2 - b*t4 + c*t5;
1036
1037    t2 = f*o - n*g;
1038    t4 = e*o - m*g;
1039    t5 = e*n - m*f;
1040
1041    dst[0][2] =  b*g - c*f ;
1042    dst[1][2] =-(a*g - c*e );
1043    dst[2][2] =  a*f - b*e ;
1044    dst[3][2] =-(a*t2 - b*t4 + c * t5);
1045
1046    det = 1.0f / (a * dst[0][0] + b * dst[1][0] + c * dst[2][0]);
1047    v3_muls( dst[0], det, dst[0] );
1048    v3_muls( dst[1], det, dst[1] );
1049    v3_muls( dst[2], det, dst[2] );
1050    v3_muls( dst[3], det, dst[3] );
1051 }
1052
1053 static inline void m4x3_copy( m4x3f a, m4x3f b )
1054 {
1055    v3_copy( a[0], b[0] );
1056    v3_copy( a[1], b[1] );
1057    v3_copy( a[2], b[2] );
1058    v3_copy( a[3], b[3] );
1059 }
1060
1061 static inline void m4x3_identity( m4x3f a )
1062 {
1063    m4x3f id = M4X3_IDENTITY;
1064    m4x3_copy( id, a );
1065 }
1066
1067 static void m4x3_mul( m4x3f a, m4x3f b, m4x3f d )
1068 {
1069    f32
1070    a00 = a[0][0], a01 = a[0][1], a02 = a[0][2],
1071    a10 = a[1][0], a11 = a[1][1], a12 = a[1][2],
1072    a20 = a[2][0], a21 = a[2][1], a22 = a[2][2],
1073    a30 = a[3][0], a31 = a[3][1], a32 = a[3][2],
1074    b00 = b[0][0], b01 = b[0][1], b02 = b[0][2],
1075    b10 = b[1][0], b11 = b[1][1], b12 = b[1][2],
1076    b20 = b[2][0], b21 = b[2][1], b22 = b[2][2],
1077    b30 = b[3][0], b31 = b[3][1], b32 = b[3][2];
1078
1079    d[0][0] = a00*b00 + a10*b01 + a20*b02;
1080    d[0][1] = a01*b00 + a11*b01 + a21*b02;
1081    d[0][2] = a02*b00 + a12*b01 + a22*b02;
1082    d[1][0] = a00*b10 + a10*b11 + a20*b12;
1083    d[1][1] = a01*b10 + a11*b11 + a21*b12;
1084    d[1][2] = a02*b10 + a12*b11 + a22*b12;
1085    d[2][0] = a00*b20 + a10*b21 + a20*b22;
1086    d[2][1] = a01*b20 + a11*b21 + a21*b22;
1087    d[2][2] = a02*b20 + a12*b21 + a22*b22;
1088    d[3][0] = a00*b30 + a10*b31 + a20*b32 + a30;
1089    d[3][1] = a01*b30 + a11*b31 + a21*b32 + a31;
1090    d[3][2] = a02*b30 + a12*b31 + a22*b32 + a32;
1091 }
1092
1093 #if 0 /* shat appf mingw wstringop-overflow */
1094 inline
1095 #endif
1096 static void m4x3_mulv( m4x3f m, v3f v, v3f d )
1097 {
1098    v3f res;
1099
1100    res[0] = m[0][0]*v[0] + m[1][0]*v[1] + m[2][0]*v[2] + m[3][0];
1101    res[1] = m[0][1]*v[0] + m[1][1]*v[1] + m[2][1]*v[2] + m[3][1];
1102    res[2] = m[0][2]*v[0] + m[1][2]*v[1] + m[2][2]*v[2] + m[3][2];
1103
1104    v3_copy( res, d );
1105 }
1106
1107 /*
1108  * Transform plane ( xyz, distance )
1109  */
1110 static void m4x3_mulp( m4x3f m, v4f p, v4f d )
1111 {
1112    v3f o;
1113
1114    v3_muls( p, p[3], o );
1115    m4x3_mulv( m, o, o );
1116    m3x3_mulv( m, p, d );
1117
1118    d[3] = v3_dot( o, d );
1119 }
1120
1121 /*
1122  * Affine transforms
1123  */
1124
1125 static void m4x3_translate( m4x3f m, v3f v )
1126 {
1127    v3_muladds( m[3], m[0], v[0], m[3] );
1128    v3_muladds( m[3], m[1], v[1], m[3] );
1129    v3_muladds( m[3], m[2], v[2], m[3] );
1130 }
1131
1132 static void m4x3_rotate_x( m4x3f m, f32 angle )
1133 {
1134    m4x3f t = M4X3_IDENTITY;
1135    f32 c, s;
1136
1137    c = cosf( angle );
1138    s = sinf( angle );
1139
1140    t[1][1] =  c;
1141    t[1][2] =  s;
1142    t[2][1] = -s;
1143    t[2][2] =  c;
1144
1145    m4x3_mul( m, t, m );
1146 }
1147
1148 static void m4x3_rotate_y( m4x3f m, f32 angle )
1149 {
1150    m4x3f t = M4X3_IDENTITY;
1151    f32 c, s;
1152
1153    c = cosf( angle );
1154    s = sinf( angle );
1155
1156    t[0][0] =  c;
1157    t[0][2] = -s;
1158    t[2][0] =  s;
1159    t[2][2] =  c;
1160
1161    m4x3_mul( m, t, m );
1162 }
1163
1164 static void m4x3_rotate_z( m4x3f m, f32 angle )
1165 {
1166    m4x3f t = M4X3_IDENTITY;
1167    f32 c, s;
1168
1169    c = cosf( angle );
1170    s = sinf( angle );
1171
1172    t[0][0] =  c;
1173    t[0][1] =  s;
1174    t[1][0] = -s;
1175    t[1][1] =  c;
1176
1177    m4x3_mul( m, t, m );
1178 }
1179
1180 static void m4x3_expand( m4x3f m, m4x4f d )
1181 {
1182    v3_copy( m[0], d[0] );
1183    v3_copy( m[1], d[1] );
1184    v3_copy( m[2], d[2] );
1185    v3_copy( m[3], d[3] );
1186    d[0][3] = 0.0f;
1187    d[1][3] = 0.0f;
1188    d[2][3] = 0.0f;
1189    d[3][3] = 1.0f;
1190 }
1191
1192 static void m4x3_decompose( m4x3f m, v3f co, v4f q, v3f s )
1193 {
1194    v3_copy( m[3], co );
1195    s[0] = v3_length(m[0]);
1196    s[1] = v3_length(m[1]);
1197    s[2] = v3_length(m[2]);
1198
1199    m3x3f rot;
1200    v3_divs( m[0], s[0], rot[0] );
1201    v3_divs( m[1], s[1], rot[1] );
1202    v3_divs( m[2], s[2], rot[2] );
1203
1204    m3x3_q( rot, q );
1205 }
1206
1207 static void m4x3_expand_aabb_point( m4x3f m, boxf box, v3f point ){
1208    v3f v;
1209    m4x3_mulv( m, point, v );
1210
1211    v3_minv( box[0], v, box[0] );
1212    v3_maxv( box[1], v, box[1] );
1213 }
1214
1215 static void m4x3_expand_aabb_aabb( m4x3f m, boxf boxa, boxf boxb ){
1216    v3f a; v3f b;
1217    v3_copy( boxb[0], a );
1218    v3_copy( boxb[1], b );
1219    m4x3_expand_aabb_point( m, boxa, (v3f){ a[0], a[1], a[2] } );
1220    m4x3_expand_aabb_point( m, boxa, (v3f){ a[0], b[1], a[2] } );
1221    m4x3_expand_aabb_point( m, boxa, (v3f){ b[0], b[1], a[2] } );
1222    m4x3_expand_aabb_point( m, boxa, (v3f){ b[0], a[1], a[2] } );
1223    m4x3_expand_aabb_point( m, boxa, (v3f){ a[0], a[1], b[2] } );
1224    m4x3_expand_aabb_point( m, boxa, (v3f){ a[0], b[1], b[2] } );
1225    m4x3_expand_aabb_point( m, boxa, (v3f){ b[0], b[1], b[2] } );
1226    m4x3_expand_aabb_point( m, boxa, (v3f){ b[0], a[1], b[2] } );
1227 }
1228 static inline void m4x3_lookat( m4x3f m, v3f pos, v3f target, v3f up )
1229 {
1230    v3f dir;
1231    v3_sub( target, pos, dir );
1232    v3_normalize( dir );
1233
1234    v3_copy( dir, m[2] );
1235
1236    v3_cross( up, m[2], m[0] );
1237    v3_normalize( m[0] );
1238
1239    v3_cross( m[2], m[0], m[1] );
1240    v3_copy( pos, m[3] );
1241 }
1242
1243 /*
1244  * -----------------------------------------------------------------------------
1245  * Section 4.d                  4x4 matrices
1246  * -----------------------------------------------------------------------------
1247  */
1248
1249 #define M4X4_IDENTITY   {{1.0f, 0.0f, 0.0f, 0.0f },\
1250                         { 0.0f, 1.0f, 0.0f, 0.0f },\
1251                         { 0.0f, 0.0f, 1.0f, 0.0f },\
1252                         { 0.0f, 0.0f, 0.0f, 1.0f }}
1253 #define M4X4_ZERO       {{0.0f, 0.0f, 0.0f, 0.0f },\
1254                         { 0.0f, 0.0f, 0.0f, 0.0f },\
1255                         { 0.0f, 0.0f, 0.0f, 0.0f },\
1256                         { 0.0f, 0.0f, 0.0f, 0.0f }}
1257
1258 static void m4x4_projection( m4x4f m, f32 angle,
1259                              f32 ratio, f32 fnear, f32 ffar )
1260 {
1261    f32 scale = tanf( angle * 0.5f * VG_PIf / 180.0f ) * fnear,
1262          r = ratio * scale,
1263          l = -r,
1264          t = scale,
1265          b = -t;
1266
1267    m[0][0] =  2.0f * fnear / (r - l);
1268    m[0][1] =  0.0f;
1269    m[0][2] =  0.0f;
1270    m[0][3] =  0.0f;
1271
1272    m[1][0] =  0.0f;
1273    m[1][1] =  2.0f * fnear / (t - b);
1274    m[1][2] =  0.0f;
1275    m[1][3] =  0.0f;
1276
1277    m[2][0] =  (r + l) / (r - l);
1278    m[2][1] =  (t + b) / (t - b);
1279    m[2][2] = -(ffar + fnear) / (ffar - fnear);
1280    m[2][3] = -1.0f;
1281
1282    m[3][0] =  0.0f;
1283    m[3][1] =  0.0f;
1284    m[3][2] = -2.0f * ffar * fnear / (ffar - fnear);
1285    m[3][3] =  0.0f;
1286 }
1287
1288 static void m4x4_translate( m4x4f m, v3f v )
1289 {
1290    v4_muladds( m[3], m[0], v[0], m[3] );
1291    v4_muladds( m[3], m[1], v[1], m[3] );
1292    v4_muladds( m[3], m[2], v[2], m[3] );
1293 }
1294
1295 static inline void m4x4_copy( m4x4f a, m4x4f b )
1296 {
1297    v4_copy( a[0], b[0] );
1298    v4_copy( a[1], b[1] );
1299    v4_copy( a[2], b[2] );
1300    v4_copy( a[3], b[3] );
1301 }
1302
1303 static inline void m4x4_identity( m4x4f a )
1304 {
1305    m4x4f id = M4X4_IDENTITY;
1306    m4x4_copy( id, a );
1307 }
1308
1309 static inline void m4x4_zero( m4x4f a )
1310 {
1311    m4x4f zero = M4X4_ZERO;
1312    m4x4_copy( zero, a );
1313 }
1314
1315 static inline void m4x4_mul( m4x4f a, m4x4f b, m4x4f d )
1316 {
1317    f32 a00 = a[0][0], a01 = a[0][1], a02 = a[0][2], a03 = a[0][3],
1318          a10 = a[1][0], a11 = a[1][1], a12 = a[1][2], a13 = a[1][3],
1319          a20 = a[2][0], a21 = a[2][1], a22 = a[2][2], a23 = a[2][3],
1320          a30 = a[3][0], a31 = a[3][1], a32 = a[3][2], a33 = a[3][3],
1321
1322          b00 = b[0][0], b01 = b[0][1], b02 = b[0][2], b03 = b[0][3],
1323          b10 = b[1][0], b11 = b[1][1], b12 = b[1][2], b13 = b[1][3],
1324          b20 = b[2][0], b21 = b[2][1], b22 = b[2][2], b23 = b[2][3],
1325          b30 = b[3][0], b31 = b[3][1], b32 = b[3][2], b33 = b[3][3];
1326
1327   d[0][0] = a00*b00 + a10*b01 + a20*b02 + a30*b03;
1328   d[0][1] = a01*b00 + a11*b01 + a21*b02 + a31*b03;
1329   d[0][2] = a02*b00 + a12*b01 + a22*b02 + a32*b03;
1330   d[0][3] = a03*b00 + a13*b01 + a23*b02 + a33*b03;
1331   d[1][0] = a00*b10 + a10*b11 + a20*b12 + a30*b13;
1332   d[1][1] = a01*b10 + a11*b11 + a21*b12 + a31*b13;
1333   d[1][2] = a02*b10 + a12*b11 + a22*b12 + a32*b13;
1334   d[1][3] = a03*b10 + a13*b11 + a23*b12 + a33*b13;
1335   d[2][0] = a00*b20 + a10*b21 + a20*b22 + a30*b23;
1336   d[2][1] = a01*b20 + a11*b21 + a21*b22 + a31*b23;
1337   d[2][2] = a02*b20 + a12*b21 + a22*b22 + a32*b23;
1338   d[2][3] = a03*b20 + a13*b21 + a23*b22 + a33*b23;
1339   d[3][0] = a00*b30 + a10*b31 + a20*b32 + a30*b33;
1340   d[3][1] = a01*b30 + a11*b31 + a21*b32 + a31*b33;
1341   d[3][2] = a02*b30 + a12*b31 + a22*b32 + a32*b33;
1342   d[3][3] = a03*b30 + a13*b31 + a23*b32 + a33*b33;
1343 }
1344
1345 static inline void m4x4_mulv( m4x4f m, v4f v, v4f d )
1346 {
1347    v4f res;
1348
1349    res[0] = m[0][0]*v[0] + m[1][0]*v[1] + m[2][0]*v[2] + m[3][0]*v[3];
1350    res[1] = m[0][1]*v[0] + m[1][1]*v[1] + m[2][1]*v[2] + m[3][1]*v[3];
1351    res[2] = m[0][2]*v[0] + m[1][2]*v[1] + m[2][2]*v[2] + m[3][2]*v[3];
1352    res[3] = m[0][3]*v[0] + m[1][3]*v[1] + m[2][3]*v[2] + m[3][3]*v[3];
1353
1354    v4_copy( res, d );
1355 }
1356
1357 static inline void m4x4_inv( m4x4f a, m4x4f d )
1358 {
1359    f32 a00 = a[0][0], a01 = a[0][1], a02 = a[0][2], a03 = a[0][3],
1360          a10 = a[1][0], a11 = a[1][1], a12 = a[1][2], a13 = a[1][3],
1361          a20 = a[2][0], a21 = a[2][1], a22 = a[2][2], a23 = a[2][3],
1362          a30 = a[3][0], a31 = a[3][1], a32 = a[3][2], a33 = a[3][3],
1363          det,
1364          t[6];
1365
1366    t[0] = a22*a33 - a32*a23;
1367    t[1] = a21*a33 - a31*a23;
1368    t[2] = a21*a32 - a31*a22;
1369    t[3] = a20*a33 - a30*a23;
1370    t[4] = a20*a32 - a30*a22;
1371    t[5] = a20*a31 - a30*a21;
1372
1373    d[0][0] =  a11*t[0] - a12*t[1] + a13*t[2];
1374    d[1][0] =-(a10*t[0] - a12*t[3] + a13*t[4]);
1375    d[2][0] =  a10*t[1] - a11*t[3] + a13*t[5];
1376    d[3][0] =-(a10*t[2] - a11*t[4] + a12*t[5]);
1377
1378    d[0][1] =-(a01*t[0] - a02*t[1] + a03*t[2]);
1379    d[1][1] =  a00*t[0] - a02*t[3] + a03*t[4];
1380    d[2][1] =-(a00*t[1] - a01*t[3] + a03*t[5]);
1381    d[3][1] =  a00*t[2] - a01*t[4] + a02*t[5];
1382
1383    t[0] = a12*a33 - a32*a13;
1384    t[1] = a11*a33 - a31*a13;
1385    t[2] = a11*a32 - a31*a12;
1386    t[3] = a10*a33 - a30*a13;
1387    t[4] = a10*a32 - a30*a12;
1388    t[5] = a10*a31 - a30*a11;
1389
1390    d[0][2] =  a01*t[0] - a02*t[1] + a03*t[2];
1391    d[1][2] =-(a00*t[0] - a02*t[3] + a03*t[4]);
1392    d[2][2] =  a00*t[1] - a01*t[3] + a03*t[5];
1393    d[3][2] =-(a00*t[2] - a01*t[4] + a02*t[5]);
1394
1395    t[0] = a12*a23 - a22*a13;
1396    t[1] = a11*a23 - a21*a13;
1397    t[2] = a11*a22 - a21*a12;
1398    t[3] = a10*a23 - a20*a13;
1399    t[4] = a10*a22 - a20*a12;
1400    t[5] = a10*a21 - a20*a11;
1401
1402    d[0][3] =-(a01*t[0] - a02*t[1] + a03*t[2]);
1403    d[1][3] =  a00*t[0] - a02*t[3] + a03*t[4];
1404    d[2][3] =-(a00*t[1] - a01*t[3] + a03*t[5]);
1405    d[3][3] =  a00*t[2] - a01*t[4] + a02*t[5];
1406
1407    det = 1.0f / (a00*d[0][0] + a01*d[1][0] + a02*d[2][0] + a03*d[3][0]);
1408    v4_muls( d[0], det, d[0] );
1409    v4_muls( d[1], det, d[1] );
1410    v4_muls( d[2], det, d[2] );
1411    v4_muls( d[3], det, d[3] );
1412 }
1413
1414 /*
1415  * -----------------------------------------------------------------------------
1416  * Section 5.a                       Boxes
1417  * -----------------------------------------------------------------------------
1418  */
1419
1420 static inline void box_addpt( boxf a, v3f pt )
1421 {
1422    v3_minv( a[0], pt, a[0] );
1423    v3_maxv( a[1], pt, a[1] );
1424 }
1425
1426 static inline void box_concat( boxf a, boxf b )
1427 {
1428    v3_minv( a[0], b[0], a[0] );
1429    v3_maxv( a[1], b[1], a[1] );
1430 }
1431
1432 static inline void box_copy( boxf a, boxf b )
1433 {
1434    v3_copy( a[0], b[0] );
1435    v3_copy( a[1], b[1] );
1436 }
1437
1438 static inline int box_overlap( boxf a, boxf b )
1439 {
1440    return
1441    ( a[0][0] <= b[1][0] && a[1][0] >= b[0][0] ) &&
1442    ( a[0][1] <= b[1][1] && a[1][1] >= b[0][1] ) &&
1443    ( a[0][2] <= b[1][2] && a[1][2] >= b[0][2] )
1444    ;
1445 }
1446
1447 static int box_within( boxf greater, boxf lesser )
1448 {
1449    v3f a, b;
1450    v3_sub( lesser[0], greater[0], a );
1451    v3_sub( lesser[1], greater[1], b );
1452
1453    if( (a[0] >= 0.0f) && (a[1] >= 0.0f) && (a[2] >= 0.0f) &&
1454        (b[0] <= 0.0f) && (b[1] <= 0.0f) && (b[2] <= 0.0f) )
1455    {
1456       return 1;
1457    }
1458
1459    return 0;
1460 }
1461
1462 static inline void box_init_inf( boxf box ){
1463    v3_fill( box[0],  INFINITY );
1464    v3_fill( box[1], -INFINITY );
1465 }
1466
1467 /*
1468  * -----------------------------------------------------------------------------
1469  * Section 5.b                       Planes
1470  * -----------------------------------------------------------------------------
1471  */
1472
1473 static inline void tri_to_plane( f64 a[3], f64 b[3],
1474       f64 c[3], f64 p[4] )
1475 {
1476    f64 edge0[3];
1477    f64 edge1[3];
1478    f64 l;
1479
1480    edge0[0] = b[0] - a[0];
1481    edge0[1] = b[1] - a[1];
1482    edge0[2] = b[2] - a[2];
1483
1484    edge1[0] = c[0] - a[0];
1485    edge1[1] = c[1] - a[1];
1486    edge1[2] = c[2] - a[2];
1487
1488    p[0] = edge0[1] * edge1[2] - edge0[2] * edge1[1];
1489    p[1] = edge0[2] * edge1[0] - edge0[0] * edge1[2];
1490    p[2] = edge0[0] * edge1[1] - edge0[1] * edge1[0];
1491
1492    l = sqrt(p[0] * p[0] + p[1] * p[1] + p[2] * p[2]);
1493    p[3] = (p[0] * a[0] + p[1] * a[1] + p[2] * a[2]) / l;
1494
1495    p[0] = p[0] / l;
1496    p[1] = p[1] / l;
1497    p[2] = p[2] / l;
1498 }
1499
1500 static int plane_intersect3( v4f a, v4f b, v4f c, v3f p )
1501 {
1502    f32 const epsilon = 1e-6f;
1503
1504    v3f x;
1505    v3_cross( a, b, x );
1506    f32 d = v3_dot( x, c );
1507
1508    if( (d < epsilon) && (d > -epsilon) ) return 0;
1509
1510    v3f v0, v1, v2;
1511    v3_cross( b, c, v0 );
1512    v3_cross( c, a, v1 );
1513    v3_cross( a, b, v2 );
1514
1515    v3_muls(       v0, a[3], p );
1516    v3_muladds( p, v1, b[3], p );
1517    v3_muladds( p, v2, c[3], p );
1518    v3_divs( p, d, p );
1519
1520    return 1;
1521 }
1522
1523 int plane_intersect2( v4f a, v4f b, v3f p, v3f n )
1524 {
1525    f32 const epsilon = 1e-6f;
1526
1527    v4f c;
1528    v3_cross( a, b, c );
1529    f32 d = v3_length2( c );
1530
1531    if( (d < epsilon) && (d > -epsilon) )
1532       return 0;
1533
1534    v3f v0, v1, vx;
1535    v3_cross( c, b, v0 );
1536    v3_cross( a, c, v1 );
1537
1538    v3_muls( v0, a[3], vx );
1539    v3_muladds( vx, v1, b[3], vx );
1540    v3_divs( vx, d, p );
1541    v3_copy( c, n );
1542
1543    return 1;
1544 }
1545
1546 static int plane_segment( v4f plane, v3f a, v3f b, v3f co )
1547 {
1548    f32 d0 = v3_dot( a, plane ) - plane[3],
1549        d1 = v3_dot( b, plane ) - plane[3];
1550
1551    if( d0*d1 < 0.0f )
1552    {
1553       f32 tot = 1.0f/( fabsf(d0)+fabsf(d1) );
1554
1555       v3_muls( a, fabsf(d1) * tot, co );
1556       v3_muladds( co, b, fabsf(d0) * tot, co );
1557       return 1;
1558    }
1559
1560    return 0;
1561 }
1562
1563 static inline f64 plane_polarity( f64 p[4], f64 a[3] )
1564 {
1565    return
1566    (a[0] * p[0] + a[1] * p[1] + a[2] * p[2])
1567    -(p[0]*p[3] * p[0] + p[1]*p[3] * p[1] + p[2]*p[3] * p[2])
1568    ;
1569 }
1570
1571 static f32 ray_plane( v4f plane, v3f co, v3f dir ){
1572    f32 d = v3_dot( plane, dir );
1573    if( fabsf(d) > 1e-6f ){
1574       v3f v0;
1575       v3_muls( plane, plane[3], v0 );
1576       v3_sub( v0, co, v0 );
1577       return v3_dot( v0, plane ) / d;
1578    }
1579    else return INFINITY;
1580 }
1581
1582 /*
1583  * -----------------------------------------------------------------------------
1584  * Section 5.c            Closest point functions
1585  * -----------------------------------------------------------------------------
1586  */
1587
1588 /*
1589  * These closest point tests were learned from Real-Time Collision Detection by
1590  * Christer Ericson
1591  */
1592 static f32 closest_segment_segment( v3f p1, v3f q1, v3f p2, v3f q2,
1593    f32 *s, f32 *t, v3f c1, v3f c2)
1594 {
1595    v3f d1,d2,r;
1596    v3_sub( q1, p1, d1 );
1597    v3_sub( q2, p2, d2 );
1598    v3_sub( p1, p2, r );
1599
1600    f32 a = v3_length2( d1 ),
1601          e = v3_length2( d2 ),
1602          f = v3_dot( d2, r );
1603
1604    const f32 kEpsilon = 0.0001f;
1605
1606    if( a <= kEpsilon && e <= kEpsilon )
1607    {
1608       *s = 0.0f;
1609       *t = 0.0f;
1610       v3_copy( p1, c1 );
1611       v3_copy( p2, c2 );
1612
1613       v3f v0;
1614       v3_sub( c1, c2, v0 );
1615
1616       return v3_length2( v0 );
1617    }
1618
1619    if( a<= kEpsilon )
1620    {
1621       *s = 0.0f;
1622       *t = vg_clampf( f / e, 0.0f, 1.0f );
1623    }
1624    else
1625    {
1626       f32 c = v3_dot( d1, r );
1627       if( e <= kEpsilon )
1628       {
1629          *t = 0.0f;
1630          *s = vg_clampf( -c / a, 0.0f, 1.0f );
1631       }
1632       else
1633       {
1634          f32 b = v3_dot(d1,d2),
1635                d = a*e-b*b;
1636
1637          if( d != 0.0f )
1638          {
1639             *s = vg_clampf((b*f - c*e)/d, 0.0f, 1.0f);
1640          }
1641          else
1642          {
1643             *s = 0.0f;
1644          }
1645
1646          *t = (b*(*s)+f) / e;
1647
1648          if( *t < 0.0f )
1649          {
1650             *t = 0.0f;
1651             *s = vg_clampf( -c / a, 0.0f, 1.0f );
1652          }
1653          else if( *t > 1.0f )
1654          {
1655             *t = 1.0f;
1656             *s = vg_clampf((b-c)/a,0.0f,1.0f);
1657          }
1658       }
1659    }
1660
1661    v3_muladds( p1, d1, *s, c1 );
1662    v3_muladds( p2, d2, *t, c2 );
1663
1664    v3f v0;
1665    v3_sub( c1, c2, v0 );
1666    return v3_length2( v0 );
1667 }
1668
1669 static int point_inside_aabb( boxf box, v3f point )
1670 {
1671    if((point[0]<=box[1][0]) && (point[1]<=box[1][1]) && (point[2]<=box[1][2]) &&
1672       (point[0]>=box[0][0]) && (point[1]>=box[0][1]) && (point[2]>=box[0][2]) )
1673       return 1;
1674    else
1675       return 0;
1676 }
1677
1678 static void closest_point_aabb( v3f p, boxf box, v3f dest )
1679 {
1680    v3_maxv( p, box[0], dest );
1681    v3_minv( dest, box[1], dest );
1682 }
1683
1684 static void closest_point_obb( v3f p, boxf box,
1685                                   m4x3f mtx, m4x3f inv_mtx, v3f dest )
1686 {
1687    v3f local;
1688    m4x3_mulv( inv_mtx, p, local );
1689    closest_point_aabb( local, box, local );
1690    m4x3_mulv( mtx, local, dest );
1691 }
1692
1693 static f32 closest_point_segment( v3f a, v3f b, v3f point, v3f dest )
1694 {
1695    v3f v0, v1;
1696    v3_sub( b, a, v0 );
1697    v3_sub( point, a, v1 );
1698
1699    f32 t = v3_dot( v1, v0 ) / v3_length2(v0);
1700    t = vg_clampf(t,0.0f,1.0f);
1701    v3_muladds( a, v0, t, dest );
1702    return t;
1703 }
1704
1705 static void closest_on_triangle( v3f p, v3f tri[3], v3f dest )
1706 {
1707    v3f ab, ac, ap;
1708    f32 d1, d2;
1709
1710    /* Region outside A */
1711    v3_sub( tri[1], tri[0], ab );
1712    v3_sub( tri[2], tri[0], ac );
1713    v3_sub( p, tri[0], ap );
1714
1715    d1 = v3_dot(ab,ap);
1716    d2 = v3_dot(ac,ap);
1717    if( d1 <= 0.0f && d2 <= 0.0f )
1718    {
1719       v3_copy( tri[0], dest );
1720       v3_copy( (v3f){INFINITY,INFINITY,INFINITY}, dest );
1721       return;
1722    }
1723
1724    /* Region outside B */
1725    v3f bp;
1726    f32 d3, d4;
1727
1728    v3_sub( p, tri[1], bp );
1729    d3 = v3_dot( ab, bp );
1730    d4 = v3_dot( ac, bp );
1731
1732    if( d3 >= 0.0f && d4 <= d3 )
1733    {
1734       v3_copy( tri[1], dest );
1735       v3_copy( (v3f){INFINITY,INFINITY,INFINITY}, dest );
1736       return;
1737    }
1738
1739    /* Edge region of AB */
1740    f32 vc = d1*d4 - d3*d2;
1741    if( vc <= 0.0f && d1 >= 0.0f && d3 <= 0.0f )
1742    {
1743       f32 v = d1 / (d1-d3);
1744       v3_muladds( tri[0], ab, v, dest );
1745       v3_copy( (v3f){INFINITY,INFINITY,INFINITY}, dest );
1746       return;
1747    }
1748
1749    /* Region outside C */
1750    v3f cp;
1751    f32 d5, d6;
1752    v3_sub( p, tri[2], cp );
1753    d5 = v3_dot(ab, cp);
1754    d6 = v3_dot(ac, cp);
1755
1756    if( d6 >= 0.0f && d5 <= d6 )
1757    {
1758       v3_copy( tri[2], dest );
1759       v3_copy( (v3f){INFINITY,INFINITY,INFINITY}, dest );
1760       return;
1761    }
1762
1763    /* Region of AC */
1764    f32 vb = d5*d2 - d1*d6;
1765    if( vb <= 0.0f && d2 >= 0.0f && d6 <= 0.0f )
1766    {
1767       f32 w = d2 / (d2-d6);
1768       v3_muladds( tri[0], ac, w, dest );
1769       v3_copy( (v3f){INFINITY,INFINITY,INFINITY}, dest );
1770       return;
1771    }
1772
1773    /* Region of BC */
1774    f32 va = d3*d6 - d5*d4;
1775    if( va <= 0.0f && (d4-d3) >= 0.0f && (d5-d6) >= 0.0f )
1776    {
1777       f32 w = (d4-d3) / ((d4-d3) + (d5-d6));
1778       v3f bc;
1779       v3_sub( tri[2], tri[1], bc );
1780       v3_muladds( tri[1], bc, w, dest );
1781       v3_copy( (v3f){INFINITY,INFINITY,INFINITY}, dest );
1782       return;
1783    }
1784
1785    /* P inside region, Q via barycentric coordinates uvw */
1786    f32 d = 1.0f/(va+vb+vc),
1787          v = vb*d,
1788          w = vc*d;
1789
1790    v3_muladds( tri[0], ab, v, dest );
1791    v3_muladds( dest, ac, w, dest );
1792 }
1793
1794 enum contact_type
1795 {
1796    k_contact_type_default,
1797    k_contact_type_disabled,
1798    k_contact_type_edge
1799 };
1800
1801 static enum contact_type closest_on_triangle_1( v3f p, v3f tri[3], v3f dest )
1802 {
1803    v3f ab, ac, ap;
1804    f32 d1, d2;
1805
1806    /* Region outside A */
1807    v3_sub( tri[1], tri[0], ab );
1808    v3_sub( tri[2], tri[0], ac );
1809    v3_sub( p, tri[0], ap );
1810
1811    d1 = v3_dot(ab,ap);
1812    d2 = v3_dot(ac,ap);
1813    if( d1 <= 0.0f && d2 <= 0.0f )
1814    {
1815       v3_copy( tri[0], dest );
1816       return k_contact_type_default;
1817    }
1818
1819    /* Region outside B */
1820    v3f bp;
1821    f32 d3, d4;
1822
1823    v3_sub( p, tri[1], bp );
1824    d3 = v3_dot( ab, bp );
1825    d4 = v3_dot( ac, bp );
1826
1827    if( d3 >= 0.0f && d4 <= d3 )
1828    {
1829       v3_copy( tri[1], dest );
1830       return k_contact_type_edge;
1831    }
1832
1833    /* Edge region of AB */
1834    f32 vc = d1*d4 - d3*d2;
1835    if( vc <= 0.0f && d1 >= 0.0f && d3 <= 0.0f )
1836    {
1837       f32 v = d1 / (d1-d3);
1838       v3_muladds( tri[0], ab, v, dest );
1839       return k_contact_type_edge;
1840    }
1841
1842    /* Region outside C */
1843    v3f cp;
1844    f32 d5, d6;
1845    v3_sub( p, tri[2], cp );
1846    d5 = v3_dot(ab, cp);
1847    d6 = v3_dot(ac, cp);
1848
1849    if( d6 >= 0.0f && d5 <= d6 )
1850    {
1851       v3_copy( tri[2], dest );
1852       return k_contact_type_edge;
1853    }
1854
1855    /* Region of AC */
1856    f32 vb = d5*d2 - d1*d6;
1857    if( vb <= 0.0f && d2 >= 0.0f && d6 <= 0.0f )
1858    {
1859       f32 w = d2 / (d2-d6);
1860       v3_muladds( tri[0], ac, w, dest );
1861       return k_contact_type_edge;
1862    }
1863
1864    /* Region of BC */
1865    f32 va = d3*d6 - d5*d4;
1866    if( va <= 0.0f && (d4-d3) >= 0.0f && (d5-d6) >= 0.0f )
1867    {
1868       f32 w = (d4-d3) / ((d4-d3) + (d5-d6));
1869       v3f bc;
1870       v3_sub( tri[2], tri[1], bc );
1871       v3_muladds( tri[1], bc, w, dest );
1872       return k_contact_type_edge;
1873    }
1874
1875    /* P inside region, Q via barycentric coordinates uvw */
1876    f32 d = 1.0f/(va+vb+vc),
1877          v = vb*d,
1878          w = vc*d;
1879
1880    v3_muladds( tri[0], ab, v, dest );
1881    v3_muladds( dest, ac, w, dest );
1882
1883    return k_contact_type_default;
1884 }
1885
1886 static void closest_point_elipse( v2f p, v2f e, v2f o )
1887 {
1888    v2f pabs, ei, e2, ve, t;
1889
1890    v2_abs( p, pabs );
1891    v2_div( (v2f){ 1.0f, 1.0f }, e, ei );
1892    v2_mul( e, e, e2 );
1893    v2_mul( ei, (v2f){ e2[0]-e2[1], e2[1]-e2[0] }, ve );
1894
1895    v2_fill( t, 0.70710678118654752f );
1896
1897    for( int i=0; i<3; i++ ){
1898       v2f v, u, ud, w;
1899
1900       v2_mul( ve, t, v );  /* ve*t*t*t */
1901       v2_mul( v, t, v );
1902       v2_mul( v, t, v );
1903
1904       v2_sub( pabs, v, u );
1905       v2_normalize( u );
1906
1907       v2_mul( t, e, ud );
1908       v2_sub( ud, v, ud );
1909
1910       v2_muls( u, v2_length( ud ), u );
1911
1912       v2_add( v, u, w );
1913       v2_mul( w, ei, w );
1914
1915       v2_maxv( (v2f){0.0f,0.0f}, w, t );
1916       v2_normalize( t );
1917    }
1918
1919    v2_mul( t, e, o );
1920    v2_copysign( o, p );
1921 }
1922
1923 /*
1924  * -----------------------------------------------------------------------------
1925  * Section 5.d               Raycasts & Spherecasts
1926  * -----------------------------------------------------------------------------
1927  */
1928
1929 int ray_aabb1( boxf box, v3f co, v3f dir_inv, f32 dist )
1930 {
1931    v3f v0, v1;
1932    f32 tmin, tmax;
1933
1934    v3_sub( box[0], co, v0 );
1935    v3_sub( box[1], co, v1 );
1936
1937    v3_mul( v0, dir_inv, v0 );
1938    v3_mul( v1, dir_inv, v1 );
1939
1940    tmin = vg_minf( v0[0], v1[0] );
1941    tmax = vg_maxf( v0[0], v1[0] );
1942    tmin = vg_maxf( tmin, vg_minf( v0[1], v1[1] ));
1943    tmax = vg_minf( tmax, vg_maxf( v0[1], v1[1] ));
1944    tmin = vg_maxf( tmin, vg_minf( v0[2], v1[2] ));
1945    tmax = vg_minf( tmax, vg_maxf( v0[2], v1[2] ));
1946
1947    return (tmax >= tmin) && (tmin <= dist) && (tmax >= 0.0f);
1948 }
1949
1950 /* Time of intersection with ray vs triangle */
1951 static int ray_tri( v3f tri[3], v3f co,
1952                     v3f dir, f32 *dist )
1953 {
1954    f32 const kEpsilon = 0.00001f;
1955
1956    v3f v0, v1, h, s, q, n;
1957    f32 a,f,u,v,t;
1958
1959    f32 *pa = tri[0],
1960          *pb = tri[1],
1961          *pc = tri[2];
1962
1963    v3_sub( pb, pa, v0 );
1964    v3_sub( pc, pa, v1 );
1965    v3_cross( dir, v1, h );
1966    v3_cross( v0, v1, n );
1967
1968    if( v3_dot( n, dir ) > 0.0f ) /* Backface culling */
1969       return 0;
1970
1971    /* Parralel */
1972    a = v3_dot( v0, h );
1973
1974    if( a > -kEpsilon && a < kEpsilon )
1975       return 0;
1976
1977    f = 1.0f/a;
1978    v3_sub( co, pa, s );
1979
1980    u = f * v3_dot(s, h);
1981    if( u < 0.0f || u > 1.0f )
1982       return 0;
1983
1984    v3_cross( s, v0, q );
1985    v = f * v3_dot( dir, q );
1986    if( v < 0.0f || u+v > 1.0f )
1987       return 0;
1988
1989    t = f * v3_dot(v1, q);
1990    if( t > kEpsilon )
1991    {
1992       *dist = t;
1993       return 1;
1994    }
1995    else return 0;
1996 }
1997
1998 /* time of intersection with ray vs sphere */
1999 static int ray_sphere( v3f c, f32 r,
2000                        v3f co, v3f dir, f32 *t )
2001 {
2002    v3f m;
2003    v3_sub( co, c, m );
2004
2005    f32 b  = v3_dot( m, dir ),
2006          c1 = v3_dot( m, m ) - r*r;
2007
2008    /* Exit if r’s origin outside s (c > 0) and r pointing away from s (b > 0) */
2009    if( c1 > 0.0f && b > 0.0f )
2010       return 0;
2011
2012    f32 discr = b*b - c1;
2013
2014    /* A negative discriminant corresponds to ray missing sphere */
2015    if( discr < 0.0f )
2016       return 0;
2017
2018    /*
2019     * Ray now found to intersect sphere, compute smallest t value of
2020     * intersection
2021     */
2022    *t = -b - sqrtf( discr );
2023
2024    /* If t is negative, ray started inside sphere so clamp t to zero */
2025    if( *t < 0.0f )
2026       *t = 0.0f;
2027
2028    return 1;
2029 }
2030
2031 /*
2032  * time of intersection of ray vs cylinder
2033  * The cylinder does not have caps but is finite
2034  *
2035  * Heavily adapted from regular segment vs cylinder from:
2036  *    Real-Time Collision Detection
2037  */
2038 static int ray_uncapped_finite_cylinder( v3f q, v3f p, f32 r,
2039                                          v3f co, v3f dir, f32 *t )
2040 {
2041    v3f d, m, n, sb;
2042    v3_muladds( co, dir, 1.0f, sb );
2043
2044    v3_sub( q, p, d );
2045    v3_sub( co, p, m );
2046    v3_sub( sb, co, n );
2047
2048    f32 md = v3_dot( m, d ),
2049          nd = v3_dot( n, d ),
2050          dd = v3_dot( d, d ),
2051          nn = v3_dot( n, n ),
2052          mn = v3_dot( m, n ),
2053          a  = dd*nn - nd*nd,
2054          k  = v3_dot( m, m ) - r*r,
2055          c  = dd*k - md*md;
2056
2057    if( fabsf(a) < 0.00001f )
2058    {
2059       /* Segment runs parallel to cylinder axis */
2060       return 0;
2061    }
2062
2063    f32 b     = dd*mn - nd*md,
2064          discr = b*b - a*c;
2065
2066    if( discr < 0.0f )
2067       return 0; /* No real roots; no intersection */
2068
2069    *t = (-b - sqrtf(discr)) / a;
2070    if( *t < 0.0f )
2071       return 0; /* Intersection behind ray */
2072
2073    /* Check within cylinder segment */
2074    if( md + (*t)*nd < 0.0f )
2075       return 0;
2076
2077    if( md + (*t)*nd > dd )
2078       return 0;
2079
2080    /* Segment intersects cylinder between the endcaps; t is correct */
2081    return 1;
2082 }
2083
2084 /*
2085  * Time of intersection of sphere and triangle. Origin must be outside the
2086  * colliding area. This is a fairly long procedure.
2087  */
2088 static int spherecast_triangle( v3f tri[3],
2089                                 v3f co, v3f dir, f32 r, f32 *t, v3f n )
2090 {
2091    v3f sum[3];
2092    v3f v0, v1;
2093
2094    v3_sub( tri[1], tri[0], v0 );
2095    v3_sub( tri[2], tri[0], v1 );
2096    v3_cross( v0, v1, n );
2097    v3_normalize( n );
2098    v3_muladds( tri[0], n, r, sum[0] );
2099    v3_muladds( tri[1], n, r, sum[1] );
2100    v3_muladds( tri[2], n, r, sum[2] );
2101
2102    int hit = 0;
2103    f32 t_min = INFINITY,
2104          t1;
2105
2106    if( ray_tri( sum, co, dir, &t1 ) ){
2107       t_min = vg_minf( t_min, t1 );
2108       hit = 1;
2109    }
2110
2111    /*
2112     * Currently disabled; ray_sphere requires |d| = 1. it is not very important.
2113     */
2114 #if 0
2115    for( int i=0; i<3; i++ ){
2116       if( ray_sphere( tri[i], r, co, dir, &t1 ) ){
2117          t_min = vg_minf( t_min, t1 );
2118          hit = 1;
2119       }
2120    }
2121 #endif
2122
2123    for( int i=0; i<3; i++ ){
2124       int i0 =  i,
2125           i1 = (i+1)%3;
2126
2127       if( ray_uncapped_finite_cylinder( tri[i0], tri[i1], r, co, dir, &t1 ) ){
2128          if( t1 < t_min ){
2129             t_min = t1;
2130
2131             v3f co1, ct, cx;
2132             v3_add( dir, co, co1 );
2133             v3_lerp( co, co1, t_min, ct );
2134
2135             closest_point_segment( tri[i0], tri[i1], ct, cx );
2136             v3_sub( ct, cx, n );
2137             v3_normalize( n );
2138          }
2139
2140          hit = 1;
2141       }
2142    }
2143
2144    *t = t_min;
2145    return hit;
2146 }
2147
2148 /*
2149  * -----------------------------------------------------------------------------
2150  * Section 5.e                       Curves
2151  * -----------------------------------------------------------------------------
2152  */
2153
2154 static void eval_bezier_time( v3f p0, v3f p1, v3f h0, v3f h1, f32 t, v3f p )
2155 {
2156    f32 tt = t*t,
2157          ttt = tt*t;
2158
2159    v3_muls( p1, ttt, p );
2160    v3_muladds( p, h1, 3.0f*tt  -3.0f*ttt, p );
2161    v3_muladds( p, h0, 3.0f*ttt -6.0f*tt  +3.0f*t, p );
2162    v3_muladds( p, p0, 3.0f*tt  -ttt -3.0f*t +1.0f, p );
2163 }
2164
2165 static void eval_bezier3( v3f p0, v3f p1, v3f p2, f32 t, v3f p )
2166 {
2167    f32 u = 1.0f-t;
2168
2169    v3_muls( p0, u*u, p );
2170    v3_muladds( p, p1, 2.0f*u*t, p );
2171    v3_muladds( p, p2, t*t, p );
2172 }
2173
2174 /*
2175  * -----------------------------------------------------------------------------
2176  * Section 5.f                      Volumes
2177  * -----------------------------------------------------------------------------
2178  */
2179
2180 static float vg_sphere_volume( float radius ){
2181    float r3 = radius*radius*radius;
2182    return (4.0f/3.0f) * VG_PIf * r3;
2183 }
2184
2185 /*
2186  * -----------------------------------------------------------------------------
2187  * Section 6.a            PSRNG and some distributions
2188  * -----------------------------------------------------------------------------
2189  */
2190
2191 /* An implementation of the MT19937 Algorithm for the Mersenne Twister
2192  * by Evan Sultanik.  Based upon the pseudocode in: M. Matsumoto and
2193  * T. Nishimura, "Mersenne Twister: A 623-dimensionally
2194  * equidistributed uniform pseudorandom number generator," ACM
2195  * Transactions on Modeling and Computer Simulation Vol. 8, No. 1,
2196  * January pp.3-30 1998.
2197  *
2198  * http://www.sultanik.com/Mersenne_twister
2199  * https://github.com/ESultanik/mtwister/blob/master/mtwister.c
2200  */
2201
2202 #define MT_UPPER_MASK         0x80000000
2203 #define MT_LOWER_MASK         0x7fffffff
2204 #define MT_TEMPERING_MASK_B   0x9d2c5680
2205 #define MT_TEMPERING_MASK_C   0xefc60000
2206
2207 #define MT_STATE_VECTOR_LENGTH 624
2208
2209 /* changes to STATE_VECTOR_LENGTH also require changes to this */
2210 #define MT_STATE_VECTOR_M      397
2211
2212 struct {
2213   u32 mt[MT_STATE_VECTOR_LENGTH];
2214   i32 index;
2215 }
2216 static vg_rand;
2217
2218 static void vg_rand_seed( unsigned long seed )
2219 {
2220    /* set initial seeds to mt[STATE_VECTOR_LENGTH] using the generator
2221     * from Line 25 of Table 1 in: Donald Knuth, "The Art of Computer
2222     * Programming," Vol. 2 (2nd Ed.) pp.102.
2223     */
2224    vg_rand.mt[0] = seed & 0xffffffff;
2225    for( vg_rand.index=1; vg_rand.index<MT_STATE_VECTOR_LENGTH; vg_rand.index++){
2226       vg_rand.mt[vg_rand.index] =
2227          (6069 * vg_rand.mt[vg_rand.index-1]) & 0xffffffff;
2228    }
2229 }
2230
2231 /*
2232  * Generates a pseudo-randomly generated long.
2233  */
2234 static u32 vg_randu32(void)
2235 {
2236    u32 y;
2237    /* mag[x] = x * 0x9908b0df for x = 0,1 */
2238    static u32 mag[2] = {0x0, 0x9908b0df};
2239    if( vg_rand.index >= MT_STATE_VECTOR_LENGTH || vg_rand.index < 0 ){
2240       /* generate STATE_VECTOR_LENGTH words at a time */
2241       int kk;
2242       if( vg_rand.index >= MT_STATE_VECTOR_LENGTH+1 || vg_rand.index < 0 ){
2243          vg_rand_seed( 4357 );
2244       }
2245       for( kk=0; kk<MT_STATE_VECTOR_LENGTH-MT_STATE_VECTOR_M; kk++ ){
2246          y = (vg_rand.mt[kk] & MT_UPPER_MASK) |
2247              (vg_rand.mt[kk+1] & MT_LOWER_MASK);
2248          vg_rand.mt[kk] = vg_rand.mt[kk+MT_STATE_VECTOR_M] ^
2249                            (y >> 1) ^ mag[y & 0x1];
2250       }
2251       for( ; kk<MT_STATE_VECTOR_LENGTH-1; kk++ ){
2252          y = (vg_rand.mt[kk] & MT_UPPER_MASK) |
2253              (vg_rand.mt[kk+1] & MT_LOWER_MASK);
2254          vg_rand.mt[kk] =
2255             vg_rand.mt[ kk+(MT_STATE_VECTOR_M-MT_STATE_VECTOR_LENGTH)] ^
2256                         (y >> 1) ^ mag[y & 0x1];
2257       }
2258       y = (vg_rand.mt[MT_STATE_VECTOR_LENGTH-1] & MT_UPPER_MASK) |
2259           (vg_rand.mt[0] & MT_LOWER_MASK);
2260       vg_rand.mt[MT_STATE_VECTOR_LENGTH-1] =
2261          vg_rand.mt[MT_STATE_VECTOR_M-1] ^ (y >> 1) ^ mag[y & 0x1];
2262       vg_rand.index = 0;
2263    }
2264    y = vg_rand.mt[vg_rand.index++];
2265    y ^= (y >> 11);
2266    y ^= (y << 7) & MT_TEMPERING_MASK_B;
2267    y ^= (y << 15) & MT_TEMPERING_MASK_C;
2268    y ^= (y >> 18);
2269    return y;
2270 }
2271
2272 /*
2273  * Generates a pseudo-randomly generated f64 in the range [0..1].
2274  */
2275 static inline f64 vg_randf64(void)
2276 {
2277    return (f64)vg_randu32()/(f64)0xffffffff;
2278 }
2279
2280 static inline f64 vg_randf64_range( f64 min, f64 max )
2281 {
2282    return vg_lerp( min, max, (f64)vg_randf64() );
2283 }
2284
2285 static inline void vg_rand_dir( v3f dir )
2286 {
2287    dir[0] = vg_randf64();
2288    dir[1] = vg_randf64();
2289    dir[2] = vg_randf64();
2290
2291    v3_muls( dir, 2.0f, dir );
2292    v3_sub( dir, (v3f){1.0f,1.0f,1.0f}, dir );
2293
2294    v3_normalize( dir );
2295 }
2296
2297 static inline void vg_rand_sphere( v3f co )
2298 {
2299    vg_rand_dir(co);
2300    v3_muls( co, cbrtf( vg_randf64() ), co );
2301 }
2302
2303 #endif /* VG_M_H */