vg_m.h

   1 /* Copyright (C) 2021-2023 Harry Godden (hgn) - All Rights Reserved
   2  *
   3  *  0. Misc
   4  *  1. Scalar operations
   5  *  2. Vectors
   6  *    2.a 2D Vectors
   7  *    2.b 3D Vectors
   8  *    2.c 4D Vectors
   9  *  3. Quaternions
  10  *  4. Matrices
  11  *    4.a 2x2 matrices
  12  *    4.b 3x3 matrices
  13  *    4.c 4x3 matrices
  14  *    4.d 4x4 matrices
  15  *  5. Geometry
  16  *    5.a Boxes
  17  *    5.b Planes
  18  *    5.c Closest points
  19  *    5.d Raycast & Spherecasts
  20  *    5.e Curves
  21  *    5.f Volumes
  22  *    5.g Inertia tensors
  23  *  6. Statistics
  24  *    6.a Random numbers
  25  */
  26
  27 #ifndef VG_M_H
  28 #define VG_M_H
  29
  30 #include "vg_platform.h"
  31 #include <math.h>
  32 #include <stdlib.h>
  33
  34 #define VG_PIf  3.14159265358979323846264338327950288f
  35 #define VG_TAUf 6.28318530717958647692528676655900576f
  36
  37 /*
  38  * -----------------------------------------------------------------------------
  39  * Section 0.                    Misc Operations
  40  * -----------------------------------------------------------------------------
  41  */
  42
  43 /* get the f32 as the raw bits in a u32 without converting */
  44 static u32 vg_ftu32( f32 a )
  45 {
  46    u32 *ptr = (u32 *)(&a);
  47    return *ptr;
  48 }
  49
  50 /* check if f32 is infinite */
  51 static int vg_isinff( f32 a )
  52 {
  53    return ((vg_ftu32(a)) & 0x7FFFFFFFU) == 0x7F800000U;
  54 }
  55
  56 /* check if f32 is not a number */
  57 static int vg_isnanf( f32 a )
  58 {
  59    return !vg_isinff(a) && ((vg_ftu32(a)) & 0x7F800000U) == 0x7F800000U;
  60 }
  61
  62 /* check if f32 is a number and is not infinite */
  63 static int vg_validf( f32 a )
  64 {
  65    return ((vg_ftu32(a)) & 0x7F800000U) != 0x7F800000U;
  66 }
  67
  68 static int v3_valid( v3f a ){
  69    for( u32 i=0; i<3; i++ )
  70       if( !vg_validf(a[i]) ) return 0;
  71    return 1;
  72 }
  73
  74 /*
  75  * -----------------------------------------------------------------------------
  76  * Section 1.                   Scalar Operations
  77  * -----------------------------------------------------------------------------
  78  */
  79
  80 static inline f32 vg_minf( f32 a, f32 b ){ return a < b? a: b; }
  81 static inline f32 vg_maxf( f32 a, f32 b ){ return a > b? a: b; }
  82
  83 static inline int vg_min( int a, int b ){ return a < b? a: b; }
  84 static inline int vg_max( int a, int b ){ return a > b? a: b; }
  85
  86 static inline f32 vg_clampf( f32 a, f32 min, f32 max )
  87 {
  88    return vg_minf( max, vg_maxf( a, min ) );
  89 }
  90
  91 static inline f32 vg_signf( f32 a )
  92 {
  93    return a < 0.0f? -1.0f: 1.0f;
  94 }
  95
  96 static inline f32 vg_fractf( f32 a )
  97 {
  98    return a - floorf( a );
  99 }
 100
 101 static inline f64 vg_fractf64( f64 a ){
 102    return a - floor( a );
 103 }
 104
 105 static f32 vg_cfrictf( f32 velocity, f32 F )
 106 {
 107    return -vg_signf(velocity) * vg_minf( F, fabsf(velocity) );
 108 }
 109
 110 static inline f32 vg_rad( f32 deg )
 111 {
 112    return deg * VG_PIf / 180.0f;
 113 }
 114
 115 /* angle to reach b from a */
 116 static f32 vg_angle_diff( f32 a, f32 b ){
 117    f32 d = fmod(b,VG_TAUf)-fmodf(a,VG_TAUf);
 118    if( fabsf(d) > VG_PIf )
 119       d = -vg_signf(d) * (VG_TAUf - fabsf(d));
 120
 121    return d;
 122 }
 123
 124 /*
 125  * quantize float to bit count
 126  */
 127 static u32 vg_quantf( f32 a, u32 bits, f32 min, f32 max ){
 128    u32 mask = (0x1 << bits) - 1;
 129    return vg_clampf((a - min) * ((f32)mask/(max-min)), 0.0f, mask );
 130 }
 131
 132 /*
 133  * un-quantize discreet to float
 134  */
 135 static f32 vg_dequantf( u32 q, u32 bits, f32 min, f32 max ){
 136    u32 mask = (0x1 << bits) - 1;
 137    return min + (f32)q * ((max-min) / (f32)mask);
 138 }
 139
 140 /* https://iquilezles.org/articles/functions/
 141  *
 142  * Use k to control the stretching of the function. Its maximum, which is 1,
 143  * happens at exactly x = 1/k.
 144  */
 145 static f32 vg_exp_impulse( f32 x, f32 k ){
 146     f32 h = k*x;
 147     return h*expf(1.0f-h);
 148 }
 149
 150 /*
 151  * -----------------------------------------------------------------------------
 152  * Section 2.a                   2D Vectors
 153  * -----------------------------------------------------------------------------
 154  */
 155
 156 static inline void v2_copy( v2f a, v2f d )
 157 {
 158    d[0] = a[0]; d[1] = a[1];
 159 }
 160
 161 static inline void v2_zero( v2f a )
 162 {
 163    a[0] = 0.f; a[1] = 0.f;
 164 }
 165
 166 static inline void v2_add( v2f a, v2f b, v2f d )
 167 {
 168    d[0] = a[0]+b[0]; d[1] = a[1]+b[1];
 169 }
 170
 171 static inline void v2_sub( v2f a, v2f b, v2f d )
 172 {
 173    d[0] = a[0]-b[0]; d[1] = a[1]-b[1];
 174 }
 175
 176 static inline void v2_minv( v2f a, v2f b, v2f dest )
 177 {
 178    dest[0] = vg_minf(a[0], b[0]);
 179    dest[1] = vg_minf(a[1], b[1]);
 180 }
 181
 182 static inline void v2_maxv( v2f a, v2f b, v2f dest )
 183 {
 184    dest[0] = vg_maxf(a[0], b[0]);
 185    dest[1] = vg_maxf(a[1], b[1]);
 186 }
 187
 188 static inline f32 v2_dot( v2f a, v2f b )
 189 {
 190    return a[0] * b[0] + a[1] * b[1];
 191 }
 192
 193 static inline f32 v2_cross( v2f a, v2f b )
 194 {
 195    return a[0]*b[1] - a[1]*b[0];
 196 }
 197
 198 static inline void v2_abs( v2f a, v2f d )
 199 {
 200    d[0] = fabsf( a[0] );
 201    d[1] = fabsf( a[1] );
 202 }
 203
 204 static inline void v2_muls( v2f a, f32 s, v2f d )
 205 {
 206    d[0] = a[0]*s; d[1] = a[1]*s;
 207 }
 208
 209 static inline void v2_divs( v2f a, f32 s, v2f d )
 210 {
 211    d[0] = a[0]/s; d[1] = a[1]/s;
 212 }
 213
 214 static inline void v2_mul( v2f a, v2f b, v2f d )
 215 {
 216    d[0] = a[0]*b[0];
 217    d[1] = a[1]*b[1];
 218 }
 219
 220 static inline void v2_div( v2f a, v2f b, v2f d )
 221 {
 222    d[0] = a[0]/b[0]; d[1] = a[1]/b[1];
 223 }
 224
 225 static inline void v2_muladd( v2f a, v2f b, v2f s, v2f d )
 226 {
 227    d[0] = a[0]+b[0]*s[0];
 228    d[1] = a[1]+b[1]*s[1];
 229 }
 230
 231 static inline void v2_muladds( v2f a, v2f b, f32 s, v2f d )
 232 {
 233    d[0] = a[0]+b[0]*s;
 234    d[1] = a[1]+b[1]*s;
 235 }
 236
 237 static inline f32 v2_length2( v2f a )
 238 {
 239    return a[0]*a[0] + a[1]*a[1];
 240 }
 241
 242 static inline f32 v2_length( v2f a )
 243 {
 244    return sqrtf( v2_length2( a ) );
 245 }
 246
 247 static inline f32 v2_dist2( v2f a, v2f b )
 248 {
 249    v2f delta;
 250    v2_sub( a, b, delta );
 251    return v2_length2( delta );
 252 }
 253
 254 static inline f32 v2_dist( v2f a, v2f b )
 255 {
 256    return sqrtf( v2_dist2( a, b ) );
 257 }
 258
 259 static inline void v2_lerp( v2f a, v2f b, f32 t, v2f d )
 260 {
 261    d[0] = a[0] + t*(b[0]-a[0]);
 262    d[1] = a[1] + t*(b[1]-a[1]);
 263 }
 264
 265 static inline void v2_normalize( v2f a )
 266 {
 267    v2_muls( a, 1.0f / v2_length( a ), a );
 268 }
 269
 270 static void v2_normalize_clamp( v2f a )
 271 {
 272    f32 l2 = v2_length2( a );
 273    if( l2 > 1.0f )
 274       v2_muls( a, 1.0f/sqrtf(l2), a );
 275 }
 276
 277 static inline void v2_floor( v2f a, v2f b )
 278 {
 279    b[0] = floorf( a[0] );
 280    b[1] = floorf( a[1] );
 281 }
 282
 283 static inline void v2_fill( v2f a, f32 v )
 284 {
 285    a[0] = v;
 286    a[1] = v;
 287 }
 288
 289 static inline void v2_copysign( v2f a, v2f b )
 290 {
 291    a[0] = copysignf( a[0], b[0] );
 292    a[1] = copysignf( a[1], b[1] );
 293 }
 294
 295 /* integer variants
 296  * ---------------- */
 297
 298 static inline void v2i_copy( v2i a, v2i b )
 299 {
 300    b[0] = a[0]; b[1] = a[1];
 301 }
 302
 303 static inline int v2i_eq( v2i a, v2i b )
 304 {
 305    return ((a[0] == b[0]) && (a[1] == b[1]));
 306 }
 307
 308 static inline void v2i_add( v2i a, v2i b, v2i d )
 309 {
 310    d[0] = a[0]+b[0]; d[1] = a[1]+b[1];
 311 }
 312
 313 static inline void v2i_sub( v2i a, v2i b, v2i d )
 314 {
 315    d[0] = a[0]-b[0]; d[1] = a[1]-b[1];
 316 }
 317
 318 /*
 319  * -----------------------------------------------------------------------------
 320  * Section 2.b                   3D Vectors
 321  * -----------------------------------------------------------------------------
 322  */
 323
 324 static inline void v3_copy( v3f a, v3f b )
 325 {
 326    b[0] = a[0]; b[1] = a[1]; b[2] = a[2];
 327 }
 328
 329 static inline void v3_zero( v3f a )
 330 {
 331    a[0] = 0.f; a[1] = 0.f; a[2] = 0.f;
 332 }
 333
 334 static inline void v3_add( v3f a, v3f b, v3f d )
 335 {
 336    d[0] = a[0]+b[0]; d[1] = a[1]+b[1]; d[2] = a[2]+b[2];
 337 }
 338
 339 static inline void v3i_add( v3i a, v3i b, v3i d )
 340 {
 341    d[0] = a[0]+b[0]; d[1] = a[1]+b[1]; d[2] = a[2]+b[2];
 342 }
 343
 344 static inline void v3_sub( v3f a, v3f b, v3f d )
 345 {
 346    d[0] = a[0]-b[0]; d[1] = a[1]-b[1]; d[2] = a[2]-b[2];
 347 }
 348
 349 static inline void v3i_sub( v3i a, v3i b, v3i d )
 350 {
 351    d[0] = a[0]-b[0]; d[1] = a[1]-b[1]; d[2] = a[2]-b[2];
 352 }
 353
 354 static inline void v3_mul( v3f a, v3f b, v3f d )
 355 {
 356    d[0] = a[0]*b[0]; d[1] = a[1]*b[1]; d[2] = a[2]*b[2];
 357 }
 358
 359 static inline void v3_div( v3f a, v3f b, v3f d )
 360 {
 361    d[0] = b[0]!=0.0f? a[0]/b[0]: INFINITY;
 362    d[1] = b[1]!=0.0f? a[1]/b[1]: INFINITY;
 363    d[2] = b[2]!=0.0f? a[2]/b[2]: INFINITY;
 364 }
 365
 366 static inline void v3_muls( v3f a, f32 s, v3f d )
 367 {
 368    d[0] = a[0]*s; d[1] = a[1]*s; d[2] = a[2]*s;
 369 }
 370
 371 static inline void v3_fill( v3f a, f32 v )
 372 {
 373    a[0] = v;
 374    a[1] = v;
 375    a[2] = v;
 376 }
 377
 378 static inline void v3_divs( v3f a, f32 s, v3f d )
 379 {
 380    if( s == 0.0f )
 381       v3_fill( d, INFINITY );
 382    else
 383    {
 384       d[0] = a[0]/s;
 385       d[1] = a[1]/s;
 386       d[2] = a[2]/s;
 387    }
 388 }
 389
 390 static inline void v3_muladds( v3f a, v3f b, f32 s, v3f d )
 391 {
 392    d[0] = a[0]+b[0]*s; d[1] = a[1]+b[1]*s; d[2] = a[2]+b[2]*s;
 393 }
 394
 395 static inline void v3_muladd( v2f a, v2f b, v2f s, v2f d )
 396 {
 397    d[0] = a[0]+b[0]*s[0];
 398    d[1] = a[1]+b[1]*s[1];
 399    d[2] = a[2]+b[2]*s[2];
 400 }
 401
 402 static inline f32 v3_dot( v3f a, v3f b )
 403 {
 404    return a[0] * b[0] + a[1] * b[1] + a[2] * b[2];
 405 }
 406
 407 static inline void v3_cross( v3f a, v3f b, v3f dest )
 408 {
 409    v3f d;
 410    d[0] = a[1]*b[2] - a[2]*b[1];
 411    d[1] = a[2]*b[0] - a[0]*b[2];
 412    d[2] = a[0]*b[1] - a[1]*b[0];
 413    v3_copy( d, dest );
 414 }
 415
 416 static inline f32 v3_length2( v3f a )
 417 {
 418    return v3_dot( a, a );
 419 }
 420
 421 static inline f32 v3_length( v3f a )
 422 {
 423    return sqrtf( v3_length2( a ) );
 424 }
 425
 426 static inline f32 v3_dist2( v3f a, v3f b )
 427 {
 428    v3f delta;
 429    v3_sub( a, b, delta );
 430    return v3_length2( delta );
 431 }
 432
 433 static inline f32 v3_dist( v3f a, v3f b )
 434 {
 435    return sqrtf( v3_dist2( a, b ) );
 436 }
 437
 438 static inline void v3_normalize( v3f a )
 439 {
 440    v3_muls( a, 1.f / v3_length( a ), a );
 441 }
 442
 443 static inline f32 vg_lerpf( f32 a, f32 b, f32 t ){
 444    return a + t*(b-a);
 445 }
 446
 447 static inline f64 vg_lerp( f64 a, f64 b, f64 t )
 448 {
 449    return a + t*(b-a);
 450 }
 451
 452 static inline void vg_slewf( f32 *a, f32 b, f32 speed ){
 453    f32 d = vg_signf( b-*a ),
 454        c = *a + d*speed;
 455    *a = vg_minf( b*d, c*d ) * d;
 456 }
 457
 458 static inline f32 vg_smoothstepf( f32 x ){
 459    return x*x*(3.0f - 2.0f*x);
 460 }
 461
 462
 463 /* correctly lerp around circular period -pi -> pi */
 464 static f32 vg_alerpf( f32 a, f32 b, f32 t )
 465 {
 466    f32 d = fmodf( b-a, VG_TAUf ),
 467          s = fmodf( 2.0f*d, VG_TAUf ) - d;
 468    return a + s*t;
 469 }
 470
 471 static inline void v3_lerp( v3f a, v3f b, f32 t, v3f d )
 472 {
 473    d[0] = a[0] + t*(b[0]-a[0]);
 474    d[1] = a[1] + t*(b[1]-a[1]);
 475    d[2] = a[2] + t*(b[2]-a[2]);
 476 }
 477
 478 static inline void v3_minv( v3f a, v3f b, v3f dest )
 479 {
 480    dest[0] = vg_minf(a[0], b[0]);
 481    dest[1] = vg_minf(a[1], b[1]);
 482    dest[2] = vg_minf(a[2], b[2]);
 483 }
 484
 485 static inline void v3_maxv( v3f a, v3f b, v3f dest )
 486 {
 487    dest[0] = vg_maxf(a[0], b[0]);
 488    dest[1] = vg_maxf(a[1], b[1]);
 489    dest[2] = vg_maxf(a[2], b[2]);
 490 }
 491
 492 static inline f32 v3_minf( v3f a )
 493 {
 494    return vg_minf( vg_minf( a[0], a[1] ), a[2] );
 495 }
 496
 497 static inline f32 v3_maxf( v3f a )
 498 {
 499    return vg_maxf( vg_maxf( a[0], a[1] ), a[2] );
 500 }
 501
 502 static inline void v3_floor( v3f a, v3f b )
 503 {
 504    b[0] = floorf( a[0] );
 505    b[1] = floorf( a[1] );
 506    b[2] = floorf( a[2] );
 507 }
 508
 509 static inline void v3_ceil( v3f a, v3f b )
 510 {
 511    b[0] = ceilf( a[0] );
 512    b[1] = ceilf( a[1] );
 513    b[2] = ceilf( a[2] );
 514 }
 515
 516 static inline void v3_negate( v3f a, v3f b )
 517 {
 518    b[0] = -a[0];
 519    b[1] = -a[1];
 520    b[2] = -a[2];
 521 }
 522
 523 static inline void v3_rotate( v3f v, f32 angle, v3f axis, v3f d )
 524 {
 525   v3f v1, v2, k;
 526   f32 c, s;
 527
 528   c = cosf( angle );
 529   s = sinf( angle );
 530
 531   v3_copy( axis, k );
 532   v3_normalize( k );
 533   v3_muls( v, c, v1 );
 534   v3_cross( k, v, v2 );
 535   v3_muls( v2, s, v2 );
 536   v3_add( v1, v2, v1 );
 537   v3_muls( k, v3_dot(k, v) * (1.0f - c), v2);
 538   v3_add( v1, v2, d );
 539 }
 540
 541 static void v3_tangent_basis( v3f n, v3f tx, v3f ty ){
 542    /* Compute tangent basis (box2d) */
 543    if( fabsf( n[0] ) >= 0.57735027f ){
 544       tx[0] =  n[1];
 545       tx[1] = -n[0];
 546       tx[2] =  0.0f;
 547    }
 548    else{
 549       tx[0] =  0.0f;
 550       tx[1] =  n[2];
 551       tx[2] = -n[1];
 552    }
 553
 554    v3_normalize( tx );
 555    v3_cross( n, tx, ty );
 556 }
 557
 558 /*
 559  * Compute yaw and pitch based of a normalized vector representing forward
 560  * forward: -z
 561  * result -> (YAW,PITCH,0.0)
 562  */
 563 static void v3_angles( v3f v, v3f out_angles ){
 564    float yaw = atan2f( v[0], -v[2] ),
 565        pitch = atan2f(
 566                    -v[1],
 567                    sqrtf(
 568                      v[0]*v[0] + v[2]*v[2]
 569                    )
 570                );
 571
 572    out_angles[0] = yaw;
 573    out_angles[1] = pitch;
 574    out_angles[2] = 0.0f;
 575 }
 576
 577 /*
 578  * Compute the forward vector from (YAW,PITCH,ROLL)
 579  * forward: -z
 580  */
 581 static void v3_angles_vector( v3f angles, v3f out_v ){
 582    out_v[0] =  sinf( angles[0] ) * cosf( angles[1] );
 583    out_v[1] = -sinf( angles[1] );
 584    out_v[2] = -cosf( angles[0] ) * cosf( angles[1] );
 585 }
 586
 587 /*
 588  * -----------------------------------------------------------------------------
 589  * Section 2.c                   4D Vectors
 590  * -----------------------------------------------------------------------------
 591  */
 592
 593 static inline void v4_copy( v4f a, v4f b )
 594 {
 595    b[0] = a[0]; b[1] = a[1]; b[2] = a[2]; b[3] = a[3];
 596 }
 597
 598 static inline void v4_add( v4f a, v4f b, v4f d )
 599 {
 600    d[0] = a[0]+b[0];
 601    d[1] = a[1]+b[1];
 602    d[2] = a[2]+b[2];
 603    d[3] = a[3]+b[3];
 604 }
 605
 606 static inline void v4_zero( v4f a )
 607 {
 608    a[0] = 0.f; a[1] = 0.f; a[2] = 0.f; a[3] = 0.f;
 609 }
 610
 611 static inline void v4_muls( v4f a, f32 s, v4f d )
 612 {
 613    d[0] = a[0]*s;
 614    d[1] = a[1]*s;
 615    d[2] = a[2]*s;
 616    d[3] = a[3]*s;
 617 }
 618
 619 static inline void v4_muladds( v4f a, v4f b, f32 s, v4f d )
 620 {
 621    d[0] = a[0]+b[0]*s;
 622    d[1] = a[1]+b[1]*s;
 623    d[2] = a[2]+b[2]*s;
 624    d[3] = a[3]+b[3]*s;
 625 }
 626
 627 static inline void v4_lerp( v4f a, v4f b, f32 t, v4f d )
 628 {
 629    d[0] = a[0] + t*(b[0]-a[0]);
 630    d[1] = a[1] + t*(b[1]-a[1]);
 631    d[2] = a[2] + t*(b[2]-a[2]);
 632    d[3] = a[3] + t*(b[3]-a[3]);
 633 }
 634
 635 static inline f32 v4_dot( v4f a, v4f b )
 636 {
 637    return a[0]*b[0] + a[1]*b[1] + a[2]*b[2] + a[3]*b[3];
 638 }
 639
 640 static inline f32 v4_length( v4f a )
 641 {
 642    return sqrtf( v4_dot(a,a) );
 643 }
 644
 645 /*
 646  * -----------------------------------------------------------------------------
 647  * Section 3                   Quaternions
 648  * -----------------------------------------------------------------------------
 649  */
 650
 651 static inline void q_identity( v4f q )
 652 {
 653    q[0] = 0.0f; q[1] = 0.0f; q[2] = 0.0f; q[3] = 1.0f;
 654 }
 655
 656 static inline void q_axis_angle( v4f q, v3f axis, f32 angle )
 657 {
 658    f32 a = angle*0.5f,
 659          c = cosf(a),
 660          s = sinf(a);
 661
 662    q[0] = s*axis[0];
 663    q[1] = s*axis[1];
 664    q[2] = s*axis[2];
 665    q[3] = c;
 666 }
 667
 668 static inline void q_mul( v4f q, v4f q1, v4f d )
 669 {
 670    v4f t;
 671    t[0] = q[3]*q1[0] + q[0]*q1[3] + q[1]*q1[2] - q[2]*q1[1];
 672    t[1] = q[3]*q1[1] - q[0]*q1[2] + q[1]*q1[3] + q[2]*q1[0];
 673    t[2] = q[3]*q1[2] + q[0]*q1[1] - q[1]*q1[0] + q[2]*q1[3];
 674    t[3] = q[3]*q1[3] - q[0]*q1[0] - q[1]*q1[1] - q[2]*q1[2];
 675    v4_copy( t, d );
 676 }
 677
 678 static inline void q_normalize( v4f q )
 679 {
 680    f32 l2 = v4_dot(q,q);
 681    if( l2 < 0.00001f ) q_identity( q );
 682    else {
 683       f32 s = 1.0f/sqrtf(l2);
 684       q[0] *= s;
 685       q[1] *= s;
 686       q[2] *= s;
 687       q[3] *= s;
 688    }
 689 }
 690
 691 static inline void q_inv( v4f q, v4f d )
 692 {
 693    f32 s = 1.0f / v4_dot(q,q);
 694    d[0] = -q[0]*s;
 695    d[1] = -q[1]*s;
 696    d[2] = -q[2]*s;
 697    d[3] =  q[3]*s;
 698 }
 699
 700 static inline void q_nlerp( v4f a, v4f b, f32 t, v4f d ){
 701    if( v4_dot(a,b) < 0.0f ){
 702       v4f c;
 703       v4_muls( b, -1.0f, c );
 704       v4_lerp( a, c, t, d );
 705    }
 706    else
 707       v4_lerp( a, b, t, d );
 708
 709    q_normalize( d );
 710 }
 711
 712 static inline void q_m3x3( v4f q, m3x3f d )
 713 {
 714    f32
 715       l = v4_length(q),
 716       s = l > 0.0f? 2.0f/l: 0.0f,
 717
 718       xx = s*q[0]*q[0], xy = s*q[0]*q[1], wx = s*q[3]*q[0],
 719       yy = s*q[1]*q[1], yz = s*q[1]*q[2], wy = s*q[3]*q[1],
 720       zz = s*q[2]*q[2], xz = s*q[0]*q[2], wz = s*q[3]*q[2];
 721
 722    d[0][0] = 1.0f - yy - zz;
 723    d[1][1] = 1.0f - xx - zz;
 724    d[2][2] = 1.0f - xx - yy;
 725    d[0][1] = xy + wz;
 726    d[1][2] = yz + wx;
 727    d[2][0] = xz + wy;
 728    d[1][0] = xy - wz;
 729    d[2][1] = yz - wx;
 730    d[0][2] = xz - wy;
 731 }
 732
 733 static void q_mulv( v4f q, v3f v, v3f d )
 734 {
 735    v3f v1, v2;
 736
 737    v3_muls( q, 2.0f*v3_dot(q,v), v1 );
 738    v3_muls( v, q[3]*q[3] - v3_dot(q,q), v2 );
 739    v3_add( v1, v2, v1 );
 740    v3_cross( q, v, v2 );
 741    v3_muls( v2, 2.0f*q[3], v2 );
 742    v3_add( v1, v2, d );
 743 }
 744
 745 static f32 q_dist( v4f q0, v4f q1 ){
 746    return acosf( 2.0f * v4_dot(q0,q1) -1.0f );
 747 }
 748
 749 /*
 750  * -----------------------------------------------------------------------------
 751  * Section 4.a                  2x2 matrices
 752  * -----------------------------------------------------------------------------
 753  */
 754
 755 #define M2X2_INDENTIY {{1.0f, 0.0f, }, \
 756                        {0.0f, 1.0f, }}
 757
 758 #define M2X2_ZERO     {{0.0f, 0.0f, }, \
 759                        {0.0f, 0.0f, }}
 760
 761 static inline void m2x2_copy( m2x2f a, m2x2f b )
 762 {
 763    v2_copy( a[0], b[0] );
 764    v2_copy( a[1], b[1] );
 765 }
 766
 767 static inline void m2x2_identity( m2x2f a )
 768 {
 769    m2x2f id = M2X2_INDENTIY;
 770    m2x2_copy( id, a );
 771 }
 772
 773 static inline void m2x2_create_rotation( m2x2f a, f32 theta )
 774 {
 775    f32 s, c;
 776
 777    s = sinf( theta );
 778    c = cosf( theta );
 779
 780    a[0][0] =  c;
 781    a[0][1] = -s;
 782    a[1][0] =  s;
 783    a[1][1] =  c;
 784 }
 785
 786 static inline void m2x2_mulv( m2x2f m, v2f v, v2f d )
 787 {
 788    v2f res;
 789
 790    res[0] = m[0][0]*v[0] + m[1][0]*v[1];
 791    res[1] = m[0][1]*v[0] + m[1][1]*v[1];
 792
 793    v2_copy( res, d );
 794 }
 795
 796 /*
 797  * -----------------------------------------------------------------------------
 798  * Section 4.b                  3x3 matrices
 799  * -----------------------------------------------------------------------------
 800  */
 801
 802 #define M3X3_IDENTITY   {{1.0f, 0.0f, 0.0f, },\
 803                         { 0.0f, 1.0f, 0.0f, },\
 804                         { 0.0f, 0.0f, 1.0f, }}
 805
 806 #define M3X3_ZERO       {{0.0f, 0.0f, 0.0f, },\
 807                         { 0.0f, 0.0f, 0.0f, },\
 808                         { 0.0f, 0.0f, 0.0f, }}
 809
 810
 811 static void euler_m3x3( v3f angles, m3x3f d )
 812 {
 813    f32 cosY = cosf( angles[0] ),
 814        sinY = sinf( angles[0] ),
 815        cosP = cosf( angles[1] ),
 816        sinP = sinf( angles[1] ),
 817        cosR = cosf( angles[2] ),
 818        sinR = sinf( angles[2] );
 819
 820    d[2][0] = -sinY * cosP;
 821    d[2][1] =  sinP;
 822    d[2][2] =  cosY * cosP;
 823
 824    d[0][0] =  cosY * cosR;
 825    d[0][1] =  sinR;
 826    d[0][2] =  sinY * cosR;
 827
 828    v3_cross( d[0], d[2], d[1] );
 829 }
 830
 831 static void m3x3_q( m3x3f m, v4f q )
 832 {
 833    f32 diag, r, rinv;
 834
 835    diag = m[0][0] + m[1][1] + m[2][2];
 836    if( diag >= 0.0f )
 837    {
 838       r    = sqrtf( 1.0f + diag );
 839       rinv = 0.5f / r;
 840       q[0] = rinv * (m[1][2] - m[2][1]);
 841       q[1] = rinv * (m[2][0] - m[0][2]);
 842       q[2] = rinv * (m[0][1] - m[1][0]);
 843       q[3] = r    * 0.5f;
 844    }
 845    else if( m[0][0] >= m[1][1] && m[0][0] >= m[2][2] )
 846    {
 847       r    = sqrtf( 1.0f - m[1][1] - m[2][2] + m[0][0] );
 848       rinv = 0.5f / r;
 849       q[0] = r    * 0.5f;
 850       q[1] = rinv * (m[0][1] + m[1][0]);
 851       q[2] = rinv * (m[0][2] + m[2][0]);
 852       q[3] = rinv * (m[1][2] - m[2][1]);
 853    }
 854    else if( m[1][1] >= m[2][2] )
 855    {
 856       r    = sqrtf( 1.0f - m[0][0] - m[2][2] + m[1][1] );
 857       rinv = 0.5f / r;
 858       q[0] = rinv * (m[0][1] + m[1][0]);
 859       q[1] = r    * 0.5f;
 860       q[2] = rinv * (m[1][2] + m[2][1]);
 861       q[3] = rinv * (m[2][0] - m[0][2]);
 862    }
 863    else
 864    {
 865       r    = sqrtf( 1.0f - m[0][0] - m[1][1] + m[2][2] );
 866       rinv = 0.5f / r;
 867       q[0] = rinv * (m[0][2] + m[2][0]);
 868       q[1] = rinv * (m[1][2] + m[2][1]);
 869       q[2] = r    * 0.5f;
 870       q[3] = rinv * (m[0][1] - m[1][0]);
 871    }
 872 }
 873
 874 /* a X b == [b]T a == ...*/
 875 static void m3x3_skew_symetric( m3x3f a, v3f v )
 876 {
 877    a[0][0] =  0.0f;
 878    a[0][1] =  v[2];
 879    a[0][2] = -v[1];
 880    a[1][0] = -v[2];
 881    a[1][1] =  0.0f;
 882    a[1][2] =  v[0];
 883    a[2][0] =  v[1];
 884    a[2][1] = -v[0];
 885    a[2][2] =  0.0f;
 886 }
 887
 888 /* aka kronecker product */
 889 static void m3x3_outer_product( m3x3f out_m, v3f a, v3f b )
 890 {
 891    out_m[0][0] = a[0]*b[0];
 892    out_m[0][1] = a[0]*b[1];
 893    out_m[0][2] = a[0]*b[2];
 894    out_m[1][0] = a[1]*b[0];
 895    out_m[1][1] = a[1]*b[1];
 896    out_m[1][2] = a[1]*b[2];
 897    out_m[2][0] = a[2]*b[0];
 898    out_m[2][1] = a[2]*b[1];
 899    out_m[2][2] = a[2]*b[2];
 900 }
 901
 902 static void m3x3_add( m3x3f a, m3x3f b, m3x3f d )
 903 {
 904    v3_add( a[0], b[0], d[0] );
 905    v3_add( a[1], b[1], d[1] );
 906    v3_add( a[2], b[2], d[2] );
 907 }
 908
 909 static void m3x3_sub( m3x3f a, m3x3f b, m3x3f d )
 910 {
 911    v3_sub( a[0], b[0], d[0] );
 912    v3_sub( a[1], b[1], d[1] );
 913    v3_sub( a[2], b[2], d[2] );
 914 }
 915
 916 static inline void m3x3_copy( m3x3f a, m3x3f b )
 917 {
 918    v3_copy( a[0], b[0] );
 919    v3_copy( a[1], b[1] );
 920    v3_copy( a[2], b[2] );
 921 }
 922
 923 static inline void m3x3_identity( m3x3f a )
 924 {
 925    m3x3f id = M3X3_IDENTITY;
 926    m3x3_copy( id, a );
 927 }
 928
 929 static void m3x3_diagonal( m3x3f out_a, f32 v )
 930 {
 931    m3x3_identity( out_a );
 932    out_a[0][0] = v;
 933    out_a[1][1] = v;
 934    out_a[2][2] = v;
 935 }
 936
 937 static void m3x3_setdiagonalv3( m3x3f a, v3f v )
 938 {
 939    a[0][0] = v[0];
 940    a[1][1] = v[1];
 941    a[2][2] = v[2];
 942 }
 943
 944 static inline void m3x3_zero( m3x3f a )
 945 {
 946    m3x3f z = M3X3_ZERO;
 947    m3x3_copy( z, a );
 948 }
 949
 950 static inline void m3x3_inv( m3x3f src, m3x3f dest )
 951 {
 952    f32 a = src[0][0], b = src[0][1], c = src[0][2],
 953          d = src[1][0], e = src[1][1], f = src[1][2],
 954          g = src[2][0], h = src[2][1], i = src[2][2];
 955
 956    f32 det =    1.f /
 957                (+a*(e*i-h*f)
 958                 -b*(d*i-f*g)
 959                 +c*(d*h-e*g));
 960
 961    dest[0][0] =  (e*i-h*f)*det;
 962    dest[0][1] = -(b*i-c*h)*det;
 963    dest[0][2] =  (b*f-c*e)*det;
 964    dest[1][0] = -(d*i-f*g)*det;
 965    dest[1][1] =  (a*i-c*g)*det;
 966    dest[1][2] = -(a*f-d*c)*det;
 967    dest[2][0] =  (d*h-g*e)*det;
 968    dest[2][1] = -(a*h-g*b)*det;
 969    dest[2][2] =  (a*e-d*b)*det;
 970 }
 971
 972 static f32 m3x3_det( m3x3f m )
 973 {
 974    return   m[0][0] * (m[1][1] * m[2][2] - m[2][1] * m[1][2])
 975           - m[0][1] * (m[1][0] * m[2][2] - m[1][2] * m[2][0])
 976           + m[0][2] * (m[1][0] * m[2][1] - m[1][1] * m[2][0]);
 977 }
 978
 979 static inline void m3x3_transpose( m3x3f src, m3x3f dest )
 980 {
 981    f32 a = src[0][0], b = src[0][1], c = src[0][2],
 982          d = src[1][0], e = src[1][1], f = src[1][2],
 983          g = src[2][0], h = src[2][1], i = src[2][2];
 984
 985    dest[0][0] = a;
 986    dest[0][1] = d;
 987    dest[0][2] = g;
 988    dest[1][0] = b;
 989    dest[1][1] = e;
 990    dest[1][2] = h;
 991    dest[2][0] = c;
 992    dest[2][1] = f;
 993    dest[2][2] = i;
 994 }
 995
 996 static inline void m3x3_mul( m3x3f a, m3x3f b, m3x3f d )
 997 {
 998    f32 a00 = a[0][0], a01 = a[0][1], a02 = a[0][2],
 999          a10 = a[1][0], a11 = a[1][1], a12 = a[1][2],
1000          a20 = a[2][0], a21 = a[2][1], a22 = a[2][2],
1001
1002          b00 = b[0][0], b01 = b[0][1], b02 = b[0][2],
1003          b10 = b[1][0], b11 = b[1][1], b12 = b[1][2],
1004          b20 = b[2][0], b21 = b[2][1], b22 = b[2][2];
1005
1006    d[0][0] = a00*b00 + a10*b01 + a20*b02;
1007    d[0][1] = a01*b00 + a11*b01 + a21*b02;
1008    d[0][2] = a02*b00 + a12*b01 + a22*b02;
1009    d[1][0] = a00*b10 + a10*b11 + a20*b12;
1010    d[1][1] = a01*b10 + a11*b11 + a21*b12;
1011    d[1][2] = a02*b10 + a12*b11 + a22*b12;
1012    d[2][0] = a00*b20 + a10*b21 + a20*b22;
1013    d[2][1] = a01*b20 + a11*b21 + a21*b22;
1014    d[2][2] = a02*b20 + a12*b21 + a22*b22;
1015 }
1016
1017 static inline void m3x3_mulv( m3x3f m, v3f v, v3f d )
1018 {
1019    v3f res;
1020
1021    res[0] = m[0][0]*v[0] + m[1][0]*v[1] + m[2][0]*v[2];
1022    res[1] = m[0][1]*v[0] + m[1][1]*v[1] + m[2][1]*v[2];
1023    res[2] = m[0][2]*v[0] + m[1][2]*v[1] + m[2][2]*v[2];
1024
1025    v3_copy( res, d );
1026 }
1027
1028 static inline void m3x3_projection( m3x3f dst,
1029       f32 const left, f32 const right, f32 const bottom, f32 const top )
1030 {
1031    f32 rl, tb;
1032
1033    m3x3_zero( dst );
1034
1035    rl = 1.0f / (right - left);
1036    tb = 1.0f / (top   - bottom);
1037
1038    dst[0][0] = 2.0f * rl;
1039    dst[1][1] = 2.0f * tb;
1040    dst[2][2] = 1.0f;
1041 }
1042
1043 static inline void m3x3_translate( m3x3f m, v3f v )
1044 {
1045    m[2][0] = m[0][0] * v[0] + m[1][0] * v[1] + m[2][0];
1046    m[2][1] = m[0][1] * v[0] + m[1][1] * v[1] + m[2][1];
1047    m[2][2] = m[0][2] * v[0] + m[1][2] * v[1] + m[2][2];
1048 }
1049
1050 static inline void m3x3_scale( m3x3f m, v3f v )
1051 {
1052    v3_muls( m[0], v[0], m[0] );
1053    v3_muls( m[1], v[1], m[1] );
1054    v3_muls( m[2], v[2], m[2] );
1055 }
1056
1057 static inline void m3x3_scalef( m3x3f m, f32 f )
1058 {
1059    v3f v;
1060    v3_fill( v, f );
1061    m3x3_scale( m, v );
1062 }
1063
1064 static inline void m3x3_rotate( m3x3f m, f32 angle )
1065 {
1066    f32 m00 = m[0][0], m10 = m[1][0],
1067          m01 = m[0][1], m11 = m[1][1],
1068          m02 = m[0][2], m12 = m[1][2];
1069    f32 c, s;
1070
1071    s = sinf( angle );
1072    c = cosf( angle );
1073
1074    m[0][0] = m00 * c + m10 * s;
1075    m[0][1] = m01 * c + m11 * s;
1076    m[0][2] = m02 * c + m12 * s;
1077
1078    m[1][0] = m00 * -s + m10 * c;
1079    m[1][1] = m01 * -s + m11 * c;
1080    m[1][2] = m02 * -s + m12 * c;
1081 }
1082
1083 /*
1084  * -----------------------------------------------------------------------------
1085  * Section 4.c                  4x3 matrices
1086  * -----------------------------------------------------------------------------
1087  */
1088
1089 #define M4X3_IDENTITY   {{1.0f, 0.0f, 0.0f, },\
1090                         { 0.0f, 1.0f, 0.0f, },\
1091                         { 0.0f, 0.0f, 1.0f, },\
1092                         { 0.0f, 0.0f, 0.0f }}
1093
1094 static inline void m4x3_to_3x3( m4x3f a, m3x3f b )
1095 {
1096    v3_copy( a[0], b[0] );
1097    v3_copy( a[1], b[1] );
1098    v3_copy( a[2], b[2] );
1099 }
1100
1101 static inline void m4x3_invert_affine( m4x3f a, m4x3f b )
1102 {
1103    m3x3_transpose( a, b );
1104    m3x3_mulv( b, a[3], b[3] );
1105    v3_negate( b[3], b[3] );
1106 }
1107
1108 static void m4x3_invert_full( m4x3f src, m4x3f dst )
1109 {
1110   f32 t2, t4, t5,
1111         det,
1112         a = src[0][0], b = src[0][1], c = src[0][2],
1113         e = src[1][0], f = src[1][1], g = src[1][2],
1114         i = src[2][0], j = src[2][1], k = src[2][2],
1115         m = src[3][0], n = src[3][1], o = src[3][2];
1116
1117    t2 = j*o - n*k;
1118    t4 = i*o - m*k;
1119    t5 = i*n - m*j;
1120
1121    dst[0][0] =  f*k - g*j;
1122    dst[1][0] =-(e*k - g*i);
1123    dst[2][0] =  e*j - f*i;
1124    dst[3][0] =-(e*t2 - f*t4 + g*t5);
1125
1126    dst[0][1] =-(b*k - c*j);
1127    dst[1][1] =  a*k - c*i;
1128    dst[2][1] =-(a*j - b*i);
1129    dst[3][1] =  a*t2 - b*t4 + c*t5;
1130
1131    t2 = f*o - n*g;
1132    t4 = e*o - m*g;
1133    t5 = e*n - m*f;
1134
1135    dst[0][2] =  b*g - c*f ;
1136    dst[1][2] =-(a*g - c*e );
1137    dst[2][2] =  a*f - b*e ;
1138    dst[3][2] =-(a*t2 - b*t4 + c * t5);
1139
1140    det = 1.0f / (a * dst[0][0] + b * dst[1][0] + c * dst[2][0]);
1141    v3_muls( dst[0], det, dst[0] );
1142    v3_muls( dst[1], det, dst[1] );
1143    v3_muls( dst[2], det, dst[2] );
1144    v3_muls( dst[3], det, dst[3] );
1145 }
1146
1147 static inline void m4x3_copy( m4x3f a, m4x3f b )
1148 {
1149    v3_copy( a[0], b[0] );
1150    v3_copy( a[1], b[1] );
1151    v3_copy( a[2], b[2] );
1152    v3_copy( a[3], b[3] );
1153 }
1154
1155 static inline void m4x3_identity( m4x3f a )
1156 {
1157    m4x3f id = M4X3_IDENTITY;
1158    m4x3_copy( id, a );
1159 }
1160
1161 static void m4x3_mul( m4x3f a, m4x3f b, m4x3f d )
1162 {
1163    f32
1164    a00 = a[0][0], a01 = a[0][1], a02 = a[0][2],
1165    a10 = a[1][0], a11 = a[1][1], a12 = a[1][2],
1166    a20 = a[2][0], a21 = a[2][1], a22 = a[2][2],
1167    a30 = a[3][0], a31 = a[3][1], a32 = a[3][2],
1168    b00 = b[0][0], b01 = b[0][1], b02 = b[0][2],
1169    b10 = b[1][0], b11 = b[1][1], b12 = b[1][2],
1170    b20 = b[2][0], b21 = b[2][1], b22 = b[2][2],
1171    b30 = b[3][0], b31 = b[3][1], b32 = b[3][2];
1172
1173    d[0][0] = a00*b00 + a10*b01 + a20*b02;
1174    d[0][1] = a01*b00 + a11*b01 + a21*b02;
1175    d[0][2] = a02*b00 + a12*b01 + a22*b02;
1176    d[1][0] = a00*b10 + a10*b11 + a20*b12;
1177    d[1][1] = a01*b10 + a11*b11 + a21*b12;
1178    d[1][2] = a02*b10 + a12*b11 + a22*b12;
1179    d[2][0] = a00*b20 + a10*b21 + a20*b22;
1180    d[2][1] = a01*b20 + a11*b21 + a21*b22;
1181    d[2][2] = a02*b20 + a12*b21 + a22*b22;
1182    d[3][0] = a00*b30 + a10*b31 + a20*b32 + a30;
1183    d[3][1] = a01*b30 + a11*b31 + a21*b32 + a31;
1184    d[3][2] = a02*b30 + a12*b31 + a22*b32 + a32;
1185 }
1186
1187 #if 0 /* shat appf mingw wstringop-overflow */
1188 inline
1189 #endif
1190 static void m4x3_mulv( m4x3f m, v3f v, v3f d )
1191 {
1192    v3f res;
1193
1194    res[0] = m[0][0]*v[0] + m[1][0]*v[1] + m[2][0]*v[2] + m[3][0];
1195    res[1] = m[0][1]*v[0] + m[1][1]*v[1] + m[2][1]*v[2] + m[3][1];
1196    res[2] = m[0][2]*v[0] + m[1][2]*v[1] + m[2][2]*v[2] + m[3][2];
1197
1198    v3_copy( res, d );
1199 }
1200
1201 /*
1202  * Transform plane ( xyz, distance )
1203  */
1204 static void m4x3_mulp( m4x3f m, v4f p, v4f d )
1205 {
1206    v3f o;
1207
1208    v3_muls( p, p[3], o );
1209    m4x3_mulv( m, o, o );
1210    m3x3_mulv( m, p, d );
1211
1212    d[3] = v3_dot( o, d );
1213 }
1214
1215 /*
1216  * Affine transforms
1217  */
1218
1219 static void m4x3_translate( m4x3f m, v3f v )
1220 {
1221    v3_muladds( m[3], m[0], v[0], m[3] );
1222    v3_muladds( m[3], m[1], v[1], m[3] );
1223    v3_muladds( m[3], m[2], v[2], m[3] );
1224 }
1225
1226 static void m4x3_rotate_x( m4x3f m, f32 angle )
1227 {
1228    m4x3f t = M4X3_IDENTITY;
1229    f32 c, s;
1230
1231    c = cosf( angle );
1232    s = sinf( angle );
1233
1234    t[1][1] =  c;
1235    t[1][2] =  s;
1236    t[2][1] = -s;
1237    t[2][2] =  c;
1238
1239    m4x3_mul( m, t, m );
1240 }
1241
1242 static void m4x3_rotate_y( m4x3f m, f32 angle )
1243 {
1244    m4x3f t = M4X3_IDENTITY;
1245    f32 c, s;
1246
1247    c = cosf( angle );
1248    s = sinf( angle );
1249
1250    t[0][0] =  c;
1251    t[0][2] = -s;
1252    t[2][0] =  s;
1253    t[2][2] =  c;
1254
1255    m4x3_mul( m, t, m );
1256 }
1257
1258 static void m4x3_rotate_z( m4x3f m, f32 angle )
1259 {
1260    m4x3f t = M4X3_IDENTITY;
1261    f32 c, s;
1262
1263    c = cosf( angle );
1264    s = sinf( angle );
1265
1266    t[0][0] =  c;
1267    t[0][1] =  s;
1268    t[1][0] = -s;
1269    t[1][1] =  c;
1270
1271    m4x3_mul( m, t, m );
1272 }
1273
1274 static void m4x3_expand( m4x3f m, m4x4f d )
1275 {
1276    v3_copy( m[0], d[0] );
1277    v3_copy( m[1], d[1] );
1278    v3_copy( m[2], d[2] );
1279    v3_copy( m[3], d[3] );
1280    d[0][3] = 0.0f;
1281    d[1][3] = 0.0f;
1282    d[2][3] = 0.0f;
1283    d[3][3] = 1.0f;
1284 }
1285
1286 static void m4x3_decompose( m4x3f m, v3f co, v4f q, v3f s )
1287 {
1288    v3_copy( m[3], co );
1289    s[0] = v3_length(m[0]);
1290    s[1] = v3_length(m[1]);
1291    s[2] = v3_length(m[2]);
1292
1293    m3x3f rot;
1294    v3_divs( m[0], s[0], rot[0] );
1295    v3_divs( m[1], s[1], rot[1] );
1296    v3_divs( m[2], s[2], rot[2] );
1297
1298    m3x3_q( rot, q );
1299 }
1300
1301 static void m4x3_expand_aabb_point( m4x3f m, boxf box, v3f point ){
1302    v3f v;
1303    m4x3_mulv( m, point, v );
1304
1305    v3_minv( box[0], v, box[0] );
1306    v3_maxv( box[1], v, box[1] );
1307 }
1308
1309 static void m4x3_expand_aabb_aabb( m4x3f m, boxf boxa, boxf boxb ){
1310    v3f a; v3f b;
1311    v3_copy( boxb[0], a );
1312    v3_copy( boxb[1], b );
1313    m4x3_expand_aabb_point( m, boxa, (v3f){ a[0], a[1], a[2] } );
1314    m4x3_expand_aabb_point( m, boxa, (v3f){ a[0], b[1], a[2] } );
1315    m4x3_expand_aabb_point( m, boxa, (v3f){ b[0], b[1], a[2] } );
1316    m4x3_expand_aabb_point( m, boxa, (v3f){ b[0], a[1], a[2] } );
1317    m4x3_expand_aabb_point( m, boxa, (v3f){ a[0], a[1], b[2] } );
1318    m4x3_expand_aabb_point( m, boxa, (v3f){ a[0], b[1], b[2] } );
1319    m4x3_expand_aabb_point( m, boxa, (v3f){ b[0], b[1], b[2] } );
1320    m4x3_expand_aabb_point( m, boxa, (v3f){ b[0], a[1], b[2] } );
1321 }
1322 static inline void m4x3_lookat( m4x3f m, v3f pos, v3f target, v3f up )
1323 {
1324    v3f dir;
1325    v3_sub( target, pos, dir );
1326    v3_normalize( dir );
1327
1328    v3_copy( dir, m[2] );
1329
1330    v3_cross( up, m[2], m[0] );
1331    v3_normalize( m[0] );
1332
1333    v3_cross( m[2], m[0], m[1] );
1334    v3_copy( pos, m[3] );
1335 }
1336
1337 /*
1338  * -----------------------------------------------------------------------------
1339  * Section 4.d                  4x4 matrices
1340  * -----------------------------------------------------------------------------
1341  */
1342
1343 #define M4X4_IDENTITY   {{1.0f, 0.0f, 0.0f, 0.0f },\
1344                         { 0.0f, 1.0f, 0.0f, 0.0f },\
1345                         { 0.0f, 0.0f, 1.0f, 0.0f },\
1346                         { 0.0f, 0.0f, 0.0f, 1.0f }}
1347 #define M4X4_ZERO       {{0.0f, 0.0f, 0.0f, 0.0f },\
1348                         { 0.0f, 0.0f, 0.0f, 0.0f },\
1349                         { 0.0f, 0.0f, 0.0f, 0.0f },\
1350                         { 0.0f, 0.0f, 0.0f, 0.0f }}
1351
1352 static void m4x4_projection( m4x4f m, f32 angle,
1353                              f32 ratio, f32 fnear, f32 ffar )
1354 {
1355    f32 scale = tanf( angle * 0.5f * VG_PIf / 180.0f ) * fnear,
1356          r = ratio * scale,
1357          l = -r,
1358          t = scale,
1359          b = -t;
1360
1361    m[0][0] =  2.0f * fnear / (r - l);
1362    m[0][1] =  0.0f;
1363    m[0][2] =  0.0f;
1364    m[0][3] =  0.0f;
1365
1366    m[1][0] =  0.0f;
1367    m[1][1] =  2.0f * fnear / (t - b);
1368    m[1][2] =  0.0f;
1369    m[1][3] =  0.0f;
1370
1371    m[2][0] =  (r + l) / (r - l);
1372    m[2][1] =  (t + b) / (t - b);
1373    m[2][2] = -(ffar + fnear) / (ffar - fnear);
1374    m[2][3] = -1.0f;
1375
1376    m[3][0] =  0.0f;
1377    m[3][1] =  0.0f;
1378    m[3][2] = -2.0f * ffar * fnear / (ffar - fnear);
1379    m[3][3] =  0.0f;
1380 }
1381
1382 static void m4x4_translate( m4x4f m, v3f v )
1383 {
1384    v4_muladds( m[3], m[0], v[0], m[3] );
1385    v4_muladds( m[3], m[1], v[1], m[3] );
1386    v4_muladds( m[3], m[2], v[2], m[3] );
1387 }
1388
1389 static inline void m4x4_copy( m4x4f a, m4x4f b )
1390 {
1391    v4_copy( a[0], b[0] );
1392    v4_copy( a[1], b[1] );
1393    v4_copy( a[2], b[2] );
1394    v4_copy( a[3], b[3] );
1395 }
1396
1397 static inline void m4x4_identity( m4x4f a )
1398 {
1399    m4x4f id = M4X4_IDENTITY;
1400    m4x4_copy( id, a );
1401 }
1402
1403 static inline void m4x4_zero( m4x4f a )
1404 {
1405    m4x4f zero = M4X4_ZERO;
1406    m4x4_copy( zero, a );
1407 }
1408
1409 static inline void m4x4_mul( m4x4f a, m4x4f b, m4x4f d )
1410 {
1411    f32 a00 = a[0][0], a01 = a[0][1], a02 = a[0][2], a03 = a[0][3],
1412          a10 = a[1][0], a11 = a[1][1], a12 = a[1][2], a13 = a[1][3],
1413          a20 = a[2][0], a21 = a[2][1], a22 = a[2][2], a23 = a[2][3],
1414          a30 = a[3][0], a31 = a[3][1], a32 = a[3][2], a33 = a[3][3],
1415
1416          b00 = b[0][0], b01 = b[0][1], b02 = b[0][2], b03 = b[0][3],
1417          b10 = b[1][0], b11 = b[1][1], b12 = b[1][2], b13 = b[1][3],
1418          b20 = b[2][0], b21 = b[2][1], b22 = b[2][2], b23 = b[2][3],
1419          b30 = b[3][0], b31 = b[3][1], b32 = b[3][2], b33 = b[3][3];
1420
1421   d[0][0] = a00*b00 + a10*b01 + a20*b02 + a30*b03;
1422   d[0][1] = a01*b00 + a11*b01 + a21*b02 + a31*b03;
1423   d[0][2] = a02*b00 + a12*b01 + a22*b02 + a32*b03;
1424   d[0][3] = a03*b00 + a13*b01 + a23*b02 + a33*b03;
1425   d[1][0] = a00*b10 + a10*b11 + a20*b12 + a30*b13;
1426   d[1][1] = a01*b10 + a11*b11 + a21*b12 + a31*b13;
1427   d[1][2] = a02*b10 + a12*b11 + a22*b12 + a32*b13;
1428   d[1][3] = a03*b10 + a13*b11 + a23*b12 + a33*b13;
1429   d[2][0] = a00*b20 + a10*b21 + a20*b22 + a30*b23;
1430   d[2][1] = a01*b20 + a11*b21 + a21*b22 + a31*b23;
1431   d[2][2] = a02*b20 + a12*b21 + a22*b22 + a32*b23;
1432   d[2][3] = a03*b20 + a13*b21 + a23*b22 + a33*b23;
1433   d[3][0] = a00*b30 + a10*b31 + a20*b32 + a30*b33;
1434   d[3][1] = a01*b30 + a11*b31 + a21*b32 + a31*b33;
1435   d[3][2] = a02*b30 + a12*b31 + a22*b32 + a32*b33;
1436   d[3][3] = a03*b30 + a13*b31 + a23*b32 + a33*b33;
1437 }
1438
1439 static inline void m4x4_mulv( m4x4f m, v4f v, v4f d )
1440 {
1441    v4f res;
1442
1443    res[0] = m[0][0]*v[0] + m[1][0]*v[1] + m[2][0]*v[2] + m[3][0]*v[3];
1444    res[1] = m[0][1]*v[0] + m[1][1]*v[1] + m[2][1]*v[2] + m[3][1]*v[3];
1445    res[2] = m[0][2]*v[0] + m[1][2]*v[1] + m[2][2]*v[2] + m[3][2]*v[3];
1446    res[3] = m[0][3]*v[0] + m[1][3]*v[1] + m[2][3]*v[2] + m[3][3]*v[3];
1447
1448    v4_copy( res, d );
1449 }
1450
1451 static inline void m4x4_inv( m4x4f a, m4x4f d )
1452 {
1453    f32 a00 = a[0][0], a01 = a[0][1], a02 = a[0][2], a03 = a[0][3],
1454          a10 = a[1][0], a11 = a[1][1], a12 = a[1][2], a13 = a[1][3],
1455          a20 = a[2][0], a21 = a[2][1], a22 = a[2][2], a23 = a[2][3],
1456          a30 = a[3][0], a31 = a[3][1], a32 = a[3][2], a33 = a[3][3],
1457          det,
1458          t[6];
1459
1460    t[0] = a22*a33 - a32*a23;
1461    t[1] = a21*a33 - a31*a23;
1462    t[2] = a21*a32 - a31*a22;
1463    t[3] = a20*a33 - a30*a23;
1464    t[4] = a20*a32 - a30*a22;
1465    t[5] = a20*a31 - a30*a21;
1466
1467    d[0][0] =  a11*t[0] - a12*t[1] + a13*t[2];
1468    d[1][0] =-(a10*t[0] - a12*t[3] + a13*t[4]);
1469    d[2][0] =  a10*t[1] - a11*t[3] + a13*t[5];
1470    d[3][0] =-(a10*t[2] - a11*t[4] + a12*t[5]);
1471
1472    d[0][1] =-(a01*t[0] - a02*t[1] + a03*t[2]);
1473    d[1][1] =  a00*t[0] - a02*t[3] + a03*t[4];
1474    d[2][1] =-(a00*t[1] - a01*t[3] + a03*t[5]);
1475    d[3][1] =  a00*t[2] - a01*t[4] + a02*t[5];
1476
1477    t[0] = a12*a33 - a32*a13;
1478    t[1] = a11*a33 - a31*a13;
1479    t[2] = a11*a32 - a31*a12;
1480    t[3] = a10*a33 - a30*a13;
1481    t[4] = a10*a32 - a30*a12;
1482    t[5] = a10*a31 - a30*a11;
1483
1484    d[0][2] =  a01*t[0] - a02*t[1] + a03*t[2];
1485    d[1][2] =-(a00*t[0] - a02*t[3] + a03*t[4]);
1486    d[2][2] =  a00*t[1] - a01*t[3] + a03*t[5];
1487    d[3][2] =-(a00*t[2] - a01*t[4] + a02*t[5]);
1488
1489    t[0] = a12*a23 - a22*a13;
1490    t[1] = a11*a23 - a21*a13;
1491    t[2] = a11*a22 - a21*a12;
1492    t[3] = a10*a23 - a20*a13;
1493    t[4] = a10*a22 - a20*a12;
1494    t[5] = a10*a21 - a20*a11;
1495
1496    d[0][3] =-(a01*t[0] - a02*t[1] + a03*t[2]);
1497    d[1][3] =  a00*t[0] - a02*t[3] + a03*t[4];
1498    d[2][3] =-(a00*t[1] - a01*t[3] + a03*t[5]);
1499    d[3][3] =  a00*t[2] - a01*t[4] + a02*t[5];
1500
1501    det = 1.0f / (a00*d[0][0] + a01*d[1][0] + a02*d[2][0] + a03*d[3][0]);
1502    v4_muls( d[0], det, d[0] );
1503    v4_muls( d[1], det, d[1] );
1504    v4_muls( d[2], det, d[2] );
1505    v4_muls( d[3], det, d[3] );
1506 }
1507
1508 /*
1509  * -----------------------------------------------------------------------------
1510  * Section 5.a                       Boxes
1511  * -----------------------------------------------------------------------------
1512  */
1513
1514 static inline void box_addpt( boxf a, v3f pt )
1515 {
1516    v3_minv( a[0], pt, a[0] );
1517    v3_maxv( a[1], pt, a[1] );
1518 }
1519
1520 static inline void box_concat( boxf a, boxf b )
1521 {
1522    v3_minv( a[0], b[0], a[0] );
1523    v3_maxv( a[1], b[1], a[1] );
1524 }
1525
1526 static inline void box_copy( boxf a, boxf b )
1527 {
1528    v3_copy( a[0], b[0] );
1529    v3_copy( a[1], b[1] );
1530 }
1531
1532 static inline int box_overlap( boxf a, boxf b )
1533 {
1534    return
1535    ( a[0][0] <= b[1][0] && a[1][0] >= b[0][0] ) &&
1536    ( a[0][1] <= b[1][1] && a[1][1] >= b[0][1] ) &&
1537    ( a[0][2] <= b[1][2] && a[1][2] >= b[0][2] )
1538    ;
1539 }
1540
1541 static int box_within( boxf greater, boxf lesser )
1542 {
1543    v3f a, b;
1544    v3_sub( lesser[0], greater[0], a );
1545    v3_sub( lesser[1], greater[1], b );
1546
1547    if( (a[0] >= 0.0f) && (a[1] >= 0.0f) && (a[2] >= 0.0f) &&
1548        (b[0] <= 0.0f) && (b[1] <= 0.0f) && (b[2] <= 0.0f) )
1549    {
1550       return 1;
1551    }
1552
1553    return 0;
1554 }
1555
1556 static inline void box_init_inf( boxf box ){
1557    v3_fill( box[0],  INFINITY );
1558    v3_fill( box[1], -INFINITY );
1559 }
1560
1561 /*
1562  * -----------------------------------------------------------------------------
1563  * Section 5.b                       Planes
1564  * -----------------------------------------------------------------------------
1565  */
1566
1567 static inline void tri_to_plane( f64 a[3], f64 b[3],
1568       f64 c[3], f64 p[4] )
1569 {
1570    f64 edge0[3];
1571    f64 edge1[3];
1572    f64 l;
1573
1574    edge0[0] = b[0] - a[0];
1575    edge0[1] = b[1] - a[1];
1576    edge0[2] = b[2] - a[2];
1577
1578    edge1[0] = c[0] - a[0];
1579    edge1[1] = c[1] - a[1];
1580    edge1[2] = c[2] - a[2];
1581
1582    p[0] = edge0[1] * edge1[2] - edge0[2] * edge1[1];
1583    p[1] = edge0[2] * edge1[0] - edge0[0] * edge1[2];
1584    p[2] = edge0[0] * edge1[1] - edge0[1] * edge1[0];
1585
1586    l = sqrt(p[0] * p[0] + p[1] * p[1] + p[2] * p[2]);
1587    p[3] = (p[0] * a[0] + p[1] * a[1] + p[2] * a[2]) / l;
1588
1589    p[0] = p[0] / l;
1590    p[1] = p[1] / l;
1591    p[2] = p[2] / l;
1592 }
1593
1594 static int plane_intersect3( v4f a, v4f b, v4f c, v3f p )
1595 {
1596    f32 const epsilon = 1e-6f;
1597
1598    v3f x;
1599    v3_cross( a, b, x );
1600    f32 d = v3_dot( x, c );
1601
1602    if( (d < epsilon) && (d > -epsilon) ) return 0;
1603
1604    v3f v0, v1, v2;
1605    v3_cross( b, c, v0 );
1606    v3_cross( c, a, v1 );
1607    v3_cross( a, b, v2 );
1608
1609    v3_muls(       v0, a[3], p );
1610    v3_muladds( p, v1, b[3], p );
1611    v3_muladds( p, v2, c[3], p );
1612    v3_divs( p, d, p );
1613
1614    return 1;
1615 }
1616
1617 int plane_intersect2( v4f a, v4f b, v3f p, v3f n )
1618 {
1619    f32 const epsilon = 1e-6f;
1620
1621    v4f c;
1622    v3_cross( a, b, c );
1623    f32 d = v3_length2( c );
1624
1625    if( (d < epsilon) && (d > -epsilon) )
1626       return 0;
1627
1628    v3f v0, v1, vx;
1629    v3_cross( c, b, v0 );
1630    v3_cross( a, c, v1 );
1631
1632    v3_muls( v0, a[3], vx );
1633    v3_muladds( vx, v1, b[3], vx );
1634    v3_divs( vx, d, p );
1635    v3_copy( c, n );
1636
1637    return 1;
1638 }
1639
1640 static int plane_segment( v4f plane, v3f a, v3f b, v3f co )
1641 {
1642    f32 d0 = v3_dot( a, plane ) - plane[3],
1643        d1 = v3_dot( b, plane ) - plane[3];
1644
1645    if( d0*d1 < 0.0f )
1646    {
1647       f32 tot = 1.0f/( fabsf(d0)+fabsf(d1) );
1648
1649       v3_muls( a, fabsf(d1) * tot, co );
1650       v3_muladds( co, b, fabsf(d0) * tot, co );
1651       return 1;
1652    }
1653
1654    return 0;
1655 }
1656
1657 static inline f64 plane_polarity( f64 p[4], f64 a[3] )
1658 {
1659    return
1660    (a[0] * p[0] + a[1] * p[1] + a[2] * p[2])
1661    -(p[0]*p[3] * p[0] + p[1]*p[3] * p[1] + p[2]*p[3] * p[2])
1662    ;
1663 }
1664
1665 static f32 ray_plane( v4f plane, v3f co, v3f dir ){
1666    f32 d = v3_dot( plane, dir );
1667    if( fabsf(d) > 1e-6f ){
1668       v3f v0;
1669       v3_muls( plane, plane[3], v0 );
1670       v3_sub( v0, co, v0 );
1671       return v3_dot( v0, plane ) / d;
1672    }
1673    else return INFINITY;
1674 }
1675
1676 /*
1677  * -----------------------------------------------------------------------------
1678  * Section 5.c            Closest point functions
1679  * -----------------------------------------------------------------------------
1680  */
1681
1682 /*
1683  * These closest point tests were learned from Real-Time Collision Detection by
1684  * Christer Ericson
1685  */
1686 static f32 closest_segment_segment( v3f p1, v3f q1, v3f p2, v3f q2,
1687    f32 *s, f32 *t, v3f c1, v3f c2)
1688 {
1689    v3f d1,d2,r;
1690    v3_sub( q1, p1, d1 );
1691    v3_sub( q2, p2, d2 );
1692    v3_sub( p1, p2, r );
1693
1694    f32 a = v3_length2( d1 ),
1695          e = v3_length2( d2 ),
1696          f = v3_dot( d2, r );
1697
1698    const f32 kEpsilon = 0.0001f;
1699
1700    if( a <= kEpsilon && e <= kEpsilon )
1701    {
1702       *s = 0.0f;
1703       *t = 0.0f;
1704       v3_copy( p1, c1 );
1705       v3_copy( p2, c2 );
1706
1707       v3f v0;
1708       v3_sub( c1, c2, v0 );
1709
1710       return v3_length2( v0 );
1711    }
1712
1713    if( a<= kEpsilon )
1714    {
1715       *s = 0.0f;
1716       *t = vg_clampf( f / e, 0.0f, 1.0f );
1717    }
1718    else
1719    {
1720       f32 c = v3_dot( d1, r );
1721       if( e <= kEpsilon )
1722       {
1723          *t = 0.0f;
1724          *s = vg_clampf( -c / a, 0.0f, 1.0f );
1725       }
1726       else
1727       {
1728          f32 b = v3_dot(d1,d2),
1729                d = a*e-b*b;
1730
1731          if( d != 0.0f )
1732          {
1733             *s = vg_clampf((b*f - c*e)/d, 0.0f, 1.0f);
1734          }
1735          else
1736          {
1737             *s = 0.0f;
1738          }
1739
1740          *t = (b*(*s)+f) / e;
1741
1742          if( *t < 0.0f )
1743          {
1744             *t = 0.0f;
1745             *s = vg_clampf( -c / a, 0.0f, 1.0f );
1746          }
1747          else if( *t > 1.0f )
1748          {
1749             *t = 1.0f;
1750             *s = vg_clampf((b-c)/a,0.0f,1.0f);
1751          }
1752       }
1753    }
1754
1755    v3_muladds( p1, d1, *s, c1 );
1756    v3_muladds( p2, d2, *t, c2 );
1757
1758    v3f v0;
1759    v3_sub( c1, c2, v0 );
1760    return v3_length2( v0 );
1761 }
1762
1763 static int point_inside_aabb( boxf box, v3f point )
1764 {
1765    if((point[0]<=box[1][0]) && (point[1]<=box[1][1]) && (point[2]<=box[1][2]) &&
1766       (point[0]>=box[0][0]) && (point[1]>=box[0][1]) && (point[2]>=box[0][2]) )
1767       return 1;
1768    else
1769       return 0;
1770 }
1771
1772 static void closest_point_aabb( v3f p, boxf box, v3f dest )
1773 {
1774    v3_maxv( p, box[0], dest );
1775    v3_minv( dest, box[1], dest );
1776 }
1777
1778 static void closest_point_obb( v3f p, boxf box,
1779                                   m4x3f mtx, m4x3f inv_mtx, v3f dest )
1780 {
1781    v3f local;
1782    m4x3_mulv( inv_mtx, p, local );
1783    closest_point_aabb( local, box, local );
1784    m4x3_mulv( mtx, local, dest );
1785 }
1786
1787 static f32 closest_point_segment( v3f a, v3f b, v3f point, v3f dest )
1788 {
1789    v3f v0, v1;
1790    v3_sub( b, a, v0 );
1791    v3_sub( point, a, v1 );
1792
1793    f32 t = v3_dot( v1, v0 ) / v3_length2(v0);
1794    t = vg_clampf(t,0.0f,1.0f);
1795    v3_muladds( a, v0, t, dest );
1796    return t;
1797 }
1798
1799 static void closest_on_triangle( v3f p, v3f tri[3], v3f dest )
1800 {
1801    v3f ab, ac, ap;
1802    f32 d1, d2;
1803
1804    /* Region outside A */
1805    v3_sub( tri[1], tri[0], ab );
1806    v3_sub( tri[2], tri[0], ac );
1807    v3_sub( p, tri[0], ap );
1808
1809    d1 = v3_dot(ab,ap);
1810    d2 = v3_dot(ac,ap);
1811    if( d1 <= 0.0f && d2 <= 0.0f )
1812    {
1813       v3_copy( tri[0], dest );
1814       v3_copy( (v3f){INFINITY,INFINITY,INFINITY}, dest );
1815       return;
1816    }
1817
1818    /* Region outside B */
1819    v3f bp;
1820    f32 d3, d4;
1821
1822    v3_sub( p, tri[1], bp );
1823    d3 = v3_dot( ab, bp );
1824    d4 = v3_dot( ac, bp );
1825
1826    if( d3 >= 0.0f && d4 <= d3 )
1827    {
1828       v3_copy( tri[1], dest );
1829       v3_copy( (v3f){INFINITY,INFINITY,INFINITY}, dest );
1830       return;
1831    }
1832
1833    /* Edge region of AB */
1834    f32 vc = d1*d4 - d3*d2;
1835    if( vc <= 0.0f && d1 >= 0.0f && d3 <= 0.0f )
1836    {
1837       f32 v = d1 / (d1-d3);
1838       v3_muladds( tri[0], ab, v, dest );
1839       v3_copy( (v3f){INFINITY,INFINITY,INFINITY}, dest );
1840       return;
1841    }
1842
1843    /* Region outside C */
1844    v3f cp;
1845    f32 d5, d6;
1846    v3_sub( p, tri[2], cp );
1847    d5 = v3_dot(ab, cp);
1848    d6 = v3_dot(ac, cp);
1849
1850    if( d6 >= 0.0f && d5 <= d6 )
1851    {
1852       v3_copy( tri[2], dest );
1853       v3_copy( (v3f){INFINITY,INFINITY,INFINITY}, dest );
1854       return;
1855    }
1856
1857    /* Region of AC */
1858    f32 vb = d5*d2 - d1*d6;
1859    if( vb <= 0.0f && d2 >= 0.0f && d6 <= 0.0f )
1860    {
1861       f32 w = d2 / (d2-d6);
1862       v3_muladds( tri[0], ac, w, dest );
1863       v3_copy( (v3f){INFINITY,INFINITY,INFINITY}, dest );
1864       return;
1865    }
1866
1867    /* Region of BC */
1868    f32 va = d3*d6 - d5*d4;
1869    if( va <= 0.0f && (d4-d3) >= 0.0f && (d5-d6) >= 0.0f )
1870    {
1871       f32 w = (d4-d3) / ((d4-d3) + (d5-d6));
1872       v3f bc;
1873       v3_sub( tri[2], tri[1], bc );
1874       v3_muladds( tri[1], bc, w, dest );
1875       v3_copy( (v3f){INFINITY,INFINITY,INFINITY}, dest );
1876       return;
1877    }
1878
1879    /* P inside region, Q via barycentric coordinates uvw */
1880    f32 d = 1.0f/(va+vb+vc),
1881          v = vb*d,
1882          w = vc*d;
1883
1884    v3_muladds( tri[0], ab, v, dest );
1885    v3_muladds( dest, ac, w, dest );
1886 }
1887
1888 enum contact_type
1889 {
1890    k_contact_type_default,
1891    k_contact_type_disabled,
1892    k_contact_type_edge
1893 };
1894
1895 static enum contact_type closest_on_triangle_1( v3f p, v3f tri[3], v3f dest )
1896 {
1897    v3f ab, ac, ap;
1898    f32 d1, d2;
1899
1900    /* Region outside A */
1901    v3_sub( tri[1], tri[0], ab );
1902    v3_sub( tri[2], tri[0], ac );
1903    v3_sub( p, tri[0], ap );
1904
1905    d1 = v3_dot(ab,ap);
1906    d2 = v3_dot(ac,ap);
1907    if( d1 <= 0.0f && d2 <= 0.0f )
1908    {
1909       v3_copy( tri[0], dest );
1910       return k_contact_type_default;
1911    }
1912
1913    /* Region outside B */
1914    v3f bp;
1915    f32 d3, d4;
1916
1917    v3_sub( p, tri[1], bp );
1918    d3 = v3_dot( ab, bp );
1919    d4 = v3_dot( ac, bp );
1920
1921    if( d3 >= 0.0f && d4 <= d3 )
1922    {
1923       v3_copy( tri[1], dest );
1924       return k_contact_type_edge;
1925    }
1926
1927    /* Edge region of AB */
1928    f32 vc = d1*d4 - d3*d2;
1929    if( vc <= 0.0f && d1 >= 0.0f && d3 <= 0.0f )
1930    {
1931       f32 v = d1 / (d1-d3);
1932       v3_muladds( tri[0], ab, v, dest );
1933       return k_contact_type_edge;
1934    }
1935
1936    /* Region outside C */
1937    v3f cp;
1938    f32 d5, d6;
1939    v3_sub( p, tri[2], cp );
1940    d5 = v3_dot(ab, cp);
1941    d6 = v3_dot(ac, cp);
1942
1943    if( d6 >= 0.0f && d5 <= d6 )
1944    {
1945       v3_copy( tri[2], dest );
1946       return k_contact_type_edge;
1947    }
1948
1949    /* Region of AC */
1950    f32 vb = d5*d2 - d1*d6;
1951    if( vb <= 0.0f && d2 >= 0.0f && d6 <= 0.0f )
1952    {
1953       f32 w = d2 / (d2-d6);
1954       v3_muladds( tri[0], ac, w, dest );
1955       return k_contact_type_edge;
1956    }
1957
1958    /* Region of BC */
1959    f32 va = d3*d6 - d5*d4;
1960    if( va <= 0.0f && (d4-d3) >= 0.0f && (d5-d6) >= 0.0f )
1961    {
1962       f32 w = (d4-d3) / ((d4-d3) + (d5-d6));
1963       v3f bc;
1964       v3_sub( tri[2], tri[1], bc );
1965       v3_muladds( tri[1], bc, w, dest );
1966       return k_contact_type_edge;
1967    }
1968
1969    /* P inside region, Q via barycentric coordinates uvw */
1970    f32 d = 1.0f/(va+vb+vc),
1971          v = vb*d,
1972          w = vc*d;
1973
1974    v3_muladds( tri[0], ab, v, dest );
1975    v3_muladds( dest, ac, w, dest );
1976
1977    return k_contact_type_default;
1978 }
1979
1980 static void closest_point_elipse( v2f p, v2f e, v2f o )
1981 {
1982    v2f pabs, ei, e2, ve, t;
1983
1984    v2_abs( p, pabs );
1985    v2_div( (v2f){ 1.0f, 1.0f }, e, ei );
1986    v2_mul( e, e, e2 );
1987    v2_mul( ei, (v2f){ e2[0]-e2[1], e2[1]-e2[0] }, ve );
1988
1989    v2_fill( t, 0.70710678118654752f );
1990
1991    for( int i=0; i<3; i++ ){
1992       v2f v, u, ud, w;
1993
1994       v2_mul( ve, t, v );  /* ve*t*t*t */
1995       v2_mul( v, t, v );
1996       v2_mul( v, t, v );
1997
1998       v2_sub( pabs, v, u );
1999       v2_normalize( u );
2000
2001       v2_mul( t, e, ud );
2002       v2_sub( ud, v, ud );
2003
2004       v2_muls( u, v2_length( ud ), u );
2005
2006       v2_add( v, u, w );
2007       v2_mul( w, ei, w );
2008
2009       v2_maxv( (v2f){0.0f,0.0f}, w, t );
2010       v2_normalize( t );
2011    }
2012
2013    v2_mul( t, e, o );
2014    v2_copysign( o, p );
2015 }
2016
2017 /*
2018  * -----------------------------------------------------------------------------
2019  * Section 5.d               Raycasts & Spherecasts
2020  * -----------------------------------------------------------------------------
2021  */
2022
2023 int ray_aabb1( boxf box, v3f co, v3f dir_inv, f32 dist )
2024 {
2025    v3f v0, v1;
2026    f32 tmin, tmax;
2027
2028    v3_sub( box[0], co, v0 );
2029    v3_sub( box[1], co, v1 );
2030
2031    v3_mul( v0, dir_inv, v0 );
2032    v3_mul( v1, dir_inv, v1 );
2033
2034    tmin = vg_minf( v0[0], v1[0] );
2035    tmax = vg_maxf( v0[0], v1[0] );
2036    tmin = vg_maxf( tmin, vg_minf( v0[1], v1[1] ));
2037    tmax = vg_minf( tmax, vg_maxf( v0[1], v1[1] ));
2038    tmin = vg_maxf( tmin, vg_minf( v0[2], v1[2] ));
2039    tmax = vg_minf( tmax, vg_maxf( v0[2], v1[2] ));
2040
2041    return (tmax >= tmin) && (tmin <= dist) && (tmax >= 0.0f);
2042 }
2043
2044 /* Time of intersection with ray vs triangle */
2045 static int ray_tri( v3f tri[3], v3f co,
2046                     v3f dir, f32 *dist, int backfaces )
2047 {
2048    f32 const kEpsilon = 0.00001f;
2049
2050    v3f v0, v1, h, s, q, n;
2051    f32 a,f,u,v,t;
2052
2053    f32 *pa = tri[0],
2054          *pb = tri[1],
2055          *pc = tri[2];
2056
2057    v3_sub( pb, pa, v0 );
2058    v3_sub( pc, pa, v1 );
2059    v3_cross( dir, v1, h );
2060    v3_cross( v0, v1, n );
2061
2062    if( (v3_dot( n, dir ) > 0.0f) && !backfaces ) /* Backface culling */
2063       return 0;
2064
2065    /* Parralel */
2066    a = v3_dot( v0, h );
2067
2068    if( a > -kEpsilon && a < kEpsilon )
2069       return 0;
2070
2071    f = 1.0f/a;
2072    v3_sub( co, pa, s );
2073
2074    u = f * v3_dot(s, h);
2075    if( u < 0.0f || u > 1.0f )
2076       return 0;
2077
2078    v3_cross( s, v0, q );
2079    v = f * v3_dot( dir, q );
2080    if( v < 0.0f || u+v > 1.0f )
2081       return 0;
2082
2083    t = f * v3_dot(v1, q);
2084    if( t > kEpsilon )
2085    {
2086       *dist = t;
2087       return 1;
2088    }
2089    else return 0;
2090 }
2091
2092 /* time of intersection with ray vs sphere */
2093 static int ray_sphere( v3f c, f32 r,
2094                        v3f co, v3f dir, f32 *t )
2095 {
2096    v3f m;
2097    v3_sub( co, c, m );
2098
2099    f32 b  = v3_dot( m, dir ),
2100          c1 = v3_dot( m, m ) - r*r;
2101
2102    /* Exit if r’s origin outside s (c > 0) and r pointing away from s (b > 0) */
2103    if( c1 > 0.0f && b > 0.0f )
2104       return 0;
2105
2106    f32 discr = b*b - c1;
2107
2108    /* A negative discriminant corresponds to ray missing sphere */
2109    if( discr < 0.0f )
2110       return 0;
2111
2112    /*
2113     * Ray now found to intersect sphere, compute smallest t value of
2114     * intersection
2115     */
2116    *t = -b - sqrtf( discr );
2117
2118    /* If t is negative, ray started inside sphere so clamp t to zero */
2119    if( *t < 0.0f )
2120       *t = 0.0f;
2121
2122    return 1;
2123 }
2124
2125 /*
2126  * time of intersection of ray vs cylinder
2127  * The cylinder does not have caps but is finite
2128  *
2129  * Heavily adapted from regular segment vs cylinder from:
2130  *    Real-Time Collision Detection
2131  */
2132 static int ray_uncapped_finite_cylinder( v3f q, v3f p, f32 r,
2133                                          v3f co, v3f dir, f32 *t )
2134 {
2135    v3f d, m, n, sb;
2136    v3_muladds( co, dir, 1.0f, sb );
2137
2138    v3_sub( q, p, d );
2139    v3_sub( co, p, m );
2140    v3_sub( sb, co, n );
2141
2142    f32 md = v3_dot( m, d ),
2143          nd = v3_dot( n, d ),
2144          dd = v3_dot( d, d ),
2145          nn = v3_dot( n, n ),
2146          mn = v3_dot( m, n ),
2147          a  = dd*nn - nd*nd,
2148          k  = v3_dot( m, m ) - r*r,
2149          c  = dd*k - md*md;
2150
2151    if( fabsf(a) < 0.00001f )
2152    {
2153       /* Segment runs parallel to cylinder axis */
2154       return 0;
2155    }
2156
2157    f32 b     = dd*mn - nd*md,
2158          discr = b*b - a*c;
2159
2160    if( discr < 0.0f )
2161       return 0; /* No real roots; no intersection */
2162
2163    *t = (-b - sqrtf(discr)) / a;
2164    if( *t < 0.0f )
2165       return 0; /* Intersection behind ray */
2166
2167    /* Check within cylinder segment */
2168    if( md + (*t)*nd < 0.0f )
2169       return 0;
2170
2171    if( md + (*t)*nd > dd )
2172       return 0;
2173
2174    /* Segment intersects cylinder between the endcaps; t is correct */
2175    return 1;
2176 }
2177
2178 /*
2179  * Time of intersection of sphere and triangle. Origin must be outside the
2180  * colliding area. This is a fairly long procedure.
2181  */
2182 static int spherecast_triangle( v3f tri[3],
2183                                 v3f co, v3f dir, f32 r, f32 *t, v3f n )
2184 {
2185    v3f sum[3];
2186    v3f v0, v1;
2187
2188    v3_sub( tri[1], tri[0], v0 );
2189    v3_sub( tri[2], tri[0], v1 );
2190    v3_cross( v0, v1, n );
2191    v3_normalize( n );
2192    v3_muladds( tri[0], n, r, sum[0] );
2193    v3_muladds( tri[1], n, r, sum[1] );
2194    v3_muladds( tri[2], n, r, sum[2] );
2195
2196    int hit = 0;
2197    f32 t_min = INFINITY,
2198          t1;
2199
2200    if( ray_tri( sum, co, dir, &t1, 0 ) ){
2201       t_min = vg_minf( t_min, t1 );
2202       hit = 1;
2203    }
2204
2205    /*
2206     * Currently disabled; ray_sphere requires |d| = 1. it is not very important.
2207     */
2208 #if 0
2209    for( int i=0; i<3; i++ ){
2210       if( ray_sphere( tri[i], r, co, dir, &t1 ) ){
2211          t_min = vg_minf( t_min, t1 );
2212          hit = 1;
2213       }
2214    }
2215 #endif
2216
2217    for( int i=0; i<3; i++ ){
2218       int i0 =  i,
2219           i1 = (i+1)%3;
2220
2221       if( ray_uncapped_finite_cylinder( tri[i0], tri[i1], r, co, dir, &t1 ) ){
2222          if( t1 < t_min ){
2223             t_min = t1;
2224
2225             v3f co1, ct, cx;
2226             v3_add( dir, co, co1 );
2227             v3_lerp( co, co1, t_min, ct );
2228
2229             closest_point_segment( tri[i0], tri[i1], ct, cx );
2230             v3_sub( ct, cx, n );
2231             v3_normalize( n );
2232          }
2233
2234          hit = 1;
2235       }
2236    }
2237
2238    *t = t_min;
2239    return hit;
2240 }
2241
2242 /*
2243  * -----------------------------------------------------------------------------
2244  * Section 5.e                       Curves
2245  * -----------------------------------------------------------------------------
2246  */
2247
2248 static void eval_bezier_time( v3f p0, v3f p1, v3f h0, v3f h1, f32 t, v3f p )
2249 {
2250    f32 tt = t*t,
2251          ttt = tt*t;
2252
2253    v3_muls( p1, ttt, p );
2254    v3_muladds( p, h1, 3.0f*tt  -3.0f*ttt, p );
2255    v3_muladds( p, h0, 3.0f*ttt -6.0f*tt  +3.0f*t, p );
2256    v3_muladds( p, p0, 3.0f*tt  -ttt -3.0f*t +1.0f, p );
2257 }
2258
2259 static void eval_bezier3( v3f p0, v3f p1, v3f p2, f32 t, v3f p )
2260 {
2261    f32 u = 1.0f-t;
2262
2263    v3_muls( p0, u*u, p );
2264    v3_muladds( p, p1, 2.0f*u*t, p );
2265    v3_muladds( p, p2, t*t, p );
2266 }
2267
2268 /*
2269  * -----------------------------------------------------------------------------
2270  * Section 5.f                      Volumes
2271  * -----------------------------------------------------------------------------
2272  */
2273
2274 static f32 vg_sphere_volume( f32 r ){
2275    return (4.0f/3.0f) * VG_PIf * r*r*r;
2276 }
2277
2278 static f32 vg_box_volume( boxf box ){
2279    v3f e;
2280    v3_sub( box[1], box[0], e );
2281    return e[0]*e[1]*e[2];
2282 }
2283
2284 static f32 vg_cylinder_volume( f32 r, f32 h ){
2285    return VG_PIf * r*r * h;
2286 }
2287
2288 static f32 vg_capsule_volume( f32 r, f32 h ){
2289    return vg_sphere_volume( r ) + vg_cylinder_volume( r, h-r*2.0f );
2290 }
2291
2292 static void vg_sphere_bound( f32 r, boxf out_box ){
2293    v3_fill( out_box[0], -r );
2294    v3_fill( out_box[1],  r );
2295 }
2296
2297 static void vg_capsule_bound( f32 r, f32 h, boxf out_box ){
2298    v3_copy( (v3f){-r,-h*0.5f,r}, out_box[0] );
2299    v3_copy( (v3f){-r, h*0.5f,r}, out_box[1] );
2300 }
2301
2302
2303 /*
2304  * -----------------------------------------------------------------------------
2305  * Section 5.g                  Inertia Tensors
2306  * -----------------------------------------------------------------------------
2307  */
2308
2309 /*
2310  * Translate existing inertia tensor
2311  */
2312 static void vg_translate_inertia( m3x3f inout_inertia, f32 mass, v3f d ){
2313    /*
2314     * I = I_0 + m*[(d.d)E_3 - d(X)d]
2315     *
2316     * I:   updated tensor
2317     * I_0: original tensor
2318     * m:   scalar mass
2319     * d:   translation vector
2320     * (X): outer product
2321     * E_3: identity matrix
2322     */
2323    m3x3f t, outer, scale;
2324    m3x3_diagonal( t, v3_dot(d,d) );
2325    m3x3_outer_product( outer, d, d );
2326    m3x3_sub( t, outer, t );
2327    m3x3_diagonal( scale, mass );
2328    m3x3_mul( scale, t, t );
2329    m3x3_add( inout_inertia, t, inout_inertia );
2330 }
2331
2332 /*
2333  * Rotate existing inertia tensor
2334  */
2335 static void vg_rotate_inertia( m3x3f inout_inertia, m3x3f rotation ){
2336    /*
2337     *  I = R I_0 R^T
2338     *
2339     *  I:   updated tensor
2340     *  I_0: original tensor
2341     *  R:   rotation matrix
2342     *  R^T: tranposed rotation matrix
2343     */
2344
2345    m3x3f Rt;
2346    m3x3_transpose( rotation, Rt );
2347    m3x3_mul( rotation, inout_inertia, inout_inertia );
2348    m3x3_mul( inout_inertia, Rt, inout_inertia );
2349 }
2350 /*
2351  * Create inertia tensor for box
2352  */
2353 static void vg_box_inertia( boxf box, f32 mass, m3x3f out_inertia ){
2354    v3f e, com;
2355    v3_sub( box[1], box[0], e );
2356    v3_muladds( box[0], e, 0.5f, com );
2357
2358    f32 ex2 = e[0]*e[0],
2359        ey2 = e[1]*e[1],
2360        ez2 = e[2]*e[2],
2361        ix  = (ey2+ez2) * mass * (1.0f/12.0f),
2362        iy  = (ex2+ez2) * mass * (1.0f/12.0f),
2363        iz  = (ex2+ey2) * mass * (1.0f/12.0f);
2364
2365    m3x3_identity( out_inertia );
2366    m3x3_setdiagonalv3( out_inertia, (v3f){ ix, iy, iz } );
2367    vg_translate_inertia( out_inertia, mass, com );
2368 }
2369
2370 /*
2371  * Create inertia tensor for sphere
2372  */
2373 static void vg_sphere_inertia( f32 r, f32 mass, m3x3f out_inertia ){
2374    f32 ixyz = r*r * mass * (2.0f/5.0f);
2375
2376    m3x3_identity( out_inertia );
2377    m3x3_setdiagonalv3( out_inertia, (v3f){ ixyz, ixyz, ixyz } );
2378 }
2379
2380 /*
2381  * Create inertia tensor for capsule
2382  */
2383 static void vg_capsule_inertia( f32 r, f32 h, f32 mass, m3x3f out_inertia ){
2384    f32 density = mass / vg_capsule_volume( r, h ),
2385        ch  = h-r*2.0f, /* cylinder height */
2386        cm  = VG_PIf * ch*r*r * density, /* cylinder mass */
2387        hm  = VG_TAUf * (1.0f/3.0f) * r*r*r * density, /* hemisphere mass */
2388
2389        iy  = r*r*cm * 0.5f,
2390        ixz = iy * 0.5f + cm*ch*ch*(1.0f/12.0f),
2391
2392        aux0= (hm*2.0f*r*r)/5.0f;
2393
2394    iy += aux0 * 2.0f;
2395
2396    f32 aux1= ch*0.5f,
2397        aux2= aux0 + hm*(aux1*aux1 + 3.0f*(1.0f/8.0f)*ch*r);
2398
2399    ixz += aux2*2.0f;
2400
2401    m3x3_identity( out_inertia );
2402    m3x3_setdiagonalv3( out_inertia, (v3f){ ixz, iy, ixz } );
2403 }
2404
2405 /*
2406  * -----------------------------------------------------------------------------
2407  * Section 6.a            PSRNG and some distributions
2408  * -----------------------------------------------------------------------------
2409  */
2410
2411 /* An implementation of the MT19937 Algorithm for the Mersenne Twister
2412  * by Evan Sultanik.  Based upon the pseudocode in: M. Matsumoto and
2413  * T. Nishimura, "Mersenne Twister: A 623-dimensionally
2414  * equidistributed uniform pseudorandom number generator," ACM
2415  * Transactions on Modeling and Computer Simulation Vol. 8, No. 1,
2416  * January pp.3-30 1998.
2417  *
2418  * http://www.sultanik.com/Mersenne_twister
2419  * https://github.com/ESultanik/mtwister/blob/master/mtwister.c
2420  */
2421
2422 #define MT_UPPER_MASK         0x80000000
2423 #define MT_LOWER_MASK         0x7fffffff
2424 #define MT_TEMPERING_MASK_B   0x9d2c5680
2425 #define MT_TEMPERING_MASK_C   0xefc60000
2426
2427 #define MT_STATE_VECTOR_LENGTH 624
2428
2429 /* changes to STATE_VECTOR_LENGTH also require changes to this */
2430 #define MT_STATE_VECTOR_M      397
2431
2432 typedef struct vg_rand vg_rand;
2433 struct vg_rand {
2434   u32 mt[MT_STATE_VECTOR_LENGTH];
2435   i32 index;
2436 };
2437
2438 static void vg_rand_seed( vg_rand *rand, unsigned long seed ) {
2439    /* set initial seeds to mt[STATE_VECTOR_LENGTH] using the generator
2440     * from Line 25 of Table 1 in: Donald Knuth, "The Art of Computer
2441     * Programming," Vol. 2 (2nd Ed.) pp.102.
2442     */
2443    rand->mt[0] = seed & 0xffffffff;
2444    for( rand->index=1; rand->index<MT_STATE_VECTOR_LENGTH; rand->index++){
2445       rand->mt[rand->index] = (6069 * rand->mt[rand->index-1]) & 0xffffffff;
2446    }
2447 }
2448
2449 /*
2450  * Generates a pseudo-randomly generated long.
2451  */
2452 static u32 vg_randu32( vg_rand *rand ) {
2453    u32 y;
2454    /* mag[x] = x * 0x9908b0df for x = 0,1 */
2455    static u32 mag[2] = {0x0, 0x9908b0df};
2456    if( rand->index >= MT_STATE_VECTOR_LENGTH || rand->index < 0 ){
2457       /* generate STATE_VECTOR_LENGTH words at a time */
2458       int kk;
2459       if( rand->index >= MT_STATE_VECTOR_LENGTH+1 || rand->index < 0 ){
2460          vg_rand_seed( rand, 4357 );
2461       }
2462       for( kk=0; kk<MT_STATE_VECTOR_LENGTH-MT_STATE_VECTOR_M; kk++ ){
2463          y = (rand->mt[kk] & MT_UPPER_MASK) |
2464              (rand->mt[kk+1] & MT_LOWER_MASK);
2465          rand->mt[kk] = rand->mt[kk+MT_STATE_VECTOR_M] ^ (y>>1) ^ mag[y & 0x1];
2466       }
2467       for( ; kk<MT_STATE_VECTOR_LENGTH-1; kk++ ){
2468          y = (rand->mt[kk] & MT_UPPER_MASK) |
2469              (rand->mt[kk+1] & MT_LOWER_MASK);
2470          rand->mt[kk] =
2471             rand->mt[ kk+(MT_STATE_VECTOR_M-MT_STATE_VECTOR_LENGTH)] ^
2472                         (y >> 1) ^ mag[y & 0x1];
2473       }
2474       y = (rand->mt[MT_STATE_VECTOR_LENGTH-1] & MT_UPPER_MASK) |
2475           (rand->mt[0] & MT_LOWER_MASK);
2476       rand->mt[MT_STATE_VECTOR_LENGTH-1] =
2477          rand->mt[MT_STATE_VECTOR_M-1] ^ (y >> 1) ^ mag[y & 0x1];
2478       rand->index = 0;
2479    }
2480    y = rand->mt[rand->index++];
2481    y ^= (y >> 11);
2482    y ^= (y << 7) & MT_TEMPERING_MASK_B;
2483    y ^= (y << 15) & MT_TEMPERING_MASK_C;
2484    y ^= (y >> 18);
2485    return y;
2486 }
2487
2488 /*
2489  * Generates a pseudo-randomly generated f64 in the range [0..1].
2490  */
2491 static inline f64 vg_randf64( vg_rand *rand ){
2492    return (f64)vg_randu32(rand)/(f64)0xffffffff;
2493 }
2494
2495 static inline f64 vg_randf64_range( vg_rand *rand, f64 min, f64 max ){
2496    return vg_lerp( min, max, (f64)vg_randf64(rand) );
2497 }
2498
2499 static inline void vg_rand_dir( vg_rand *rand, v3f dir ){
2500    dir[0] = vg_randf64(rand);
2501    dir[1] = vg_randf64(rand);
2502    dir[2] = vg_randf64(rand);
2503
2504    /* warning: *could* be 0 length.
2505     * very unlikely.. 1 in (2^32)^3. but its mathematically wrong. */
2506
2507    v3_muls( dir, 2.0f, dir );
2508    v3_sub( dir, (v3f){1.0f,1.0f,1.0f}, dir );
2509
2510    v3_normalize( dir );
2511 }
2512
2513 static inline void vg_rand_sphere( vg_rand *rand, v3f co ){
2514    vg_rand_dir(rand,co);
2515    v3_muls( co, cbrtf( vg_randf64(rand) ), co );
2516 }
2517
2518 static void vg_rand_disc( vg_rand *rand, v2f co ){
2519    f32 a = vg_randf64(rand) * VG_TAUf;
2520    co[0] = sinf(a);
2521    co[1] = cosf(a);
2522    v2_muls( co, sqrtf( vg_randf64(rand) ), co );
2523 }
2524
2525 static void vg_rand_cone( vg_rand *rand, v3f out_dir, f32 angle ){
2526    f32 r = sqrtf(vg_randf64(rand)) * angle * 0.5f,
2527        a = vg_randf64(rand) * VG_TAUf;
2528
2529    out_dir[0] = sinf(a) * sinf(r);
2530    out_dir[1] = cosf(a) * sinf(r);
2531    out_dir[2] = cosf(r);
2532 }
2533
2534 #endif /* VG_M_H */