2307 lines
84 KiB
C
2307 lines
84 KiB
C
const char * re_squared =
|
|
" .version 2.3\n"
|
|
" .target sm_20\n"
|
|
" .address_size 64\n"
|
|
" .entry kernel_ellipsoid (\n"
|
|
" .param .u64 __cudaparm_kernel_ellipsoid_x_,\n"
|
|
" .param .u64 __cudaparm_kernel_ellipsoid_q,\n"
|
|
" .param .u64 __cudaparm_kernel_ellipsoid_shape,\n"
|
|
" .param .u64 __cudaparm_kernel_ellipsoid_well,\n"
|
|
" .param .u64 __cudaparm_kernel_ellipsoid_splj,\n"
|
|
" .param .u64 __cudaparm_kernel_ellipsoid_sig_eps,\n"
|
|
" .param .s32 __cudaparm_kernel_ellipsoid_ntypes,\n"
|
|
" .param .u64 __cudaparm_kernel_ellipsoid_dev_nbor,\n"
|
|
" .param .s32 __cudaparm_kernel_ellipsoid_stride,\n"
|
|
" .param .u64 __cudaparm_kernel_ellipsoid_ans,\n"
|
|
" .param .s32 __cudaparm_kernel_ellipsoid_astride,\n"
|
|
" .param .u64 __cudaparm_kernel_ellipsoid_engv,\n"
|
|
" .param .u64 __cudaparm_kernel_ellipsoid_err_flag,\n"
|
|
" .param .s32 __cudaparm_kernel_ellipsoid_eflag,\n"
|
|
" .param .s32 __cudaparm_kernel_ellipsoid_vflag,\n"
|
|
" .param .s32 __cudaparm_kernel_ellipsoid_inum,\n"
|
|
" .param .s32 __cudaparm_kernel_ellipsoid_t_per_atom)\n"
|
|
" {\n"
|
|
" .reg .u32 %r<65>;\n"
|
|
" .reg .u64 %rd<78>;\n"
|
|
" .reg .f32 %f<1598>;\n"
|
|
" .reg .pred %p<34>;\n"
|
|
" .shared .align 16 .b8 __cuda___cuda_local_var_32902_33_non_const_sp_lj120[16];\n"
|
|
" .shared .align 4 .b8 __cuda___cuda_local_var_33303_55_non_const_red_acc136[3584];\n"
|
|
" .shared .f32 __cuda_local_var_32908_33_non_const_b_alpha;\n"
|
|
" .shared .f32 __cuda_local_var_32908_42_non_const_cr60;\n"
|
|
" .loc 17 43 0\n"
|
|
"$LDWbegin_kernel_ellipsoid:\n"
|
|
" .loc 17 48 0\n"
|
|
" ld.param.u64 %rd1, [__cudaparm_kernel_ellipsoid_splj];\n"
|
|
" ldu.global.f32 %f1, [%rd1+0];\n"
|
|
" .loc 17 49 0\n"
|
|
" ld.global.f32 %f2, [%rd1+4];\n"
|
|
" .loc 17 50 0\n"
|
|
" ld.global.f32 %f3, [%rd1+8];\n"
|
|
" .loc 17 51 0\n"
|
|
" ld.global.f32 %f4, [%rd1+12];\n"
|
|
" st.shared.v4.f32 [__cuda___cuda_local_var_32902_33_non_const_sp_lj120+0], {%f1,%f2,%f3,%f4};\n"
|
|
" .loc 17 54 0\n"
|
|
" mov.f32 %f5, 0f3f4db6db; \n"
|
|
" st.shared.f32 [__cuda_local_var_32908_33_non_const_b_alpha], %f5;\n"
|
|
" .loc 17 55 0\n"
|
|
" mov.f32 %f6, 0f42700000; \n"
|
|
" lg2.approx.ftz.f32 %f7, %f6;\n"
|
|
" mov.f32 %f8, 0f3eaaaaab; \n"
|
|
" mul.ftz.f32 %f9, %f7, %f8;\n"
|
|
" ex2.approx.ftz.f32 %f10, %f9;\n"
|
|
" mov.f32 %f11, 0f42700000; \n"
|
|
" mul.ftz.f32 %f12, %f10, %f10;\n"
|
|
" div.approx.ftz.f32 %f13, %f11, %f12;\n"
|
|
" sub.ftz.f32 %f14, %f10, %f13;\n"
|
|
" mov.f32 %f15, 0f3eaaaaab; \n"
|
|
" mul.ftz.f32 %f16, %f14, %f15;\n"
|
|
" sub.ftz.f32 %f17, %f10, %f16;\n"
|
|
" st.shared.f32 [__cuda_local_var_32908_42_non_const_cr60], %f17;\n"
|
|
" .loc 17 68 0\n"
|
|
" mov.f32 %f18, 0f00000000; \n"
|
|
" mov.f32 %f19, %f18;\n"
|
|
" mov.f32 %f20, 0f00000000; \n"
|
|
" mov.f32 %f21, %f20;\n"
|
|
" mov.f32 %f22, 0f00000000; \n"
|
|
" mov.f32 %f23, %f22;\n"
|
|
" mov.f32 %f24, 0f00000000; \n"
|
|
" mov.f32 %f25, %f24;\n"
|
|
" mov.f32 %f26, 0f00000000; \n"
|
|
" mov.f32 %f27, %f26;\n"
|
|
" mov.f32 %f28, 0f00000000; \n"
|
|
" mov.f32 %f29, %f28;\n"
|
|
" ld.param.s32 %r1, [__cudaparm_kernel_ellipsoid_t_per_atom];\n"
|
|
" cvt.s32.u32 %r2, %tid.x;\n"
|
|
" div.s32 %r3, %r2, %r1;\n"
|
|
" cvt.s32.u32 %r4, %ntid.x;\n"
|
|
" div.s32 %r5, %r4, %r1;\n"
|
|
" cvt.s32.u32 %r6, %ctaid.x;\n"
|
|
" mul.lo.s32 %r7, %r6, %r5;\n"
|
|
" add.s32 %r8, %r3, %r7;\n"
|
|
" ld.param.s32 %r9, [__cudaparm_kernel_ellipsoid_inum];\n"
|
|
" setp.le.s32 %p1, %r9, %r8;\n"
|
|
" @%p1 bra $Lt_0_67842;\n"
|
|
" .loc 17 73 0\n"
|
|
" cvt.s64.s32 %rd2, %r8;\n"
|
|
" mul.wide.s32 %rd3, %r8, 4;\n"
|
|
" ld.param.u64 %rd4, [__cudaparm_kernel_ellipsoid_dev_nbor];\n"
|
|
" add.u64 %rd5, %rd4, %rd3;\n"
|
|
" ld.global.s32 %r10, [%rd5+0];\n"
|
|
" ld.param.s32 %r11, [__cudaparm_kernel_ellipsoid_stride];\n"
|
|
" cvt.s64.s32 %rd6, %r11;\n"
|
|
" mul.wide.s32 %rd7, %r11, 4;\n"
|
|
" add.u64 %rd8, %rd7, %rd5;\n"
|
|
" ld.global.s32 %r12, [%rd8+0];\n"
|
|
" .loc 17 76 0\n"
|
|
" cvt.s64.s32 %rd9, %r10;\n"
|
|
" mul.wide.s32 %rd10, %r10, 16;\n"
|
|
" ld.param.u64 %rd11, [__cudaparm_kernel_ellipsoid_x_];\n"
|
|
" add.u64 %rd12, %rd10, %rd11;\n"
|
|
" ld.global.v4.f32 {%f30,%f31,%f32,%f33}, [%rd12+0];\n"
|
|
" .loc 17 88 0\n"
|
|
" cvt.rzi.ftz.s32.f32 %r13, %f33;\n"
|
|
" cvt.s64.s32 %rd13, %r13;\n"
|
|
" mul.wide.s32 %rd14, %r13, 16;\n"
|
|
" ld.param.u64 %rd15, [__cudaparm_kernel_ellipsoid_shape];\n"
|
|
" add.u64 %rd16, %rd14, %rd15;\n"
|
|
" ld.global.v4.f32 {%f34,%f35,%f36,_}, [%rd16+0];\n"
|
|
" .loc 17 97 0\n"
|
|
" ld.param.u64 %rd17, [__cudaparm_kernel_ellipsoid_q];\n"
|
|
" add.u64 %rd18, %rd10, %rd17;\n"
|
|
" ld.global.v4.f32 {%f37,%f38,%f39,%f40}, [%rd18+0];\n"
|
|
" .loc 17 98 0\n"
|
|
" ld.param.u64 %rd19, [__cudaparm_kernel_ellipsoid_well];\n"
|
|
" add.u64 %rd20, %rd14, %rd19;\n"
|
|
" ld.global.v4.f32 {%f41,%f42,%f43,_}, [%rd20+0];\n"
|
|
" .loc 17 117 0\n"
|
|
" cvt.s32.s64 %r14, %rd6;\n"
|
|
" sub.s32 %r15, %r1, 1;\n"
|
|
" and.b32 %r16, %r15, %r2;\n"
|
|
" add.u64 %rd21, %rd7, %rd8;\n"
|
|
" mul.lo.s32 %r17, %r14, %r16;\n"
|
|
" cvt.s64.s32 %rd22, %r17;\n"
|
|
" mul.wide.s32 %rd23, %r17, 4;\n"
|
|
" add.u64 %rd24, %rd21, %rd23;\n"
|
|
" mov.s64 %rd25, %rd24;\n"
|
|
" mul.lo.s32 %r18, %r14, %r12;\n"
|
|
" cvt.s64.s32 %rd26, %r18;\n"
|
|
" mul.wide.s32 %rd27, %r18, 4;\n"
|
|
" add.u64 %rd28, %rd21, %rd27;\n"
|
|
" setp.ge.u64 %p2, %rd24, %rd28;\n"
|
|
" @%p2 bra $Lt_0_69634;\n"
|
|
" ld.param.s32 %r19, [__cudaparm_kernel_ellipsoid_vflag];\n"
|
|
" mov.s32 %r20, 0;\n"
|
|
" setp.gt.s32 %p3, %r19, %r20;\n"
|
|
" mul.ftz.f32 %f44, %f35, %f35;\n"
|
|
" add.ftz.f32 %f45, %f38, %f38;\n"
|
|
" add.ftz.f32 %f46, %f40, %f40;\n"
|
|
" mul.ftz.f32 %f47, %f37, %f37;\n"
|
|
" mul.ftz.f32 %f48, %f38, %f38;\n"
|
|
" mul.ftz.f32 %f49, %f39, %f39;\n"
|
|
" mul.ftz.f32 %f50, %f40, %f40;\n"
|
|
" mul.ftz.f32 %f51, %f34, %f34;\n"
|
|
" add.ftz.f32 %f52, %f39, %f39;\n"
|
|
" mul.ftz.f32 %f53, %f36, %f36;\n"
|
|
" mul.ftz.f32 %f54, %f34, %f35;\n"
|
|
" add.ftz.f32 %f55, %f34, %f34;\n"
|
|
" add.ftz.f32 %f56, %f35, %f35;\n"
|
|
" add.ftz.f32 %f57, %f36, %f36;\n"
|
|
" ld.param.s32 %r21, [__cudaparm_kernel_ellipsoid_ntypes];\n"
|
|
" mul.lo.s32 %r22, %r21, %r13;\n"
|
|
" rcp.approx.ftz.f32 %f58, %f44;\n"
|
|
" mul.ftz.f32 %f59, %f45, %f39;\n"
|
|
" mul.ftz.f32 %f60, %f45, %f40;\n"
|
|
" mul.ftz.f32 %f61, %f45, %f37;\n"
|
|
" mul.ftz.f32 %f62, %f46, %f37;\n"
|
|
" add.ftz.f32 %f63, %f47, %f48;\n"
|
|
" sub.ftz.f32 %f64, %f47, %f48;\n"
|
|
" rcp.approx.ftz.f32 %f65, %f51;\n"
|
|
" mul.ftz.f32 %f66, %f52, %f37;\n"
|
|
" mul.ftz.f32 %f67, %f52, %f40;\n"
|
|
" rcp.approx.ftz.f32 %f68, %f53;\n"
|
|
" mul.ftz.f32 %f69, %f54, %f36;\n"
|
|
" sub.ftz.f32 %f70, %f59, %f62;\n"
|
|
" add.ftz.f32 %f71, %f59, %f62;\n"
|
|
" sub.ftz.f32 %f72, %f62, %f59;\n"
|
|
" sub.ftz.f32 %f73, %f63, %f49;\n"
|
|
" add.ftz.f32 %f74, %f49, %f64;\n"
|
|
" sub.ftz.f32 %f75, %f64, %f49;\n"
|
|
" add.ftz.f32 %f76, %f60, %f66;\n"
|
|
" sub.ftz.f32 %f77, %f60, %f66;\n"
|
|
" sub.ftz.f32 %f78, %f66, %f60;\n"
|
|
" sub.ftz.f32 %f79, %f67, %f61;\n"
|
|
" add.ftz.f32 %f80, %f61, %f67;\n"
|
|
" sub.ftz.f32 %f81, %f61, %f67;\n"
|
|
" mul.ftz.f32 %f82, %f44, %f70;\n"
|
|
" mul.ftz.f32 %f83, %f70, %f42;\n"
|
|
" mul.ftz.f32 %f84, %f51, %f71;\n"
|
|
" mul.ftz.f32 %f85, %f71, %f41;\n"
|
|
" neg.ftz.f32 %f86, %f71;\n"
|
|
" sub.ftz.f32 %f87, %f73, %f50;\n"
|
|
" sub.ftz.f32 %f88, %f50, %f73;\n"
|
|
" sub.ftz.f32 %f89, %f74, %f50;\n"
|
|
" sub.ftz.f32 %f90, %f50, %f74;\n"
|
|
" add.ftz.f32 %f91, %f50, %f75;\n"
|
|
" mul.ftz.f32 %f92, %f53, %f76;\n"
|
|
" mul.ftz.f32 %f93, %f76, %f43;\n"
|
|
" neg.ftz.f32 %f94, %f76;\n"
|
|
" mul.ftz.f32 %f95, %f51, %f77;\n"
|
|
" mul.ftz.f32 %f96, %f77, %f41;\n"
|
|
" mul.ftz.f32 %f97, %f53, %f79;\n"
|
|
" mul.ftz.f32 %f98, %f79, %f43;\n"
|
|
" mul.ftz.f32 %f99, %f44, %f80;\n"
|
|
" mul.ftz.f32 %f100, %f80, %f42;\n"
|
|
" mul.ftz.f32 %f101, %f70, %f82;\n"
|
|
" mul.ftz.f32 %f102, %f80, %f82;\n"
|
|
" mul.ftz.f32 %f103, %f72, %f82;\n"
|
|
" mul.ftz.f32 %f104, %f70, %f83;\n"
|
|
" mul.ftz.f32 %f105, %f80, %f83;\n"
|
|
" mov.f32 %f106, 0f00000000; \n"
|
|
" mov.f32 %f107, 0f00000000; \n"
|
|
" fma.rn.ftz.f32 %f108, %f107, %f84, %f106;\n"
|
|
" mov.f32 %f109, 0f00000000; \n"
|
|
" mov.f32 %f110, 0f00000000; \n"
|
|
" fma.rn.ftz.f32 %f111, %f84, %f110, %f109;\n"
|
|
" mul.ftz.f32 %f112, %f51, %f87;\n"
|
|
" mul.ftz.f32 %f113, %f87, %f41;\n"
|
|
" mul.ftz.f32 %f114, %f82, %f89;\n"
|
|
" mul.ftz.f32 %f115, %f44, %f89;\n"
|
|
" mul.ftz.f32 %f116, %f83, %f89;\n"
|
|
" mul.ftz.f32 %f117, %f89, %f42;\n"
|
|
" mul.ftz.f32 %f118, %f82, %f90;\n"
|
|
" mul.ftz.f32 %f119, %f53, %f91;\n"
|
|
" mul.ftz.f32 %f120, %f91, %f43;\n"
|
|
" neg.ftz.f32 %f121, %f91;\n"
|
|
" mov.f32 %f122, 0f00000000; \n"
|
|
" mov.f32 %f123, 0f00000000; \n"
|
|
" fma.rn.ftz.f32 %f124, %f123, %f95, %f122;\n"
|
|
" mov.f32 %f125, 0f00000000; \n"
|
|
" mov.f32 %f126, 0f00000000; \n"
|
|
" fma.rn.ftz.f32 %f127, %f95, %f126, %f125;\n"
|
|
" mul.ftz.f32 %f128, %f70, %f99;\n"
|
|
" mul.ftz.f32 %f129, %f89, %f99;\n"
|
|
" mul.ftz.f32 %f130, %f80, %f99;\n"
|
|
" mul.ftz.f32 %f131, %f72, %f99;\n"
|
|
" mul.ftz.f32 %f132, %f90, %f99;\n"
|
|
" mul.ftz.f32 %f133, %f70, %f100;\n"
|
|
" mul.ftz.f32 %f134, %f89, %f100;\n"
|
|
" mul.ftz.f32 %f135, %f80, %f100;\n"
|
|
" neg.ftz.f32 %f136, %f102;\n"
|
|
" mov.f32 %f137, 0f00000000; \n"
|
|
" fma.rn.ftz.f32 %f138, %f137, %f97, %f108;\n"
|
|
" mov.f32 %f139, 0f00000000; \n"
|
|
" fma.rn.ftz.f32 %f140, %f97, %f139, %f108;\n"
|
|
" mov.f32 %f141, 0f00000000; \n"
|
|
" fma.rn.ftz.f32 %f142, %f97, %f141, %f111;\n"
|
|
" fma.rn.ftz.f32 %f143, %f87, %f112, %f101;\n"
|
|
" fma.rn.ftz.f32 %f144, %f112, %f77, %f102;\n"
|
|
" mov.f32 %f145, 0f00000000; \n"
|
|
" mov.f32 %f146, 0f00000000; \n"
|
|
" fma.rn.ftz.f32 %f147, %f146, %f112, %f145;\n"
|
|
" mov.f32 %f148, 0f00000000; \n"
|
|
" mov.f32 %f149, 0f00000000; \n"
|
|
" fma.rn.ftz.f32 %f150, %f112, %f149, %f148;\n"
|
|
" fma.rn.ftz.f32 %f151, %f77, %f112, %f102;\n"
|
|
" fma.rn.ftz.f32 %f152, %f112, %f88, %f103;\n"
|
|
" fma.rn.ftz.f32 %f153, %f112, %f87, %f101;\n"
|
|
" fma.rn.ftz.f32 %f154, %f87, %f113, %f104;\n"
|
|
" fma.rn.ftz.f32 %f155, %f113, %f77, %f105;\n"
|
|
" fma.rn.ftz.f32 %f156, %f112, %f71, %f114;\n"
|
|
" mul.ftz.f32 %f157, %f70, %f115;\n"
|
|
" mul.ftz.f32 %f158, %f89, %f115;\n"
|
|
" mul.ftz.f32 %f159, %f80, %f115;\n"
|
|
" mul.ftz.f32 %f160, %f72, %f115;\n"
|
|
" mul.ftz.f32 %f161, %f90, %f115;\n"
|
|
" fma.rn.ftz.f32 %f162, %f113, %f71, %f116;\n"
|
|
" mul.ftz.f32 %f163, %f70, %f117;\n"
|
|
" mul.ftz.f32 %f164, %f89, %f117;\n"
|
|
" mul.ftz.f32 %f165, %f80, %f117;\n"
|
|
" fma.rn.ftz.f32 %f166, %f112, %f86, %f118;\n"
|
|
" fma.rn.ftz.f32 %f167, %f86, %f112, %f118;\n"
|
|
" mov.f32 %f168, 0f00000000; \n"
|
|
" fma.rn.ftz.f32 %f169, %f168, %f119, %f124;\n"
|
|
" mov.f32 %f170, 0f00000000; \n"
|
|
" fma.rn.ftz.f32 %f171, %f119, %f170, %f127;\n"
|
|
" fma.rn.ftz.f32 %f172, %f87, %f95, %f128;\n"
|
|
" fma.rn.ftz.f32 %f173, %f71, %f95, %f129;\n"
|
|
" fma.rn.ftz.f32 %f174, %f95, %f71, %f129;\n"
|
|
" fma.rn.ftz.f32 %f175, %f77, %f95, %f130;\n"
|
|
" neg.ftz.f32 %f176, %f130;\n"
|
|
" fma.rn.ftz.f32 %f177, %f95, %f88, %f131;\n"
|
|
" fma.rn.ftz.f32 %f178, %f88, %f95, %f131;\n"
|
|
" fma.rn.ftz.f32 %f179, %f86, %f95, %f132;\n"
|
|
" fma.rn.ftz.f32 %f180, %f87, %f96, %f133;\n"
|
|
" fma.rn.ftz.f32 %f181, %f71, %f96, %f134;\n"
|
|
" fma.rn.ftz.f32 %f182, %f77, %f96, %f135;\n"
|
|
" fma.rn.ftz.f32 %f183, %f112, %f78, %f136;\n"
|
|
" add.ftz.f32 %f184, %f140, %f142;\n"
|
|
" fma.rn.ftz.f32 %f185, %f92, %f76, %f143;\n"
|
|
" fma.rn.ftz.f32 %f186, %f92, %f91, %f144;\n"
|
|
" mov.f32 %f187, 0f00000000; \n"
|
|
" fma.rn.ftz.f32 %f188, %f92, %f187, %f147;\n"
|
|
" mov.f32 %f189, 0f00000000; \n"
|
|
" fma.rn.ftz.f32 %f190, %f92, %f189, %f150;\n"
|
|
" fma.rn.ftz.f32 %f191, %f92, %f91, %f151;\n"
|
|
" fma.rn.ftz.f32 %f192, %f92, %f94, %f152;\n"
|
|
" fma.rn.ftz.f32 %f193, %f92, %f76, %f153;\n"
|
|
" fma.rn.ftz.f32 %f194, %f93, %f76, %f154;\n"
|
|
" fma.rn.ftz.f32 %f195, %f93, %f91, %f155;\n"
|
|
" fma.rn.ftz.f32 %f196, %f92, %f79, %f156;\n"
|
|
" fma.rn.ftz.f32 %f197, %f87, %f84, %f157;\n"
|
|
" fma.rn.ftz.f32 %f198, %f84, %f87, %f157;\n"
|
|
" fma.rn.ftz.f32 %f199, %f71, %f84, %f158;\n"
|
|
" fma.rn.ftz.f32 %f200, %f84, %f71, %f158;\n"
|
|
" fma.rn.ftz.f32 %f201, %f77, %f84, %f159;\n"
|
|
" neg.ftz.f32 %f202, %f159;\n"
|
|
" fma.rn.ftz.f32 %f203, %f88, %f84, %f160;\n"
|
|
" fma.rn.ftz.f32 %f204, %f84, %f88, %f160;\n"
|
|
" fma.rn.ftz.f32 %f205, %f86, %f84, %f161;\n"
|
|
" fma.rn.ftz.f32 %f206, %f93, %f79, %f162;\n"
|
|
" fma.rn.ftz.f32 %f207, %f87, %f85, %f163;\n"
|
|
" fma.rn.ftz.f32 %f208, %f71, %f85, %f164;\n"
|
|
" fma.rn.ftz.f32 %f209, %f77, %f85, %f165;\n"
|
|
" fma.rn.ftz.f32 %f210, %f92, %f81, %f166;\n"
|
|
" fma.rn.ftz.f32 %f211, %f92, %f81, %f167;\n"
|
|
" add.ftz.f32 %f212, %f169, %f171;\n"
|
|
" fma.rn.ftz.f32 %f213, %f76, %f119, %f172;\n"
|
|
" fma.rn.ftz.f32 %f214, %f79, %f119, %f173;\n"
|
|
" fma.rn.ftz.f32 %f215, %f119, %f79, %f174;\n"
|
|
" fma.rn.ftz.f32 %f216, %f91, %f119, %f175;\n"
|
|
" fma.rn.ftz.f32 %f217, %f78, %f95, %f176;\n"
|
|
" fma.rn.ftz.f32 %f218, %f119, %f94, %f177;\n"
|
|
" fma.rn.ftz.f32 %f219, %f94, %f119, %f178;\n"
|
|
" fma.rn.ftz.f32 %f220, %f81, %f119, %f179;\n"
|
|
" fma.rn.ftz.f32 %f221, %f76, %f120, %f180;\n"
|
|
" fma.rn.ftz.f32 %f222, %f79, %f120, %f181;\n"
|
|
" fma.rn.ftz.f32 %f223, %f91, %f120, %f182;\n"
|
|
" fma.rn.ftz.f32 %f224, %f92, %f121, %f183;\n"
|
|
" add.ftz.f32 %f225, %f188, %f190;\n"
|
|
" add.ftz.f32 %f226, %f186, %f191;\n"
|
|
" add.ftz.f32 %f227, %f169, %f196;\n"
|
|
" fma.rn.ftz.f32 %f228, %f97, %f76, %f197;\n"
|
|
" fma.rn.ftz.f32 %f229, %f97, %f76, %f198;\n"
|
|
" fma.rn.ftz.f32 %f230, %f97, %f79, %f199;\n"
|
|
" fma.rn.ftz.f32 %f231, %f97, %f79, %f200;\n"
|
|
" fma.rn.ftz.f32 %f232, %f97, %f91, %f201;\n"
|
|
" fma.rn.ftz.f32 %f233, %f91, %f97, %f201;\n"
|
|
" fma.rn.ftz.f32 %f234, %f84, %f78, %f202;\n"
|
|
" fma.rn.ftz.f32 %f235, %f78, %f84, %f202;\n"
|
|
" fma.rn.ftz.f32 %f236, %f97, %f94, %f203;\n"
|
|
" fma.rn.ftz.f32 %f237, %f97, %f94, %f204;\n"
|
|
" fma.rn.ftz.f32 %f238, %f81, %f97, %f205;\n"
|
|
" fma.rn.ftz.f32 %f239, %f97, %f81, %f205;\n"
|
|
" fma.rn.ftz.f32 %f240, %f98, %f76, %f207;\n"
|
|
" fma.rn.ftz.f32 %f241, %f98, %f79, %f208;\n"
|
|
" fma.rn.ftz.f32 %f242, %f98, %f91, %f209;\n"
|
|
" add.ftz.f32 %f243, %f210, %f211;\n"
|
|
" add.ftz.f32 %f244, %f140, %f213;\n"
|
|
" add.ftz.f32 %f245, %f142, %f213;\n"
|
|
" add.ftz.f32 %f246, %f214, %f215;\n"
|
|
" add.ftz.f32 %f247, %f192, %f216;\n"
|
|
" fma.rn.ftz.f32 %f248, %f121, %f119, %f217;\n"
|
|
" add.ftz.f32 %f249, %f218, %f219;\n"
|
|
" add.ftz.f32 %f250, %f190, %f220;\n"
|
|
" add.ftz.f32 %f251, %f138, %f224;\n"
|
|
" add.ftz.f32 %f252, %f140, %f224;\n"
|
|
" add.ftz.f32 %f253, %f228, %f229;\n"
|
|
" add.ftz.f32 %f254, %f190, %f232;\n"
|
|
" add.ftz.f32 %f255, %f190, %f233;\n"
|
|
" fma.rn.ftz.f32 %f256, %f97, %f121, %f234;\n"
|
|
" fma.rn.ftz.f32 %f257, %f97, %f121, %f235;\n"
|
|
" add.ftz.f32 %f258, %f169, %f236;\n"
|
|
" add.ftz.f32 %f259, %f169, %f237;\n"
|
|
" add.ftz.f32 %f260, %f193, %f238;\n"
|
|
" add.ftz.f32 %f261, %f193, %f239;\n"
|
|
" add.ftz.f32 %f262, %f230, %f248;\n"
|
|
" add.ftz.f32 %f263, %f231, %f248;\n"
|
|
" add.ftz.f32 %f264, %f256, %f257;\n"
|
|
" ld.param.u64 %rd29, [__cudaparm_kernel_ellipsoid_sig_eps];\n"
|
|
" mov.f32 %f265, 0f00000000; \n"
|
|
" mov.f32 %f266, 0f00000000; \n"
|
|
" mov.f32 %f267, 0f00000000; \n"
|
|
" mov.f32 %f268, 0f00000000; \n"
|
|
" mov.f32 %f269, 0f00000000; \n"
|
|
" mov.f32 %f270, 0f00000000; \n"
|
|
" mov.f32 %f271, 0f00000000; \n"
|
|
" mov.u64 %rd30, __cuda___cuda_local_var_32902_33_non_const_sp_lj120;\n"
|
|
"$Lt_0_46338:\n"
|
|
" .loc 17 121 0\n"
|
|
" ld.global.s32 %r23, [%rd25+0];\n"
|
|
" .loc 17 125 0\n"
|
|
" and.b32 %r24, %r23, 1073741823;\n"
|
|
" cvt.s64.s32 %rd31, %r24;\n"
|
|
" mul.wide.s32 %rd32, %r24, 16;\n"
|
|
" add.u64 %rd33, %rd32, %rd11;\n"
|
|
" ld.global.v4.f32 {%f272,%f273,%f274,%f275}, [%rd33+0];\n"
|
|
" .loc 17 136 0\n"
|
|
" sub.ftz.f32 %f276, %f273, %f31;\n"
|
|
" sub.ftz.f32 %f277, %f272, %f30;\n"
|
|
" sub.ftz.f32 %f278, %f274, %f32;\n"
|
|
" mul.ftz.f32 %f279, %f276, %f276;\n"
|
|
" fma.rn.ftz.f32 %f280, %f277, %f277, %f279;\n"
|
|
" fma.rn.ftz.f32 %f281, %f278, %f278, %f280;\n"
|
|
" rsqrt.approx.ftz.f32 %f282, %f281;\n"
|
|
" mul.ftz.f32 %f283, %f277, %f282;\n"
|
|
" .loc 17 137 0\n"
|
|
" mul.ftz.f32 %f284, %f276, %f282;\n"
|
|
" .loc 17 145 0\n"
|
|
" cvt.rzi.ftz.s32.f32 %r25, %f275;\n"
|
|
" cvt.s64.s32 %rd34, %r25;\n"
|
|
" mul.wide.s32 %rd35, %r25, 16;\n"
|
|
" add.u64 %rd36, %rd35, %rd15;\n"
|
|
" ld.global.v4.f32 {%f285,%f286,%f287,_}, [%rd36+0];\n"
|
|
" .loc 17 152 0\n"
|
|
" add.u64 %rd37, %rd32, %rd17;\n"
|
|
" ld.global.v4.f32 {%f288,%f289,%f290,%f291}, [%rd37+0];\n"
|
|
" .loc 16 299 0\n"
|
|
" mov.f32 %f292, %f283;\n"
|
|
" .loc 16 300 0\n"
|
|
" mul.ftz.f32 %f293, %f286, %f286;\n"
|
|
" add.ftz.f32 %f294, %f289, %f289;\n"
|
|
" add.ftz.f32 %f295, %f291, %f291;\n"
|
|
" mul.ftz.f32 %f296, %f288, %f288;\n"
|
|
" mul.ftz.f32 %f297, %f289, %f289;\n"
|
|
" mul.ftz.f32 %f298, %f290, %f290;\n"
|
|
" mul.ftz.f32 %f299, %f291, %f291;\n"
|
|
" mul.ftz.f32 %f300, %f285, %f285;\n"
|
|
" add.ftz.f32 %f301, %f290, %f290;\n"
|
|
" mul.ftz.f32 %f302, %f287, %f287;\n"
|
|
" mul.ftz.f32 %f303, %f294, %f290;\n"
|
|
" mul.ftz.f32 %f304, %f294, %f291;\n"
|
|
" mul.ftz.f32 %f305, %f295, %f288;\n"
|
|
" add.ftz.f32 %f306, %f296, %f297;\n"
|
|
" mul.ftz.f32 %f307, %f301, %f288;\n"
|
|
" sub.ftz.f32 %f308, %f303, %f305;\n"
|
|
" sub.ftz.f32 %f309, %f306, %f298;\n"
|
|
" add.ftz.f32 %f310, %f304, %f307;\n"
|
|
" mul.ftz.f32 %f311, %f293, %f308;\n"
|
|
" sub.ftz.f32 %f312, %f309, %f299;\n"
|
|
" mul.ftz.f32 %f313, %f302, %f310;\n"
|
|
" mul.ftz.f32 %f314, %f308, %f311;\n"
|
|
" mul.ftz.f32 %f315, %f300, %f312;\n"
|
|
" fma.rn.ftz.f32 %f316, %f312, %f315, %f314;\n"
|
|
" fma.rn.ftz.f32 %f317, %f313, %f310, %f316;\n"
|
|
" add.ftz.f32 %f318, %f185, %f317;\n"
|
|
" mov.f32 %f319, %f318;\n"
|
|
" .loc 16 301 0\n"
|
|
" mul.ftz.f32 %f320, %f294, %f288;\n"
|
|
" sub.ftz.f32 %f321, %f296, %f297;\n"
|
|
" mul.ftz.f32 %f322, %f301, %f291;\n"
|
|
" add.ftz.f32 %f323, %f303, %f305;\n"
|
|
" add.ftz.f32 %f324, %f298, %f321;\n"
|
|
" sub.ftz.f32 %f325, %f322, %f320;\n"
|
|
" sub.ftz.f32 %f326, %f324, %f299;\n"
|
|
" mul.ftz.f32 %f327, %f311, %f326;\n"
|
|
" fma.rn.ftz.f32 %f328, %f315, %f323, %f327;\n"
|
|
" fma.rn.ftz.f32 %f329, %f313, %f325, %f328;\n"
|
|
" add.ftz.f32 %f330, %f196, %f329;\n"
|
|
" mov.f32 %f331, %f330;\n"
|
|
" .loc 16 302 0\n"
|
|
" sub.ftz.f32 %f332, %f321, %f298;\n"
|
|
" sub.ftz.f32 %f333, %f304, %f307;\n"
|
|
" add.ftz.f32 %f334, %f320, %f322;\n"
|
|
" add.ftz.f32 %f335, %f299, %f332;\n"
|
|
" mul.ftz.f32 %f336, %f334, %f311;\n"
|
|
" fma.rn.ftz.f32 %f337, %f315, %f333, %f336;\n"
|
|
" fma.rn.ftz.f32 %f338, %f313, %f335, %f337;\n"
|
|
" add.ftz.f32 %f339, %f186, %f338;\n"
|
|
" mov.f32 %f340, %f339;\n"
|
|
" .loc 16 303 0\n"
|
|
" mov.f32 %f341, %f284;\n"
|
|
" .loc 16 304 0\n"
|
|
" mul.ftz.f32 %f342, %f300, %f323;\n"
|
|
" mul.ftz.f32 %f343, %f302, %f325;\n"
|
|
" mul.ftz.f32 %f344, %f293, %f326;\n"
|
|
" mul.ftz.f32 %f345, %f308, %f344;\n"
|
|
" fma.rn.ftz.f32 %f346, %f312, %f342, %f345;\n"
|
|
" fma.rn.ftz.f32 %f347, %f343, %f310, %f346;\n"
|
|
" add.ftz.f32 %f348, %f228, %f347;\n"
|
|
" mov.f32 %f349, %f348;\n"
|
|
" .loc 16 305 0\n"
|
|
" mul.ftz.f32 %f350, %f326, %f344;\n"
|
|
" fma.rn.ftz.f32 %f351, %f323, %f342, %f350;\n"
|
|
" fma.rn.ftz.f32 %f352, %f343, %f325, %f351;\n"
|
|
" add.ftz.f32 %f353, %f230, %f352;\n"
|
|
" .loc 16 306 0\n"
|
|
" mul.ftz.f32 %f354, %f334, %f344;\n"
|
|
" fma.rn.ftz.f32 %f355, %f333, %f342, %f354;\n"
|
|
" fma.rn.ftz.f32 %f356, %f343, %f335, %f355;\n"
|
|
" add.ftz.f32 %f357, %f232, %f356;\n"
|
|
" .loc 16 307 0\n"
|
|
" mul.ftz.f32 %f358, %f278, %f282;\n"
|
|
" mov.f32 %f359, %f358;\n"
|
|
" .loc 16 308 0\n"
|
|
" mul.ftz.f32 %f360, %f300, %f333;\n"
|
|
" mul.ftz.f32 %f361, %f293, %f334;\n"
|
|
" mul.ftz.f32 %f362, %f302, %f335;\n"
|
|
" mul.ftz.f32 %f363, %f308, %f361;\n"
|
|
" fma.rn.ftz.f32 %f364, %f312, %f360, %f363;\n"
|
|
" fma.rn.ftz.f32 %f365, %f310, %f362, %f364;\n"
|
|
" add.ftz.f32 %f366, %f213, %f365;\n"
|
|
" mov.f32 %f367, %f366;\n"
|
|
" .loc 16 309 0\n"
|
|
" mul.ftz.f32 %f368, %f326, %f361;\n"
|
|
" fma.rn.ftz.f32 %f369, %f323, %f360, %f368;\n"
|
|
" fma.rn.ftz.f32 %f370, %f325, %f362, %f369;\n"
|
|
" add.ftz.f32 %f371, %f214, %f370;\n"
|
|
" .loc 16 310 0\n"
|
|
" mul.ftz.f32 %f372, %f334, %f361;\n"
|
|
" fma.rn.ftz.f32 %f373, %f333, %f360, %f372;\n"
|
|
" fma.rn.ftz.f32 %f374, %f335, %f362, %f373;\n"
|
|
" add.ftz.f32 %f375, %f216, %f374;\n"
|
|
" abs.ftz.f32 %f376, %f348;\n"
|
|
" abs.ftz.f32 %f377, %f318;\n"
|
|
" setp.gt.ftz.f32 %p4, %f376, %f377;\n"
|
|
" @!%p4 bra $Lt_0_46594;\n"
|
|
" .loc 16 314 0\n"
|
|
" mov.f32 %f319, %f348;\n"
|
|
" mov.f32 %f349, %f318;\n"
|
|
" .loc 16 315 0\n"
|
|
" mov.f32 %f331, %f353;\n"
|
|
" mov.f32 %f353, %f330;\n"
|
|
" .loc 16 316 0\n"
|
|
" mov.f32 %f340, %f357;\n"
|
|
" mov.f32 %f357, %f339;\n"
|
|
" .loc 16 317 0\n"
|
|
" mov.f32 %f292, %f284;\n"
|
|
" mov.f32 %f341, %f283;\n"
|
|
"$Lt_0_46594:\n"
|
|
" mov.f32 %f378, %f319;\n"
|
|
" abs.ftz.f32 %f379, %f378;\n"
|
|
" abs.ftz.f32 %f380, %f366;\n"
|
|
" setp.lt.ftz.f32 %p5, %f379, %f380;\n"
|
|
" @!%p5 bra $Lt_0_47106;\n"
|
|
" .loc 16 321 0\n"
|
|
" mov.f32 %f319, %f366;\n"
|
|
" mov.f32 %f367, %f378;\n"
|
|
" .loc 16 322 0\n"
|
|
" mov.f32 %f381, %f331;\n"
|
|
" mov.f32 %f331, %f371;\n"
|
|
" mov.f32 %f371, %f381;\n"
|
|
" .loc 16 323 0\n"
|
|
" mov.f32 %f382, %f340;\n"
|
|
" mov.f32 %f340, %f375;\n"
|
|
" mov.f32 %f375, %f382;\n"
|
|
" .loc 16 324 0\n"
|
|
" mov.f32 %f383, %f292;\n"
|
|
" mov.f32 %f292, %f358;\n"
|
|
" mov.f32 %f359, %f383;\n"
|
|
"$Lt_0_47106:\n"
|
|
" mov.f32 %f384, %f319;\n"
|
|
" mov.f32 %f385, 0f00000000; \n"
|
|
" setp.neu.ftz.f32 %p6, %f384, %f385;\n"
|
|
" @!%p6 bra $Lt_0_47874;\n"
|
|
" bra.uni $Lt_0_48642;\n"
|
|
"$Lt_0_47874:\n"
|
|
" mov.f32 %f386, 0f00000000; \n"
|
|
" setp.neu.ftz.f32 %p7, %f349, %f386;\n"
|
|
" @!%p7 bra $Lt_0_48386;\n"
|
|
" .loc 16 338 0\n"
|
|
" mov.f32 %f319, %f349;\n"
|
|
" mov.f32 %f349, %f384;\n"
|
|
" .loc 16 339 0\n"
|
|
" mov.f32 %f387, %f331;\n"
|
|
" mov.f32 %f331, %f353;\n"
|
|
" mov.f32 %f353, %f387;\n"
|
|
" .loc 16 340 0\n"
|
|
" mov.f32 %f388, %f340;\n"
|
|
" mov.f32 %f340, %f357;\n"
|
|
" mov.f32 %f357, %f388;\n"
|
|
" .loc 16 341 0\n"
|
|
" mov.f32 %f389, %f292;\n"
|
|
" mov.f32 %f292, %f341;\n"
|
|
" mov.f32 %f341, %f389;\n"
|
|
" bra.uni $Lt_0_48642;\n"
|
|
"$Lt_0_48386:\n"
|
|
" mov.f32 %f390, 0f00000000; \n"
|
|
" setp.neu.ftz.f32 %p8, %f367, %f390;\n"
|
|
" @!%p8 bra $Lt_0_48898;\n"
|
|
" .loc 16 346 0\n"
|
|
" mov.f32 %f319, %f367;\n"
|
|
" mov.f32 %f367, %f384;\n"
|
|
" .loc 16 347 0\n"
|
|
" mov.f32 %f391, %f331;\n"
|
|
" mov.f32 %f331, %f371;\n"
|
|
" mov.f32 %f371, %f391;\n"
|
|
" .loc 16 348 0\n"
|
|
" mov.f32 %f392, %f340;\n"
|
|
" mov.f32 %f340, %f375;\n"
|
|
" mov.f32 %f375, %f392;\n"
|
|
" .loc 16 349 0\n"
|
|
" mov.f32 %f393, %f292;\n"
|
|
" mov.f32 %f292, %f359;\n"
|
|
" mov.f32 %f359, %f393;\n"
|
|
" bra.uni $Lt_0_48642;\n"
|
|
"$Lt_0_48898:\n"
|
|
" .loc 16 352 0\n"
|
|
" mov.s32 %r26, 2;\n"
|
|
" ld.param.u64 %rd38, [__cudaparm_kernel_ellipsoid_err_flag];\n"
|
|
" st.global.s32 [%rd38+0], %r26;\n"
|
|
"$Lt_0_48642:\n"
|
|
"$Lt_0_48130:\n"
|
|
"$Lt_0_47618:\n"
|
|
" .loc 16 355 0\n"
|
|
" div.approx.ftz.f32 %f394, %f349, %f319;\n"
|
|
" mul.ftz.f32 %f395, %f331, %f394;\n"
|
|
" sub.ftz.f32 %f396, %f353, %f395;\n"
|
|
" mov.f32 %f353, %f396;\n"
|
|
" .loc 16 356 0\n"
|
|
" mul.ftz.f32 %f397, %f340, %f394;\n"
|
|
" sub.ftz.f32 %f398, %f357, %f397;\n"
|
|
" mov.f32 %f357, %f398;\n"
|
|
" .loc 16 357 0\n"
|
|
" mul.ftz.f32 %f399, %f292, %f394;\n"
|
|
" sub.ftz.f32 %f400, %f341, %f399;\n"
|
|
" mov.f32 %f341, %f400;\n"
|
|
" .loc 16 359 0\n"
|
|
" div.approx.ftz.f32 %f401, %f367, %f319;\n"
|
|
" mul.ftz.f32 %f402, %f331, %f401;\n"
|
|
" sub.ftz.f32 %f371, %f371, %f402;\n"
|
|
" .loc 16 360 0\n"
|
|
" mul.ftz.f32 %f403, %f340, %f401;\n"
|
|
" sub.ftz.f32 %f375, %f375, %f403;\n"
|
|
" .loc 16 361 0\n"
|
|
" mul.ftz.f32 %f404, %f292, %f401;\n"
|
|
" sub.ftz.f32 %f359, %f359, %f404;\n"
|
|
" abs.ftz.f32 %f405, %f396;\n"
|
|
" abs.ftz.f32 %f406, %f371;\n"
|
|
" setp.lt.ftz.f32 %p9, %f405, %f406;\n"
|
|
" @!%p9 bra $Lt_0_49154;\n"
|
|
" .loc 16 366 0\n"
|
|
" mov.f32 %f353, %f371;\n"
|
|
" mov.f32 %f371, %f396;\n"
|
|
" .loc 16 367 0\n"
|
|
" mov.f32 %f357, %f375;\n"
|
|
" mov.f32 %f375, %f398;\n"
|
|
" .loc 16 368 0\n"
|
|
" mov.f32 %f341, %f359;\n"
|
|
" mov.f32 %f359, %f400;\n"
|
|
"$Lt_0_49154:\n"
|
|
" mov.f32 %f407, %f353;\n"
|
|
" mov.f32 %f408, 0f00000000; \n"
|
|
" setp.neu.ftz.f32 %p10, %f407, %f408;\n"
|
|
" @!%p10 bra $Lt_0_49922;\n"
|
|
" bra.uni $Lt_0_50178;\n"
|
|
"$Lt_0_49922:\n"
|
|
" mov.f32 %f409, 0f00000000; \n"
|
|
" setp.neu.ftz.f32 %p11, %f371, %f409;\n"
|
|
" @!%p11 bra $Lt_0_50178;\n"
|
|
" .loc 16 383 0\n"
|
|
" mov.f32 %f353, %f371;\n"
|
|
" mov.f32 %f371, %f407;\n"
|
|
" .loc 16 384 0\n"
|
|
" mov.f32 %f410, %f357;\n"
|
|
" mov.f32 %f357, %f375;\n"
|
|
" mov.f32 %f375, %f410;\n"
|
|
" .loc 16 385 0\n"
|
|
" mov.f32 %f411, %f341;\n"
|
|
" mov.f32 %f341, %f359;\n"
|
|
" mov.f32 %f359, %f411;\n"
|
|
"$Lt_0_50178:\n"
|
|
"$Lt_0_49666:\n"
|
|
" .loc 16 390 0\n"
|
|
" div.approx.ftz.f32 %f412, %f371, %f353;\n"
|
|
" mul.ftz.f32 %f413, %f357, %f412;\n"
|
|
" sub.ftz.f32 %f375, %f375, %f413;\n"
|
|
" .loc 16 391 0\n"
|
|
" mul.ftz.f32 %f414, %f341, %f412;\n"
|
|
" sub.ftz.f32 %f359, %f359, %f414;\n"
|
|
" mov.f32 %f415, 0f00000000; \n"
|
|
" setp.eq.ftz.f32 %p12, %f375, %f415;\n"
|
|
" @!%p12 bra $Lt_0_50690;\n"
|
|
" .loc 16 394 0\n"
|
|
" mov.s32 %r27, 2;\n"
|
|
" ld.param.u64 %rd39, [__cudaparm_kernel_ellipsoid_err_flag];\n"
|
|
" st.global.s32 [%rd39+0], %r27;\n"
|
|
"$Lt_0_50690:\n"
|
|
" .loc 16 396 0\n"
|
|
" div.approx.ftz.f32 %f416, %f359, %f375;\n"
|
|
" .loc 16 399 0\n"
|
|
" mul.ftz.f32 %f417, %f416, %f357;\n"
|
|
" sub.ftz.f32 %f418, %f341, %f417;\n"
|
|
" div.approx.ftz.f32 %f419, %f418, %f353;\n"
|
|
" .loc 16 403 0\n"
|
|
" mul.ftz.f32 %f420, %f419, %f331;\n"
|
|
" fma.rn.ftz.f32 %f421, %f340, %f416, %f420;\n"
|
|
" sub.ftz.f32 %f422, %f292, %f421;\n"
|
|
" div.approx.ftz.f32 %f423, %f422, %f319;\n"
|
|
" .loc 17 161 0\n"
|
|
" mul.ftz.f32 %f424, %f419, %f284;\n"
|
|
" fma.rn.ftz.f32 %f425, %f283, %f423, %f424;\n"
|
|
" fma.rn.ftz.f32 %f426, %f358, %f416, %f425;\n"
|
|
" mov.f32 %f427, 0f3f000000; \n"
|
|
" mul.ftz.f32 %f428, %f426, %f427;\n"
|
|
" rsqrt.approx.ftz.f32 %f429, %f428;\n"
|
|
" .loc 17 170 0\n"
|
|
" mul.ftz.f32 %f430, %f89, %f284;\n"
|
|
" mul.ftz.f32 %f431, %f71, %f284;\n"
|
|
" mul.ftz.f32 %f432, %f79, %f284;\n"
|
|
" fma.rn.ftz.f32 %f433, %f283, %f70, %f430;\n"
|
|
" fma.rn.ftz.f32 %f434, %f87, %f283, %f431;\n"
|
|
" fma.rn.ftz.f32 %f435, %f283, %f76, %f432;\n"
|
|
" fma.rn.ftz.f32 %f436, %f358, %f80, %f433;\n"
|
|
" fma.rn.ftz.f32 %f437, %f77, %f358, %f434;\n"
|
|
" fma.rn.ftz.f32 %f438, %f358, %f91, %f435;\n"
|
|
" mul.ftz.f32 %f439, %f58, %f436;\n"
|
|
" mul.ftz.f32 %f440, %f65, %f437;\n"
|
|
" mul.ftz.f32 %f441, %f68, %f438;\n"
|
|
" mul.ftz.f32 %f442, %f436, %f439;\n"
|
|
" fma.rn.ftz.f32 %f443, %f437, %f440, %f442;\n"
|
|
" fma.rn.ftz.f32 %f444, %f438, %f441, %f443;\n"
|
|
" sqrt.approx.ftz.f32 %f445, %f444;\n"
|
|
" .loc 17 171 0\n"
|
|
" mul.ftz.f32 %f446, %f326, %f284;\n"
|
|
" mul.ftz.f32 %f447, %f323, %f284;\n"
|
|
" mul.ftz.f32 %f448, %f325, %f284;\n"
|
|
" fma.rn.ftz.f32 %f449, %f283, %f308, %f446;\n"
|
|
" fma.rn.ftz.f32 %f450, %f283, %f312, %f447;\n"
|
|
" fma.rn.ftz.f32 %f451, %f283, %f310, %f448;\n"
|
|
" fma.rn.ftz.f32 %f452, %f358, %f334, %f449;\n"
|
|
" fma.rn.ftz.f32 %f453, %f358, %f333, %f450;\n"
|
|
" fma.rn.ftz.f32 %f454, %f358, %f335, %f451;\n"
|
|
" div.approx.ftz.f32 %f455, %f452, %f293;\n"
|
|
" div.approx.ftz.f32 %f456, %f453, %f300;\n"
|
|
" div.approx.ftz.f32 %f457, %f454, %f302;\n"
|
|
" mul.ftz.f32 %f458, %f452, %f455;\n"
|
|
" fma.rn.ftz.f32 %f459, %f453, %f456, %f458;\n"
|
|
" fma.rn.ftz.f32 %f460, %f454, %f457, %f459;\n"
|
|
" sqrt.approx.ftz.f32 %f461, %f460;\n"
|
|
" .loc 17 184 0\n"
|
|
" mul.ftz.f32 %f462, %f317, %f461;\n"
|
|
" mul.ftz.f32 %f463, %f338, %f461;\n"
|
|
" mul.ftz.f32 %f464, %f329, %f461;\n"
|
|
" mul.ftz.f32 %f465, %f365, %f461;\n"
|
|
" mul.ftz.f32 %f466, %f370, %f461;\n"
|
|
" mul.ftz.f32 %f467, %f374, %f461;\n"
|
|
" fma.rn.ftz.f32 %f468, %f185, %f445, %f462;\n"
|
|
" fma.rn.ftz.f32 %f469, %f186, %f445, %f463;\n"
|
|
" fma.rn.ftz.f32 %f470, %f196, %f445, %f464;\n"
|
|
" mul.ftz.f32 %f471, %f347, %f461;\n"
|
|
" mul.ftz.f32 %f472, %f352, %f461;\n"
|
|
" mul.ftz.f32 %f473, %f356, %f461;\n"
|
|
" fma.rn.ftz.f32 %f474, %f213, %f445, %f465;\n"
|
|
" fma.rn.ftz.f32 %f475, %f214, %f445, %f466;\n"
|
|
" fma.rn.ftz.f32 %f476, %f216, %f445, %f467;\n"
|
|
" fma.rn.ftz.f32 %f477, %f228, %f445, %f471;\n"
|
|
" fma.rn.ftz.f32 %f478, %f230, %f445, %f472;\n"
|
|
" fma.rn.ftz.f32 %f479, %f232, %f445, %f473;\n"
|
|
" mul.ftz.f32 %f480, %f470, %f474;\n"
|
|
" mul.ftz.f32 %f481, %f469, %f474;\n"
|
|
" mul.ftz.f32 %f482, %f470, %f477;\n"
|
|
" mul.ftz.f32 %f483, %f469, %f477;\n"
|
|
" mul.ftz.f32 %f484, %f468, %f478;\n"
|
|
" mul.ftz.f32 %f485, %f468, %f479;\n"
|
|
" mul.ftz.f32 %f486, %f475, %f485;\n"
|
|
" mul.ftz.f32 %f487, %f476, %f484;\n"
|
|
" sub.ftz.f32 %f488, %f487, %f486;\n"
|
|
" mul.ftz.f32 %f489, %f476, %f482;\n"
|
|
" sub.ftz.f32 %f490, %f488, %f489;\n"
|
|
" fma.rn.ftz.f32 %f491, %f475, %f483, %f490;\n"
|
|
" fma.rn.ftz.f32 %f492, %f479, %f480, %f491;\n"
|
|
" mul.ftz.f32 %f493, %f478, %f481;\n"
|
|
" sub.ftz.f32 %f494, %f492, %f493;\n"
|
|
" .loc 17 201 0\n"
|
|
" add.s32 %r28, %r25, %r22;\n"
|
|
" cvt.s64.s32 %rd40, %r28;\n"
|
|
" mul.wide.s32 %rd41, %r28, 8;\n"
|
|
" add.u64 %rd42, %rd29, %rd41;\n"
|
|
" ld.global.v2.f32 {%f495,%f496}, [%rd42+0];\n"
|
|
" .loc 17 202 0\n"
|
|
" shr.s32 %r29, %r23, 30;\n"
|
|
" and.b32 %r30, %r29, 3;\n"
|
|
" cvt.s64.s32 %rd43, %r30;\n"
|
|
" mul.wide.s32 %rd44, %r30, 4;\n"
|
|
" add.u64 %rd45, %rd30, %rd44;\n"
|
|
" ld.shared.f32 %f497, [%rd45+0];\n"
|
|
" mul.ftz.f32 %f498, %f497, %f496;\n"
|
|
" .loc 17 207 0\n"
|
|
" add.u64 %rd46, %rd35, %rd19;\n"
|
|
" ld.global.v4.f32 {%f499,%f500,%f501,_}, [%rd46+0];\n"
|
|
" .loc 16 299 0\n"
|
|
" mov.f32 %f292, %f283;\n"
|
|
" .loc 16 300 0\n"
|
|
" mul.ftz.f32 %f502, %f308, %f500;\n"
|
|
" mul.ftz.f32 %f503, %f310, %f501;\n"
|
|
" mul.ftz.f32 %f504, %f308, %f502;\n"
|
|
" mul.ftz.f32 %f505, %f312, %f499;\n"
|
|
" fma.rn.ftz.f32 %f506, %f312, %f505, %f504;\n"
|
|
" fma.rn.ftz.f32 %f507, %f503, %f310, %f506;\n"
|
|
" add.ftz.f32 %f508, %f194, %f507;\n"
|
|
" mov.f32 %f319, %f508;\n"
|
|
" .loc 16 301 0\n"
|
|
" mul.ftz.f32 %f509, %f502, %f326;\n"
|
|
" fma.rn.ftz.f32 %f510, %f505, %f323, %f509;\n"
|
|
" fma.rn.ftz.f32 %f511, %f503, %f325, %f510;\n"
|
|
" add.ftz.f32 %f512, %f206, %f511;\n"
|
|
" mov.f32 %f331, %f512;\n"
|
|
" .loc 16 302 0\n"
|
|
" mul.ftz.f32 %f513, %f334, %f502;\n"
|
|
" fma.rn.ftz.f32 %f514, %f505, %f333, %f513;\n"
|
|
" fma.rn.ftz.f32 %f515, %f503, %f335, %f514;\n"
|
|
" add.ftz.f32 %f516, %f195, %f515;\n"
|
|
" mov.f32 %f340, %f516;\n"
|
|
" .loc 16 303 0\n"
|
|
" mov.f32 %f341, %f284;\n"
|
|
" .loc 16 304 0\n"
|
|
" mul.ftz.f32 %f517, %f323, %f499;\n"
|
|
" mul.ftz.f32 %f518, %f325, %f501;\n"
|
|
" mul.ftz.f32 %f519, %f326, %f500;\n"
|
|
" mul.ftz.f32 %f520, %f308, %f519;\n"
|
|
" fma.rn.ftz.f32 %f521, %f312, %f517, %f520;\n"
|
|
" fma.rn.ftz.f32 %f522, %f518, %f310, %f521;\n"
|
|
" add.ftz.f32 %f523, %f240, %f522;\n"
|
|
" mov.f32 %f349, %f523;\n"
|
|
" .loc 16 305 0\n"
|
|
" mul.ftz.f32 %f524, %f326, %f519;\n"
|
|
" fma.rn.ftz.f32 %f525, %f323, %f517, %f524;\n"
|
|
" fma.rn.ftz.f32 %f526, %f518, %f325, %f525;\n"
|
|
" add.ftz.f32 %f353, %f241, %f526;\n"
|
|
" .loc 16 306 0\n"
|
|
" mul.ftz.f32 %f527, %f334, %f519;\n"
|
|
" fma.rn.ftz.f32 %f528, %f333, %f517, %f527;\n"
|
|
" fma.rn.ftz.f32 %f529, %f518, %f335, %f528;\n"
|
|
" add.ftz.f32 %f357, %f242, %f529;\n"
|
|
" .loc 16 307 0\n"
|
|
" mov.f32 %f359, %f358;\n"
|
|
" .loc 16 308 0\n"
|
|
" mul.ftz.f32 %f530, %f333, %f499;\n"
|
|
" mul.ftz.f32 %f531, %f334, %f500;\n"
|
|
" mul.ftz.f32 %f532, %f335, %f501;\n"
|
|
" mul.ftz.f32 %f533, %f308, %f531;\n"
|
|
" fma.rn.ftz.f32 %f534, %f312, %f530, %f533;\n"
|
|
" fma.rn.ftz.f32 %f535, %f310, %f532, %f534;\n"
|
|
" add.ftz.f32 %f536, %f221, %f535;\n"
|
|
" mov.f32 %f367, %f536;\n"
|
|
" .loc 16 309 0\n"
|
|
" mul.ftz.f32 %f537, %f326, %f531;\n"
|
|
" fma.rn.ftz.f32 %f538, %f323, %f530, %f537;\n"
|
|
" fma.rn.ftz.f32 %f539, %f325, %f532, %f538;\n"
|
|
" add.ftz.f32 %f371, %f222, %f539;\n"
|
|
" .loc 16 310 0\n"
|
|
" mul.ftz.f32 %f540, %f334, %f531;\n"
|
|
" fma.rn.ftz.f32 %f541, %f333, %f530, %f540;\n"
|
|
" fma.rn.ftz.f32 %f542, %f335, %f532, %f541;\n"
|
|
" add.ftz.f32 %f375, %f223, %f542;\n"
|
|
" abs.ftz.f32 %f543, %f523;\n"
|
|
" abs.ftz.f32 %f544, %f508;\n"
|
|
" setp.gt.ftz.f32 %p13, %f543, %f544;\n"
|
|
" @!%p13 bra $Lt_0_51202;\n"
|
|
" .loc 16 314 0\n"
|
|
" mov.f32 %f319, %f523;\n"
|
|
" mov.f32 %f349, %f508;\n"
|
|
" .loc 16 315 0\n"
|
|
" mov.f32 %f331, %f353;\n"
|
|
" mov.f32 %f353, %f512;\n"
|
|
" .loc 16 316 0\n"
|
|
" mov.f32 %f340, %f357;\n"
|
|
" mov.f32 %f357, %f516;\n"
|
|
" .loc 16 317 0\n"
|
|
" mov.f32 %f292, %f284;\n"
|
|
" mov.f32 %f341, %f283;\n"
|
|
"$Lt_0_51202:\n"
|
|
" mov.f32 %f545, %f319;\n"
|
|
" abs.ftz.f32 %f546, %f545;\n"
|
|
" abs.ftz.f32 %f547, %f536;\n"
|
|
" setp.lt.ftz.f32 %p14, %f546, %f547;\n"
|
|
" @!%p14 bra $Lt_0_51714;\n"
|
|
" .loc 16 321 0\n"
|
|
" mov.f32 %f319, %f536;\n"
|
|
" mov.f32 %f367, %f545;\n"
|
|
" .loc 16 322 0\n"
|
|
" mov.f32 %f548, %f331;\n"
|
|
" mov.f32 %f331, %f371;\n"
|
|
" mov.f32 %f371, %f548;\n"
|
|
" .loc 16 323 0\n"
|
|
" mov.f32 %f549, %f340;\n"
|
|
" mov.f32 %f340, %f375;\n"
|
|
" mov.f32 %f375, %f549;\n"
|
|
" .loc 16 324 0\n"
|
|
" mov.f32 %f550, %f292;\n"
|
|
" mov.f32 %f292, %f358;\n"
|
|
" mov.f32 %f359, %f550;\n"
|
|
"$Lt_0_51714:\n"
|
|
" mov.f32 %f551, %f319;\n"
|
|
" mov.f32 %f552, 0f00000000; \n"
|
|
" setp.neu.ftz.f32 %p15, %f551, %f552;\n"
|
|
" @!%p15 bra $Lt_0_52482;\n"
|
|
" bra.uni $Lt_0_53250;\n"
|
|
"$Lt_0_52482:\n"
|
|
" mov.f32 %f553, 0f00000000; \n"
|
|
" setp.neu.ftz.f32 %p16, %f349, %f553;\n"
|
|
" @!%p16 bra $Lt_0_52994;\n"
|
|
" .loc 16 338 0\n"
|
|
" mov.f32 %f319, %f349;\n"
|
|
" mov.f32 %f349, %f551;\n"
|
|
" .loc 16 339 0\n"
|
|
" mov.f32 %f554, %f331;\n"
|
|
" mov.f32 %f331, %f353;\n"
|
|
" mov.f32 %f353, %f554;\n"
|
|
" .loc 16 340 0\n"
|
|
" mov.f32 %f555, %f340;\n"
|
|
" mov.f32 %f340, %f357;\n"
|
|
" mov.f32 %f357, %f555;\n"
|
|
" .loc 16 341 0\n"
|
|
" mov.f32 %f556, %f292;\n"
|
|
" mov.f32 %f292, %f341;\n"
|
|
" mov.f32 %f341, %f556;\n"
|
|
" bra.uni $Lt_0_53250;\n"
|
|
"$Lt_0_52994:\n"
|
|
" mov.f32 %f557, 0f00000000; \n"
|
|
" setp.neu.ftz.f32 %p17, %f367, %f557;\n"
|
|
" @!%p17 bra $Lt_0_53506;\n"
|
|
" .loc 16 346 0\n"
|
|
" mov.f32 %f319, %f367;\n"
|
|
" mov.f32 %f367, %f551;\n"
|
|
" .loc 16 347 0\n"
|
|
" mov.f32 %f558, %f331;\n"
|
|
" mov.f32 %f331, %f371;\n"
|
|
" mov.f32 %f371, %f558;\n"
|
|
" .loc 16 348 0\n"
|
|
" mov.f32 %f559, %f340;\n"
|
|
" mov.f32 %f340, %f375;\n"
|
|
" mov.f32 %f375, %f559;\n"
|
|
" .loc 16 349 0\n"
|
|
" mov.f32 %f560, %f292;\n"
|
|
" mov.f32 %f292, %f359;\n"
|
|
" mov.f32 %f359, %f560;\n"
|
|
" bra.uni $Lt_0_53250;\n"
|
|
"$Lt_0_53506:\n"
|
|
" .loc 16 352 0\n"
|
|
" mov.s32 %r31, 2;\n"
|
|
" ld.param.u64 %rd47, [__cudaparm_kernel_ellipsoid_err_flag];\n"
|
|
" st.global.s32 [%rd47+0], %r31;\n"
|
|
"$Lt_0_53250:\n"
|
|
"$Lt_0_52738:\n"
|
|
"$Lt_0_52226:\n"
|
|
" .loc 16 355 0\n"
|
|
" div.approx.ftz.f32 %f561, %f349, %f319;\n"
|
|
" mul.ftz.f32 %f562, %f331, %f561;\n"
|
|
" sub.ftz.f32 %f563, %f353, %f562;\n"
|
|
" mov.f32 %f353, %f563;\n"
|
|
" .loc 16 356 0\n"
|
|
" mul.ftz.f32 %f564, %f340, %f561;\n"
|
|
" sub.ftz.f32 %f565, %f357, %f564;\n"
|
|
" mov.f32 %f357, %f565;\n"
|
|
" .loc 16 357 0\n"
|
|
" mul.ftz.f32 %f566, %f292, %f561;\n"
|
|
" sub.ftz.f32 %f567, %f341, %f566;\n"
|
|
" mov.f32 %f341, %f567;\n"
|
|
" .loc 16 359 0\n"
|
|
" div.approx.ftz.f32 %f568, %f367, %f319;\n"
|
|
" mul.ftz.f32 %f569, %f331, %f568;\n"
|
|
" sub.ftz.f32 %f371, %f371, %f569;\n"
|
|
" .loc 16 360 0\n"
|
|
" mul.ftz.f32 %f570, %f340, %f568;\n"
|
|
" sub.ftz.f32 %f375, %f375, %f570;\n"
|
|
" .loc 16 361 0\n"
|
|
" mul.ftz.f32 %f571, %f292, %f568;\n"
|
|
" sub.ftz.f32 %f359, %f359, %f571;\n"
|
|
" abs.ftz.f32 %f572, %f563;\n"
|
|
" abs.ftz.f32 %f573, %f371;\n"
|
|
" setp.lt.ftz.f32 %p18, %f572, %f573;\n"
|
|
" @!%p18 bra $Lt_0_53762;\n"
|
|
" .loc 16 366 0\n"
|
|
" mov.f32 %f353, %f371;\n"
|
|
" mov.f32 %f371, %f563;\n"
|
|
" .loc 16 367 0\n"
|
|
" mov.f32 %f357, %f375;\n"
|
|
" mov.f32 %f375, %f565;\n"
|
|
" .loc 16 368 0\n"
|
|
" mov.f32 %f341, %f359;\n"
|
|
" mov.f32 %f359, %f567;\n"
|
|
"$Lt_0_53762:\n"
|
|
" mov.f32 %f574, %f353;\n"
|
|
" mov.f32 %f575, 0f00000000; \n"
|
|
" setp.neu.ftz.f32 %p19, %f574, %f575;\n"
|
|
" @!%p19 bra $Lt_0_54530;\n"
|
|
" bra.uni $Lt_0_54786;\n"
|
|
"$Lt_0_54530:\n"
|
|
" mov.f32 %f576, 0f00000000; \n"
|
|
" setp.neu.ftz.f32 %p20, %f371, %f576;\n"
|
|
" @!%p20 bra $Lt_0_54786;\n"
|
|
" .loc 16 383 0\n"
|
|
" mov.f32 %f353, %f371;\n"
|
|
" mov.f32 %f371, %f574;\n"
|
|
" .loc 16 384 0\n"
|
|
" mov.f32 %f577, %f357;\n"
|
|
" mov.f32 %f357, %f375;\n"
|
|
" mov.f32 %f375, %f577;\n"
|
|
" .loc 16 385 0\n"
|
|
" mov.f32 %f578, %f341;\n"
|
|
" mov.f32 %f341, %f359;\n"
|
|
" mov.f32 %f359, %f578;\n"
|
|
"$Lt_0_54786:\n"
|
|
"$Lt_0_54274:\n"
|
|
" .loc 16 390 0\n"
|
|
" div.approx.ftz.f32 %f579, %f371, %f353;\n"
|
|
" mul.ftz.f32 %f580, %f357, %f579;\n"
|
|
" sub.ftz.f32 %f375, %f375, %f580;\n"
|
|
" .loc 16 391 0\n"
|
|
" mul.ftz.f32 %f581, %f341, %f579;\n"
|
|
" sub.ftz.f32 %f359, %f359, %f581;\n"
|
|
" mov.f32 %f582, 0f00000000; \n"
|
|
" setp.eq.ftz.f32 %p21, %f375, %f582;\n"
|
|
" @!%p21 bra $Lt_0_55298;\n"
|
|
" .loc 16 394 0\n"
|
|
" mov.s32 %r32, 2;\n"
|
|
" ld.param.u64 %rd48, [__cudaparm_kernel_ellipsoid_err_flag];\n"
|
|
" st.global.s32 [%rd48+0], %r32;\n"
|
|
"$Lt_0_55298:\n"
|
|
" .loc 17 213 0\n"
|
|
" div.approx.ftz.f32 %f583, %f359, %f375;\n"
|
|
" mul.ftz.f32 %f584, %f583, %f357;\n"
|
|
" sub.ftz.f32 %f585, %f341, %f584;\n"
|
|
" div.approx.ftz.f32 %f586, %f585, %f353;\n"
|
|
" mul.ftz.f32 %f587, %f586, %f331;\n"
|
|
" fma.rn.ftz.f32 %f588, %f340, %f583, %f587;\n"
|
|
" mul.ftz.f32 %f589, %f586, %f284;\n"
|
|
" sub.ftz.f32 %f590, %f292, %f588;\n"
|
|
" div.approx.ftz.f32 %f591, %f590, %f319;\n"
|
|
" fma.rn.ftz.f32 %f592, %f283, %f591, %f589;\n"
|
|
" fma.rn.ftz.f32 %f593, %f358, %f583, %f592;\n"
|
|
" add.ftz.f32 %f594, %f593, %f593;\n"
|
|
" .loc 17 220 0\n"
|
|
" rcp.approx.ftz.f32 %f595, %f282;\n"
|
|
" sub.ftz.f32 %f596, %f595, %f429;\n"
|
|
" mov.f32 %f597, 0f3f000000; \n"
|
|
" mul.ftz.f32 %f598, %f596, %f597;\n"
|
|
" add.ftz.f32 %f599, %f598, %f287;\n"
|
|
" add.ftz.f32 %f600, %f598, %f286;\n"
|
|
" add.ftz.f32 %f601, %f598, %f285;\n"
|
|
" add.ftz.f32 %f602, %f598, %f36;\n"
|
|
" add.ftz.f32 %f603, %f598, %f34;\n"
|
|
" add.ftz.f32 %f604, %f598, %f35;\n"
|
|
" mul.ftz.f32 %f605, %f603, %f604;\n"
|
|
" mul.ftz.f32 %f606, %f602, %f605;\n"
|
|
" mul.ftz.f32 %f607, %f601, %f606;\n"
|
|
" mul.ftz.f32 %f608, %f600, %f607;\n"
|
|
" mul.ftz.f32 %f609, %f599, %f608;\n"
|
|
" .loc 17 223 0\n"
|
|
" mul.ftz.f32 %f610, %f461, %f461;\n"
|
|
" mul.ftz.f32 %f611, %f285, %f286;\n"
|
|
" mul.ftz.f32 %f612, %f445, %f445;\n"
|
|
" rcp.approx.ftz.f32 %f613, %f445;\n"
|
|
" rcp.approx.ftz.f32 %f614, %f461;\n"
|
|
" mul.ftz.f32 %f615, %f611, %f287;\n"
|
|
" add.ftz.f32 %f616, %f613, %f614;\n"
|
|
" mul.ftz.f32 %f617, %f610, %f615;\n"
|
|
" mul.ftz.f32 %f618, %f615, %f69;\n"
|
|
" div.approx.ftz.f32 %f619, %f616, %f494;\n"
|
|
" fma.rn.ftz.f32 %f620, %f69, %f612, %f617;\n"
|
|
" rsqrt.approx.ftz.f32 %f621, %f619;\n"
|
|
" div.approx.ftz.f32 %f622, %f620, %f621;\n"
|
|
" mul.ftz.f32 %f623, %f622, %f594;\n"
|
|
" div.approx.ftz.f32 %f624, %f495, %f596;\n"
|
|
" mul.ftz.f32 %f625, %f623, %f624;\n"
|
|
" mov.f32 %f626, 0f3f800000; \n"
|
|
" mov.f32 %f627, 0f40400000; \n"
|
|
" fma.rn.ftz.f32 %f628, %f627, %f625, %f626;\n"
|
|
" mul.ftz.f32 %f629, %f618, %f628;\n"
|
|
" .loc 17 228 0\n"
|
|
" div.approx.ftz.f32 %f630, %f596, %f17;\n"
|
|
" add.ftz.f32 %f631, %f630, %f287;\n"
|
|
" add.ftz.f32 %f632, %f630, %f286;\n"
|
|
" add.ftz.f32 %f633, %f630, %f285;\n"
|
|
" add.ftz.f32 %f634, %f630, %f36;\n"
|
|
" add.ftz.f32 %f635, %f630, %f34;\n"
|
|
" add.ftz.f32 %f636, %f630, %f35;\n"
|
|
" mul.ftz.f32 %f637, %f635, %f636;\n"
|
|
" mul.ftz.f32 %f638, %f634, %f637;\n"
|
|
" mul.ftz.f32 %f639, %f633, %f638;\n"
|
|
" mul.ftz.f32 %f640, %f632, %f639;\n"
|
|
" mul.ftz.f32 %f641, %f631, %f640;\n"
|
|
" .loc 17 231 0\n"
|
|
" mov.f32 %f642, 0f3f800000; \n"
|
|
" mov.f32 %f643, 0f3f4db6db; \n"
|
|
" fma.rn.ftz.f32 %f644, %f643, %f625, %f642;\n"
|
|
" mul.ftz.f32 %f645, %f618, %f644;\n"
|
|
" .loc 17 233 0\n"
|
|
" mul.ftz.f32 %f646, %f624, %f624;\n"
|
|
" mul.ftz.f32 %f647, %f624, %f646;\n"
|
|
" mul.ftz.f32 %f648, %f647, %f647;\n"
|
|
" .loc 17 236 0\n"
|
|
" div.approx.ftz.f32 %f649, %f629, %f609;\n"
|
|
" div.approx.ftz.f32 %f650, %f645, %f641;\n"
|
|
" mul.ftz.f32 %f651, %f649, %f498;\n"
|
|
" mul.ftz.f32 %f652, %f650, %f498;\n"
|
|
" mov.f32 %f653, 0fc2100000; \n"
|
|
" div.approx.ftz.f32 %f654, %f651, %f653;\n"
|
|
" mul.ftz.f32 %f655, %f652, %f648;\n"
|
|
" mov.f32 %f656, 0f44fd2000; \n"
|
|
" div.approx.ftz.f32 %f657, %f655, %f656;\n"
|
|
" add.ftz.f32 %f658, %f654, %f657;\n"
|
|
" add.ftz.f32 %f271, %f271, %f658;\n"
|
|
" .loc 17 246 0\n"
|
|
" div.approx.ftz.f32 %f659, %f613, %f612;\n"
|
|
" mul.ftz.f32 %f660, %f659, %f440;\n"
|
|
" neg.ftz.f32 %f661, %f660;\n"
|
|
" .loc 17 247 0\n"
|
|
" mul.ftz.f32 %f662, %f659, %f439;\n"
|
|
" neg.ftz.f32 %f663, %f662;\n"
|
|
" .loc 17 248 0\n"
|
|
" mul.ftz.f32 %f664, %f659, %f441;\n"
|
|
" neg.ftz.f32 %f665, %f664;\n"
|
|
" .loc 17 249 0\n"
|
|
" div.approx.ftz.f32 %f666, %f614, %f610;\n"
|
|
" mul.ftz.f32 %f667, %f666, %f456;\n"
|
|
" neg.ftz.f32 %f668, %f667;\n"
|
|
" .loc 17 250 0\n"
|
|
" mul.ftz.f32 %f669, %f666, %f455;\n"
|
|
" neg.ftz.f32 %f670, %f669;\n"
|
|
" .loc 17 251 0\n"
|
|
" mul.ftz.f32 %f671, %f666, %f457;\n"
|
|
" neg.ftz.f32 %f672, %f671;\n"
|
|
" .loc 21 544 0\n"
|
|
" add.ftz.f32 %f673, %f622, %f622;\n"
|
|
" div.approx.ftz.f32 %f674, %f673, %f620;\n"
|
|
" mul.ftz.f32 %f675, %f615, %f674;\n"
|
|
" div.approx.ftz.f32 %f676, %f675, %f666;\n"
|
|
" mul.ftz.f32 %f677, %f69, %f674;\n"
|
|
" div.approx.ftz.f32 %f678, %f677, %f659;\n"
|
|
" .loc 17 278 0\n"
|
|
" mov.f32 %f679, 0f40800000; \n"
|
|
" mul.ftz.f32 %f680, %f591, %f679;\n"
|
|
" .loc 17 286 0\n"
|
|
" add.ftz.f32 %f681, %f55, %f596;\n"
|
|
" rcp.approx.ftz.f32 %f682, %f681;\n"
|
|
" add.ftz.f32 %f683, %f56, %f596;\n"
|
|
" rcp.approx.ftz.f32 %f684, %f683;\n"
|
|
" add.ftz.f32 %f685, %f682, %f684;\n"
|
|
" add.ftz.f32 %f686, %f57, %f596;\n"
|
|
" rcp.approx.ftz.f32 %f687, %f686;\n"
|
|
" add.ftz.f32 %f688, %f685, %f687;\n"
|
|
" add.ftz.f32 %f689, %f285, %f285;\n"
|
|
" add.ftz.f32 %f690, %f596, %f689;\n"
|
|
" rcp.approx.ftz.f32 %f691, %f690;\n"
|
|
" add.ftz.f32 %f692, %f688, %f691;\n"
|
|
" add.ftz.f32 %f693, %f286, %f286;\n"
|
|
" add.ftz.f32 %f694, %f596, %f693;\n"
|
|
" rcp.approx.ftz.f32 %f695, %f694;\n"
|
|
" add.ftz.f32 %f696, %f692, %f695;\n"
|
|
" add.ftz.f32 %f697, %f287, %f287;\n"
|
|
" add.ftz.f32 %f698, %f596, %f697;\n"
|
|
" rcp.approx.ftz.f32 %f699, %f698;\n"
|
|
" add.ftz.f32 %f700, %f696, %f699;\n"
|
|
" .loc 17 293 0\n"
|
|
" mul.ftz.f32 %f701, %f622, %f495;\n"
|
|
" mul.ftz.f32 %f702, %f701, %f594;\n"
|
|
" mov.f32 %f703, 0f40400000; \n"
|
|
" fma.rn.ftz.f32 %f704, %f703, %f702, %f596;\n"
|
|
" rcp.approx.ftz.f32 %f705, %f704;\n"
|
|
" rcp.approx.ftz.f32 %f706, %f596;\n"
|
|
" sub.ftz.f32 %f707, %f706, %f705;\n"
|
|
" add.ftz.f32 %f708, %f700, %f707;\n"
|
|
" .loc 17 297 0\n"
|
|
" fma.rn.ftz.f32 %f709, %f17, %f34, %f596;\n"
|
|
" rcp.approx.ftz.f32 %f710, %f709;\n"
|
|
" fma.rn.ftz.f32 %f711, %f17, %f35, %f596;\n"
|
|
" rcp.approx.ftz.f32 %f712, %f711;\n"
|
|
" add.ftz.f32 %f713, %f710, %f712;\n"
|
|
" fma.rn.ftz.f32 %f714, %f17, %f36, %f596;\n"
|
|
" rcp.approx.ftz.f32 %f715, %f714;\n"
|
|
" add.ftz.f32 %f716, %f713, %f715;\n"
|
|
" fma.rn.ftz.f32 %f717, %f17, %f285, %f596;\n"
|
|
" rcp.approx.ftz.f32 %f718, %f717;\n"
|
|
" add.ftz.f32 %f719, %f716, %f718;\n"
|
|
" fma.rn.ftz.f32 %f720, %f17, %f286, %f596;\n"
|
|
" rcp.approx.ftz.f32 %f721, %f720;\n"
|
|
" add.ftz.f32 %f722, %f719, %f721;\n"
|
|
" fma.rn.ftz.f32 %f723, %f17, %f287, %f596;\n"
|
|
" rcp.approx.ftz.f32 %f724, %f723;\n"
|
|
" add.ftz.f32 %f725, %f722, %f724;\n"
|
|
" .loc 17 304 0\n"
|
|
" mov.f32 %f726, 0f40e00000; \n"
|
|
" div.approx.ftz.f32 %f727, %f726, %f596;\n"
|
|
" mov.f32 %f728, 0f3f4db6db; \n"
|
|
" fma.rn.ftz.f32 %f729, %f728, %f702, %f596;\n"
|
|
" rcp.approx.ftz.f32 %f730, %f729;\n"
|
|
" sub.ftz.f32 %f731, %f727, %f730;\n"
|
|
" add.ftz.f32 %f732, %f731, %f725;\n"
|
|
" .loc 17 314 0\n"
|
|
" mul.ftz.f32 %f733, %f283, %f283;\n"
|
|
" neg.ftz.f32 %f734, %f733;\n"
|
|
" mov.f32 %f735, %f734;\n"
|
|
" .loc 17 315 0\n"
|
|
" mul.ftz.f32 %f736, %f284, %f283;\n"
|
|
" neg.ftz.f32 %f737, %f736;\n"
|
|
" mov.f32 %f738, %f737;\n"
|
|
" .loc 17 316 0\n"
|
|
" mul.ftz.f32 %f739, %f358, %f283;\n"
|
|
" neg.ftz.f32 %f740, %f739;\n"
|
|
" mov.f32 %f741, %f740;\n"
|
|
" .loc 17 317 0\n"
|
|
" mov.f32 %f742, 0f3f800000; \n"
|
|
" sub.ftz.f32 %f743, %f742, %f733;\n"
|
|
" mov.f32 %f744, %f743;\n"
|
|
" .loc 17 318 0\n"
|
|
" mul.ftz.f32 %f745, %f282, %f743;\n"
|
|
" mov.f32 %f746, %f745;\n"
|
|
" .loc 17 319 0\n"
|
|
" mov.f32 %f747, %f738;\n"
|
|
" mul.ftz.f32 %f748, %f747, %f282;\n"
|
|
" mov.f32 %f749, %f748;\n"
|
|
" .loc 17 320 0\n"
|
|
" mov.f32 %f750, %f741;\n"
|
|
" mul.ftz.f32 %f751, %f750, %f282;\n"
|
|
" mov.f32 %f752, %f751;\n"
|
|
" .loc 17 325 0\n"
|
|
" mul.ftz.f32 %f753, %f71, %f748;\n"
|
|
" mul.ftz.f32 %f754, %f79, %f748;\n"
|
|
" mul.ftz.f32 %f755, %f323, %f748;\n"
|
|
" mul.ftz.f32 %f756, %f325, %f748;\n"
|
|
" mul.ftz.f32 %f757, %f89, %f748;\n"
|
|
" mul.ftz.f32 %f758, %f326, %f748;\n"
|
|
" mul.ftz.f32 %f759, %f612, %f185;\n"
|
|
" mul.ftz.f32 %f760, %f610, %f317;\n"
|
|
" neg.ftz.f32 %f761, %f759;\n"
|
|
" fma.rn.ftz.f32 %f762, %f745, %f308, %f758;\n"
|
|
" fma.rn.ftz.f32 %f763, %f312, %f745, %f755;\n"
|
|
" fma.rn.ftz.f32 %f764, %f745, %f310, %f756;\n"
|
|
" fma.rn.ftz.f32 %f765, %f745, %f70, %f757;\n"
|
|
" fma.rn.ftz.f32 %f766, %f87, %f745, %f753;\n"
|
|
" fma.rn.ftz.f32 %f767, %f745, %f76, %f754;\n"
|
|
" fma.rn.ftz.f32 %f768, %f751, %f334, %f762;\n"
|
|
" fma.rn.ftz.f32 %f769, %f333, %f751, %f763;\n"
|
|
" fma.rn.ftz.f32 %f770, %f751, %f335, %f764;\n"
|
|
" fma.rn.ftz.f32 %f771, %f751, %f80, %f765;\n"
|
|
" fma.rn.ftz.f32 %f772, %f77, %f751, %f766;\n"
|
|
" fma.rn.ftz.f32 %f773, %f751, %f91, %f767;\n"
|
|
" mul.ftz.f32 %f774, %f768, %f670;\n"
|
|
" mul.ftz.f32 %f775, %f771, %f663;\n"
|
|
" fma.rn.ftz.f32 %f776, %f668, %f769, %f774;\n"
|
|
" fma.rn.ftz.f32 %f777, %f661, %f772, %f775;\n"
|
|
" fma.rn.ftz.f32 %f778, %f672, %f770, %f776;\n"
|
|
" fma.rn.ftz.f32 %f779, %f665, %f773, %f777;\n"
|
|
" mul.ftz.f32 %f780, %f760, %f778;\n"
|
|
" mul.ftz.f32 %f781, %f761, %f779;\n"
|
|
" sub.ftz.f32 %f782, %f781, %f780;\n"
|
|
" .loc 17 326 0\n"
|
|
" mul.ftz.f32 %f783, %f612, %f196;\n"
|
|
" mul.ftz.f32 %f784, %f610, %f329;\n"
|
|
" neg.ftz.f32 %f785, %f783;\n"
|
|
" mul.ftz.f32 %f786, %f784, %f778;\n"
|
|
" mul.ftz.f32 %f787, %f785, %f779;\n"
|
|
" sub.ftz.f32 %f788, %f787, %f786;\n"
|
|
" .loc 17 327 0\n"
|
|
" mul.ftz.f32 %f789, %f612, %f186;\n"
|
|
" mul.ftz.f32 %f790, %f610, %f338;\n"
|
|
" neg.ftz.f32 %f791, %f789;\n"
|
|
" mul.ftz.f32 %f792, %f790, %f778;\n"
|
|
" mul.ftz.f32 %f793, %f791, %f779;\n"
|
|
" sub.ftz.f32 %f794, %f793, %f792;\n"
|
|
" .loc 17 328 0\n"
|
|
" mul.ftz.f32 %f795, %f612, %f228;\n"
|
|
" mul.ftz.f32 %f796, %f610, %f347;\n"
|
|
" neg.ftz.f32 %f797, %f795;\n"
|
|
" mul.ftz.f32 %f798, %f796, %f778;\n"
|
|
" mul.ftz.f32 %f799, %f797, %f779;\n"
|
|
" sub.ftz.f32 %f800, %f799, %f798;\n"
|
|
" .loc 17 329 0\n"
|
|
" mul.ftz.f32 %f801, %f612, %f230;\n"
|
|
" mul.ftz.f32 %f802, %f610, %f352;\n"
|
|
" neg.ftz.f32 %f803, %f801;\n"
|
|
" mul.ftz.f32 %f804, %f802, %f778;\n"
|
|
" mul.ftz.f32 %f805, %f803, %f779;\n"
|
|
" sub.ftz.f32 %f806, %f805, %f804;\n"
|
|
" .loc 17 330 0\n"
|
|
" mul.ftz.f32 %f807, %f612, %f232;\n"
|
|
" mul.ftz.f32 %f808, %f610, %f356;\n"
|
|
" neg.ftz.f32 %f809, %f807;\n"
|
|
" mul.ftz.f32 %f810, %f808, %f778;\n"
|
|
" mul.ftz.f32 %f811, %f809, %f779;\n"
|
|
" sub.ftz.f32 %f812, %f811, %f810;\n"
|
|
" .loc 17 331 0\n"
|
|
" mul.ftz.f32 %f813, %f612, %f213;\n"
|
|
" mul.ftz.f32 %f814, %f610, %f365;\n"
|
|
" neg.ftz.f32 %f815, %f813;\n"
|
|
" mul.ftz.f32 %f816, %f814, %f778;\n"
|
|
" mul.ftz.f32 %f817, %f815, %f779;\n"
|
|
" sub.ftz.f32 %f818, %f817, %f816;\n"
|
|
" .loc 17 332 0\n"
|
|
" mul.ftz.f32 %f819, %f612, %f214;\n"
|
|
" mul.ftz.f32 %f820, %f610, %f370;\n"
|
|
" neg.ftz.f32 %f821, %f819;\n"
|
|
" mul.ftz.f32 %f822, %f820, %f778;\n"
|
|
" mul.ftz.f32 %f823, %f821, %f779;\n"
|
|
" sub.ftz.f32 %f824, %f823, %f822;\n"
|
|
" .loc 17 333 0\n"
|
|
" mul.ftz.f32 %f825, %f612, %f216;\n"
|
|
" mul.ftz.f32 %f826, %f610, %f374;\n"
|
|
" neg.ftz.f32 %f827, %f825;\n"
|
|
" mul.ftz.f32 %f828, %f826, %f778;\n"
|
|
" mul.ftz.f32 %f829, %f827, %f779;\n"
|
|
" sub.ftz.f32 %f830, %f829, %f828;\n"
|
|
" .loc 17 334 0\n"
|
|
" mul.ftz.f32 %f831, %f479, %f782;\n"
|
|
" mul.ftz.f32 %f832, %f475, %f831;\n"
|
|
" mul.ftz.f32 %f833, %f478, %f782;\n"
|
|
" mul.ftz.f32 %f834, %f476, %f833;\n"
|
|
" sub.ftz.f32 %f835, %f834, %f832;\n"
|
|
" mul.ftz.f32 %f836, %f477, %f788;\n"
|
|
" mul.ftz.f32 %f837, %f476, %f836;\n"
|
|
" sub.ftz.f32 %f838, %f835, %f837;\n"
|
|
" mul.ftz.f32 %f839, %f477, %f794;\n"
|
|
" fma.rn.ftz.f32 %f840, %f475, %f839, %f838;\n"
|
|
" mul.ftz.f32 %f841, %f474, %f788;\n"
|
|
" fma.rn.ftz.f32 %f842, %f479, %f841, %f840;\n"
|
|
" mul.ftz.f32 %f843, %f474, %f794;\n"
|
|
" mul.ftz.f32 %f844, %f478, %f843;\n"
|
|
" sub.ftz.f32 %f845, %f842, %f844;\n"
|
|
" mul.ftz.f32 %f846, %f468, %f806;\n"
|
|
" fma.rn.ftz.f32 %f847, %f476, %f846, %f845;\n"
|
|
" mul.ftz.f32 %f848, %f468, %f812;\n"
|
|
" mul.ftz.f32 %f849, %f475, %f848;\n"
|
|
" sub.ftz.f32 %f850, %f847, %f849;\n"
|
|
" mul.ftz.f32 %f851, %f470, %f800;\n"
|
|
" mul.ftz.f32 %f852, %f476, %f851;\n"
|
|
" sub.ftz.f32 %f853, %f850, %f852;\n"
|
|
" mul.ftz.f32 %f854, %f469, %f800;\n"
|
|
" fma.rn.ftz.f32 %f855, %f475, %f854, %f853;\n"
|
|
" fma.rn.ftz.f32 %f856, %f812, %f480, %f855;\n"
|
|
" mul.ftz.f32 %f857, %f806, %f481;\n"
|
|
" sub.ftz.f32 %f858, %f856, %f857;\n"
|
|
" fma.rn.ftz.f32 %f859, %f830, %f484, %f858;\n"
|
|
" mul.ftz.f32 %f860, %f824, %f485;\n"
|
|
" sub.ftz.f32 %f861, %f859, %f860;\n"
|
|
" mul.ftz.f32 %f862, %f830, %f482;\n"
|
|
" sub.ftz.f32 %f863, %f861, %f862;\n"
|
|
" fma.rn.ftz.f32 %f864, %f824, %f483, %f863;\n"
|
|
" mul.ftz.f32 %f865, %f470, %f818;\n"
|
|
" fma.rn.ftz.f32 %f866, %f479, %f865, %f864;\n"
|
|
" mul.ftz.f32 %f867, %f469, %f818;\n"
|
|
" mul.ftz.f32 %f868, %f478, %f867;\n"
|
|
" sub.ftz.f32 %f869, %f866, %f868;\n"
|
|
" .loc 17 335 0\n"
|
|
" add.ftz.f32 %f870, %f616, %f616;\n"
|
|
" div.approx.ftz.f32 %f871, %f622, %f870;\n"
|
|
" add.ftz.f32 %f872, %f778, %f779;\n"
|
|
" mul.ftz.f32 %f873, %f871, %f872;\n"
|
|
" .loc 17 336 0\n"
|
|
" add.ftz.f32 %f874, %f494, %f494;\n"
|
|
" div.approx.ftz.f32 %f875, %f622, %f874;\n"
|
|
" mul.ftz.f32 %f876, %f869, %f875;\n"
|
|
" sub.ftz.f32 %f877, %f873, %f876;\n"
|
|
" .loc 17 337 0\n"
|
|
" mul.ftz.f32 %f878, %f676, %f778;\n"
|
|
" fma.rn.ftz.f32 %f879, %f779, %f678, %f878;\n"
|
|
" sub.ftz.f32 %f880, %f877, %f879;\n"
|
|
" .loc 17 340 0\n"
|
|
" mul.ftz.f32 %f881, %f429, %f429;\n"
|
|
" mov.f32 %f882, 0f40400000; \n"
|
|
" mul.ftz.f32 %f883, %f495, %f882;\n"
|
|
" mov.f32 %f884, 0f40800000; \n"
|
|
" mul.ftz.f32 %f885, %f583, %f884;\n"
|
|
" mul.ftz.f32 %f886, %f881, %f429;\n"
|
|
" mov.f32 %f887, 0f3f000000; \n"
|
|
" mul.ftz.f32 %f888, %f886, %f887;\n"
|
|
" mul.ftz.f32 %f889, %f888, %f419;\n"
|
|
" mul.ftz.f32 %f890, %f888, %f423;\n"
|
|
" mul.ftz.f32 %f891, %f888, %f416;\n"
|
|
" mov.f32 %f892, 0f40800000; \n"
|
|
" mul.ftz.f32 %f893, %f586, %f892;\n"
|
|
" mul.ftz.f32 %f894, %f889, %f748;\n"
|
|
" mul.ftz.f32 %f895, %f893, %f748;\n"
|
|
" fma.rn.ftz.f32 %f896, %f890, %f745, %f894;\n"
|
|
" fma.rn.ftz.f32 %f897, %f680, %f745, %f895;\n"
|
|
" mul.ftz.f32 %f898, %f883, %f705;\n"
|
|
" fma.rn.ftz.f32 %f899, %f891, %f751, %f896;\n"
|
|
" fma.rn.ftz.f32 %f900, %f885, %f751, %f897;\n"
|
|
" add.ftz.f32 %f901, %f899, %f283;\n"
|
|
" mul.ftz.f32 %f902, %f622, %f900;\n"
|
|
" fma.rn.ftz.f32 %f903, %f594, %f880, %f902;\n"
|
|
" mul.ftz.f32 %f904, %f901, %f708;\n"
|
|
" mul.ftz.f32 %f905, %f898, %f903;\n"
|
|
" sub.ftz.f32 %f906, %f905, %f904;\n"
|
|
" .loc 17 341 0\n"
|
|
" mov.f32 %f907, 0f3f4db6db; \n"
|
|
" mul.ftz.f32 %f908, %f495, %f907;\n"
|
|
" mul.ftz.f32 %f909, %f908, %f730;\n"
|
|
" mul.ftz.f32 %f910, %f901, %f732;\n"
|
|
" mul.ftz.f32 %f911, %f909, %f903;\n"
|
|
" sub.ftz.f32 %f912, %f911, %f910;\n"
|
|
" .loc 17 344 0\n"
|
|
" mul.ftz.f32 %f913, %f657, %f912;\n"
|
|
" fma.rn.ftz.f32 %f914, %f906, %f654, %f913;\n"
|
|
" add.ftz.f32 %f270, %f914, %f270;\n"
|
|
" @!%p3 bra $Lt_0_56322;\n"
|
|
" .loc 17 346 0\n"
|
|
" mov.f32 %f915, %f19;\n"
|
|
" mul.ftz.f32 %f916, %f277, %f914;\n"
|
|
" sub.ftz.f32 %f917, %f915, %f916;\n"
|
|
" mov.f32 %f19, %f917;\n"
|
|
"$Lt_0_56322:\n"
|
|
" .loc 17 314 0\n"
|
|
" mov.f32 %f918, %f737;\n"
|
|
" .loc 17 315 0\n"
|
|
" mul.ftz.f32 %f919, %f284, %f284;\n"
|
|
" neg.ftz.f32 %f920, %f919;\n"
|
|
" mov.f32 %f921, %f920;\n"
|
|
" .loc 17 316 0\n"
|
|
" mul.ftz.f32 %f922, %f358, %f284;\n"
|
|
" neg.ftz.f32 %f923, %f922;\n"
|
|
" mov.f32 %f924, %f923;\n"
|
|
" .loc 17 317 0\n"
|
|
" mov.f32 %f925, 0f3f800000; \n"
|
|
" sub.ftz.f32 %f926, %f925, %f919;\n"
|
|
" mov.f32 %f927, %f926;\n"
|
|
" .loc 17 318 0\n"
|
|
" mov.f32 %f928, %f918;\n"
|
|
" mul.ftz.f32 %f929, %f928, %f282;\n"
|
|
" mov.f32 %f930, %f929;\n"
|
|
" .loc 17 319 0\n"
|
|
" mul.ftz.f32 %f931, %f282, %f926;\n"
|
|
" mov.f32 %f932, %f931;\n"
|
|
" .loc 17 320 0\n"
|
|
" mov.f32 %f933, %f924;\n"
|
|
" mul.ftz.f32 %f934, %f933, %f282;\n"
|
|
" mov.f32 %f935, %f934;\n"
|
|
" .loc 17 325 0\n"
|
|
" mul.ftz.f32 %f936, %f326, %f931;\n"
|
|
" mul.ftz.f32 %f937, %f323, %f931;\n"
|
|
" mul.ftz.f32 %f938, %f325, %f931;\n"
|
|
" mul.ftz.f32 %f939, %f89, %f931;\n"
|
|
" mul.ftz.f32 %f940, %f71, %f931;\n"
|
|
" mul.ftz.f32 %f941, %f79, %f931;\n"
|
|
" fma.rn.ftz.f32 %f942, %f929, %f308, %f936;\n"
|
|
" fma.rn.ftz.f32 %f943, %f312, %f929, %f937;\n"
|
|
" fma.rn.ftz.f32 %f944, %f929, %f310, %f938;\n"
|
|
" fma.rn.ftz.f32 %f945, %f929, %f70, %f939;\n"
|
|
" fma.rn.ftz.f32 %f946, %f87, %f929, %f940;\n"
|
|
" fma.rn.ftz.f32 %f947, %f929, %f76, %f941;\n"
|
|
" fma.rn.ftz.f32 %f948, %f934, %f334, %f942;\n"
|
|
" fma.rn.ftz.f32 %f949, %f333, %f934, %f943;\n"
|
|
" fma.rn.ftz.f32 %f950, %f934, %f335, %f944;\n"
|
|
" fma.rn.ftz.f32 %f951, %f934, %f80, %f945;\n"
|
|
" fma.rn.ftz.f32 %f952, %f77, %f934, %f946;\n"
|
|
" fma.rn.ftz.f32 %f953, %f934, %f91, %f947;\n"
|
|
" mul.ftz.f32 %f954, %f948, %f670;\n"
|
|
" mul.ftz.f32 %f955, %f951, %f663;\n"
|
|
" fma.rn.ftz.f32 %f956, %f668, %f949, %f954;\n"
|
|
" fma.rn.ftz.f32 %f957, %f661, %f952, %f955;\n"
|
|
" fma.rn.ftz.f32 %f958, %f672, %f950, %f956;\n"
|
|
" fma.rn.ftz.f32 %f959, %f665, %f953, %f957;\n"
|
|
" mul.ftz.f32 %f960, %f760, %f958;\n"
|
|
" mul.ftz.f32 %f961, %f761, %f959;\n"
|
|
" sub.ftz.f32 %f962, %f961, %f960;\n"
|
|
" .loc 17 326 0\n"
|
|
" mul.ftz.f32 %f963, %f784, %f958;\n"
|
|
" mul.ftz.f32 %f964, %f785, %f959;\n"
|
|
" sub.ftz.f32 %f965, %f964, %f963;\n"
|
|
" .loc 17 327 0\n"
|
|
" mul.ftz.f32 %f966, %f790, %f958;\n"
|
|
" mul.ftz.f32 %f967, %f791, %f959;\n"
|
|
" sub.ftz.f32 %f968, %f967, %f966;\n"
|
|
" .loc 17 328 0\n"
|
|
" mul.ftz.f32 %f969, %f796, %f958;\n"
|
|
" mul.ftz.f32 %f970, %f797, %f959;\n"
|
|
" sub.ftz.f32 %f971, %f970, %f969;\n"
|
|
" .loc 17 329 0\n"
|
|
" mul.ftz.f32 %f972, %f802, %f958;\n"
|
|
" mul.ftz.f32 %f973, %f803, %f959;\n"
|
|
" sub.ftz.f32 %f974, %f973, %f972;\n"
|
|
" .loc 17 330 0\n"
|
|
" mul.ftz.f32 %f975, %f808, %f958;\n"
|
|
" mul.ftz.f32 %f976, %f809, %f959;\n"
|
|
" sub.ftz.f32 %f977, %f976, %f975;\n"
|
|
" .loc 17 331 0\n"
|
|
" mul.ftz.f32 %f978, %f814, %f958;\n"
|
|
" mul.ftz.f32 %f979, %f815, %f959;\n"
|
|
" sub.ftz.f32 %f980, %f979, %f978;\n"
|
|
" .loc 17 332 0\n"
|
|
" mul.ftz.f32 %f981, %f820, %f958;\n"
|
|
" mul.ftz.f32 %f982, %f821, %f959;\n"
|
|
" sub.ftz.f32 %f983, %f982, %f981;\n"
|
|
" .loc 17 333 0\n"
|
|
" mul.ftz.f32 %f984, %f826, %f958;\n"
|
|
" mul.ftz.f32 %f985, %f827, %f959;\n"
|
|
" sub.ftz.f32 %f986, %f985, %f984;\n"
|
|
" .loc 17 334 0\n"
|
|
" mul.ftz.f32 %f987, %f479, %f962;\n"
|
|
" mul.ftz.f32 %f988, %f475, %f987;\n"
|
|
" mul.ftz.f32 %f989, %f478, %f962;\n"
|
|
" mul.ftz.f32 %f990, %f476, %f989;\n"
|
|
" sub.ftz.f32 %f991, %f990, %f988;\n"
|
|
" mul.ftz.f32 %f992, %f477, %f965;\n"
|
|
" mul.ftz.f32 %f993, %f476, %f992;\n"
|
|
" sub.ftz.f32 %f994, %f991, %f993;\n"
|
|
" mul.ftz.f32 %f995, %f477, %f968;\n"
|
|
" fma.rn.ftz.f32 %f996, %f475, %f995, %f994;\n"
|
|
" mul.ftz.f32 %f997, %f474, %f965;\n"
|
|
" fma.rn.ftz.f32 %f998, %f479, %f997, %f996;\n"
|
|
" mul.ftz.f32 %f999, %f474, %f968;\n"
|
|
" mul.ftz.f32 %f1000, %f478, %f999;\n"
|
|
" sub.ftz.f32 %f1001, %f998, %f1000;\n"
|
|
" mul.ftz.f32 %f1002, %f468, %f974;\n"
|
|
" fma.rn.ftz.f32 %f1003, %f476, %f1002, %f1001;\n"
|
|
" mul.ftz.f32 %f1004, %f468, %f977;\n"
|
|
" mul.ftz.f32 %f1005, %f475, %f1004;\n"
|
|
" sub.ftz.f32 %f1006, %f1003, %f1005;\n"
|
|
" mul.ftz.f32 %f1007, %f470, %f971;\n"
|
|
" mul.ftz.f32 %f1008, %f476, %f1007;\n"
|
|
" sub.ftz.f32 %f1009, %f1006, %f1008;\n"
|
|
" mul.ftz.f32 %f1010, %f469, %f971;\n"
|
|
" fma.rn.ftz.f32 %f1011, %f475, %f1010, %f1009;\n"
|
|
" fma.rn.ftz.f32 %f1012, %f977, %f480, %f1011;\n"
|
|
" mul.ftz.f32 %f1013, %f974, %f481;\n"
|
|
" sub.ftz.f32 %f1014, %f1012, %f1013;\n"
|
|
" fma.rn.ftz.f32 %f1015, %f986, %f484, %f1014;\n"
|
|
" mul.ftz.f32 %f1016, %f983, %f485;\n"
|
|
" sub.ftz.f32 %f1017, %f1015, %f1016;\n"
|
|
" mul.ftz.f32 %f1018, %f986, %f482;\n"
|
|
" sub.ftz.f32 %f1019, %f1017, %f1018;\n"
|
|
" fma.rn.ftz.f32 %f1020, %f983, %f483, %f1019;\n"
|
|
" mul.ftz.f32 %f1021, %f470, %f980;\n"
|
|
" fma.rn.ftz.f32 %f1022, %f479, %f1021, %f1020;\n"
|
|
" mul.ftz.f32 %f1023, %f469, %f980;\n"
|
|
" mul.ftz.f32 %f1024, %f478, %f1023;\n"
|
|
" sub.ftz.f32 %f1025, %f1022, %f1024;\n"
|
|
" .loc 17 335 0\n"
|
|
" add.ftz.f32 %f1026, %f958, %f959;\n"
|
|
" mul.ftz.f32 %f1027, %f871, %f1026;\n"
|
|
" .loc 17 336 0\n"
|
|
" mul.ftz.f32 %f1028, %f1025, %f875;\n"
|
|
" sub.ftz.f32 %f1029, %f1027, %f1028;\n"
|
|
" .loc 17 337 0\n"
|
|
" mul.ftz.f32 %f1030, %f676, %f958;\n"
|
|
" fma.rn.ftz.f32 %f1031, %f959, %f678, %f1030;\n"
|
|
" sub.ftz.f32 %f1032, %f1029, %f1031;\n"
|
|
" .loc 17 340 0\n"
|
|
" mul.ftz.f32 %f1033, %f889, %f931;\n"
|
|
" mul.ftz.f32 %f1034, %f893, %f931;\n"
|
|
" fma.rn.ftz.f32 %f1035, %f890, %f929, %f1033;\n"
|
|
" fma.rn.ftz.f32 %f1036, %f680, %f929, %f1034;\n"
|
|
" fma.rn.ftz.f32 %f1037, %f891, %f934, %f1035;\n"
|
|
" fma.rn.ftz.f32 %f1038, %f885, %f934, %f1036;\n"
|
|
" add.ftz.f32 %f1039, %f1037, %f284;\n"
|
|
" mul.ftz.f32 %f1040, %f622, %f1038;\n"
|
|
" fma.rn.ftz.f32 %f1041, %f594, %f1032, %f1040;\n"
|
|
" mul.ftz.f32 %f1042, %f1039, %f708;\n"
|
|
" mul.ftz.f32 %f1043, %f898, %f1041;\n"
|
|
" sub.ftz.f32 %f1044, %f1043, %f1042;\n"
|
|
" .loc 17 341 0\n"
|
|
" mul.ftz.f32 %f1045, %f1039, %f732;\n"
|
|
" mul.ftz.f32 %f1046, %f909, %f1041;\n"
|
|
" sub.ftz.f32 %f1047, %f1046, %f1045;\n"
|
|
" .loc 17 348 0\n"
|
|
" mul.ftz.f32 %f1048, %f657, %f1047;\n"
|
|
" fma.rn.ftz.f32 %f914, %f1044, %f654, %f1048;\n"
|
|
" add.ftz.f32 %f269, %f914, %f269;\n"
|
|
" @!%p3 bra $Lt_0_59906;\n"
|
|
" .loc 17 350 0\n"
|
|
" mov.f32 %f1049, %f21;\n"
|
|
" mul.ftz.f32 %f1050, %f276, %f914;\n"
|
|
" sub.ftz.f32 %f1051, %f1049, %f1050;\n"
|
|
" mov.f32 %f21, %f1051;\n"
|
|
" .loc 17 351 0\n"
|
|
" mov.f32 %f1052, %f25;\n"
|
|
" mul.ftz.f32 %f1053, %f277, %f914;\n"
|
|
" sub.ftz.f32 %f1054, %f1052, %f1053;\n"
|
|
" mov.f32 %f25, %f1054;\n"
|
|
"$Lt_0_59906:\n"
|
|
" .loc 17 314 0\n"
|
|
" mov.f32 %f1055, %f740;\n"
|
|
" .loc 17 315 0\n"
|
|
" mov.f32 %f1056, %f923;\n"
|
|
" .loc 17 316 0\n"
|
|
" mul.ftz.f32 %f1057, %f358, %f358;\n"
|
|
" neg.ftz.f32 %f1058, %f1057;\n"
|
|
" mov.f32 %f1059, %f1058;\n"
|
|
" .loc 17 317 0\n"
|
|
" mov.f32 %f1060, 0f3f800000; \n"
|
|
" sub.ftz.f32 %f1061, %f1060, %f1057;\n"
|
|
" mov.f32 %f1062, %f1061;\n"
|
|
" .loc 17 318 0\n"
|
|
" mov.f32 %f1063, %f1055;\n"
|
|
" mul.ftz.f32 %f1064, %f1063, %f282;\n"
|
|
" mov.f32 %f1065, %f1064;\n"
|
|
" .loc 17 319 0\n"
|
|
" mov.f32 %f1066, %f1056;\n"
|
|
" mul.ftz.f32 %f1067, %f1066, %f282;\n"
|
|
" mov.f32 %f1068, %f1067;\n"
|
|
" .loc 17 320 0\n"
|
|
" mul.ftz.f32 %f1069, %f282, %f1061;\n"
|
|
" mov.f32 %f1070, %f1069;\n"
|
|
" .loc 17 325 0\n"
|
|
" mul.ftz.f32 %f1071, %f71, %f1067;\n"
|
|
" mul.ftz.f32 %f1072, %f79, %f1067;\n"
|
|
" mul.ftz.f32 %f1073, %f323, %f1067;\n"
|
|
" mul.ftz.f32 %f1074, %f325, %f1067;\n"
|
|
" fma.rn.ftz.f32 %f1075, %f87, %f1064, %f1071;\n"
|
|
" mul.ftz.f32 %f1076, %f89, %f1067;\n"
|
|
" fma.rn.ftz.f32 %f1077, %f1064, %f76, %f1072;\n"
|
|
" fma.rn.ftz.f32 %f1078, %f312, %f1064, %f1073;\n"
|
|
" mul.ftz.f32 %f1079, %f326, %f1067;\n"
|
|
" fma.rn.ftz.f32 %f1080, %f1064, %f310, %f1074;\n"
|
|
" fma.rn.ftz.f32 %f1081, %f1064, %f70, %f1076;\n"
|
|
" fma.rn.ftz.f32 %f1082, %f1064, %f308, %f1079;\n"
|
|
" fma.rn.ftz.f32 %f1083, %f1069, %f334, %f1082;\n"
|
|
" fma.rn.ftz.f32 %f1084, %f333, %f1069, %f1078;\n"
|
|
" fma.rn.ftz.f32 %f1085, %f1069, %f335, %f1080;\n"
|
|
" fma.rn.ftz.f32 %f1086, %f1069, %f80, %f1081;\n"
|
|
" fma.rn.ftz.f32 %f1087, %f77, %f1069, %f1075;\n"
|
|
" fma.rn.ftz.f32 %f1088, %f1069, %f91, %f1077;\n"
|
|
" mul.ftz.f32 %f1089, %f1083, %f670;\n"
|
|
" mul.ftz.f32 %f1090, %f1086, %f663;\n"
|
|
" fma.rn.ftz.f32 %f1091, %f668, %f1084, %f1089;\n"
|
|
" fma.rn.ftz.f32 %f1092, %f661, %f1087, %f1090;\n"
|
|
" fma.rn.ftz.f32 %f1093, %f672, %f1085, %f1091;\n"
|
|
" fma.rn.ftz.f32 %f1094, %f665, %f1088, %f1092;\n"
|
|
" mul.ftz.f32 %f1095, %f760, %f1093;\n"
|
|
" mul.ftz.f32 %f1096, %f761, %f1094;\n"
|
|
" sub.ftz.f32 %f1097, %f1096, %f1095;\n"
|
|
" .loc 17 326 0\n"
|
|
" mul.ftz.f32 %f1098, %f784, %f1093;\n"
|
|
" mul.ftz.f32 %f1099, %f785, %f1094;\n"
|
|
" sub.ftz.f32 %f1100, %f1099, %f1098;\n"
|
|
" .loc 17 327 0\n"
|
|
" mul.ftz.f32 %f1101, %f790, %f1093;\n"
|
|
" mul.ftz.f32 %f1102, %f791, %f1094;\n"
|
|
" sub.ftz.f32 %f1103, %f1102, %f1101;\n"
|
|
" .loc 17 328 0\n"
|
|
" mul.ftz.f32 %f1104, %f796, %f1093;\n"
|
|
" mul.ftz.f32 %f1105, %f797, %f1094;\n"
|
|
" sub.ftz.f32 %f1106, %f1105, %f1104;\n"
|
|
" .loc 17 329 0\n"
|
|
" mul.ftz.f32 %f1107, %f802, %f1093;\n"
|
|
" mul.ftz.f32 %f1108, %f803, %f1094;\n"
|
|
" sub.ftz.f32 %f1109, %f1108, %f1107;\n"
|
|
" .loc 17 330 0\n"
|
|
" mul.ftz.f32 %f1110, %f808, %f1093;\n"
|
|
" mul.ftz.f32 %f1111, %f809, %f1094;\n"
|
|
" sub.ftz.f32 %f1112, %f1111, %f1110;\n"
|
|
" .loc 17 331 0\n"
|
|
" mul.ftz.f32 %f1113, %f814, %f1093;\n"
|
|
" mul.ftz.f32 %f1114, %f815, %f1094;\n"
|
|
" sub.ftz.f32 %f1115, %f1114, %f1113;\n"
|
|
" .loc 17 332 0\n"
|
|
" mul.ftz.f32 %f1116, %f820, %f1093;\n"
|
|
" mul.ftz.f32 %f1117, %f821, %f1094;\n"
|
|
" sub.ftz.f32 %f1118, %f1117, %f1116;\n"
|
|
" .loc 17 333 0\n"
|
|
" mul.ftz.f32 %f1119, %f826, %f1093;\n"
|
|
" mul.ftz.f32 %f1120, %f827, %f1094;\n"
|
|
" sub.ftz.f32 %f1121, %f1120, %f1119;\n"
|
|
" .loc 17 334 0\n"
|
|
" mul.ftz.f32 %f1122, %f479, %f1097;\n"
|
|
" mul.ftz.f32 %f1123, %f475, %f1122;\n"
|
|
" mul.ftz.f32 %f1124, %f478, %f1097;\n"
|
|
" mul.ftz.f32 %f1125, %f476, %f1124;\n"
|
|
" sub.ftz.f32 %f1126, %f1125, %f1123;\n"
|
|
" mul.ftz.f32 %f1127, %f477, %f1100;\n"
|
|
" mul.ftz.f32 %f1128, %f476, %f1127;\n"
|
|
" sub.ftz.f32 %f1129, %f1126, %f1128;\n"
|
|
" mul.ftz.f32 %f1130, %f477, %f1103;\n"
|
|
" fma.rn.ftz.f32 %f1131, %f475, %f1130, %f1129;\n"
|
|
" mul.ftz.f32 %f1132, %f474, %f1100;\n"
|
|
" fma.rn.ftz.f32 %f1133, %f479, %f1132, %f1131;\n"
|
|
" mul.ftz.f32 %f1134, %f474, %f1103;\n"
|
|
" mul.ftz.f32 %f1135, %f478, %f1134;\n"
|
|
" sub.ftz.f32 %f1136, %f1133, %f1135;\n"
|
|
" mul.ftz.f32 %f1137, %f468, %f1109;\n"
|
|
" fma.rn.ftz.f32 %f1138, %f476, %f1137, %f1136;\n"
|
|
" mul.ftz.f32 %f1139, %f468, %f1112;\n"
|
|
" mul.ftz.f32 %f1140, %f475, %f1139;\n"
|
|
" sub.ftz.f32 %f1141, %f1138, %f1140;\n"
|
|
" mul.ftz.f32 %f1142, %f470, %f1106;\n"
|
|
" mul.ftz.f32 %f1143, %f476, %f1142;\n"
|
|
" sub.ftz.f32 %f1144, %f1141, %f1143;\n"
|
|
" mul.ftz.f32 %f1145, %f469, %f1106;\n"
|
|
" fma.rn.ftz.f32 %f1146, %f475, %f1145, %f1144;\n"
|
|
" fma.rn.ftz.f32 %f1147, %f1112, %f480, %f1146;\n"
|
|
" mul.ftz.f32 %f1148, %f1109, %f481;\n"
|
|
" sub.ftz.f32 %f1149, %f1147, %f1148;\n"
|
|
" fma.rn.ftz.f32 %f1150, %f1121, %f484, %f1149;\n"
|
|
" mul.ftz.f32 %f1151, %f1118, %f485;\n"
|
|
" sub.ftz.f32 %f1152, %f1150, %f1151;\n"
|
|
" mul.ftz.f32 %f1153, %f1121, %f482;\n"
|
|
" sub.ftz.f32 %f1154, %f1152, %f1153;\n"
|
|
" fma.rn.ftz.f32 %f1155, %f1118, %f483, %f1154;\n"
|
|
" mul.ftz.f32 %f1156, %f470, %f1115;\n"
|
|
" fma.rn.ftz.f32 %f1157, %f479, %f1156, %f1155;\n"
|
|
" mul.ftz.f32 %f1158, %f469, %f1115;\n"
|
|
" mul.ftz.f32 %f1159, %f478, %f1158;\n"
|
|
" sub.ftz.f32 %f1160, %f1157, %f1159;\n"
|
|
" .loc 17 335 0\n"
|
|
" add.ftz.f32 %f1161, %f1093, %f1094;\n"
|
|
" mul.ftz.f32 %f1162, %f871, %f1161;\n"
|
|
" .loc 17 336 0\n"
|
|
" mul.ftz.f32 %f1163, %f1160, %f875;\n"
|
|
" sub.ftz.f32 %f1164, %f1162, %f1163;\n"
|
|
" .loc 17 337 0\n"
|
|
" mul.ftz.f32 %f1165, %f676, %f1093;\n"
|
|
" fma.rn.ftz.f32 %f1166, %f1094, %f678, %f1165;\n"
|
|
" sub.ftz.f32 %f1167, %f1164, %f1166;\n"
|
|
" .loc 17 340 0\n"
|
|
" mul.ftz.f32 %f1168, %f889, %f1067;\n"
|
|
" mul.ftz.f32 %f1169, %f893, %f1067;\n"
|
|
" fma.rn.ftz.f32 %f1170, %f890, %f1064, %f1168;\n"
|
|
" fma.rn.ftz.f32 %f1171, %f680, %f1064, %f1169;\n"
|
|
" fma.rn.ftz.f32 %f1172, %f891, %f1069, %f1170;\n"
|
|
" fma.rn.ftz.f32 %f1173, %f885, %f1069, %f1171;\n"
|
|
" add.ftz.f32 %f1174, %f1172, %f358;\n"
|
|
" mul.ftz.f32 %f1175, %f622, %f1173;\n"
|
|
" fma.rn.ftz.f32 %f1176, %f594, %f1167, %f1175;\n"
|
|
" mul.ftz.f32 %f1177, %f1174, %f708;\n"
|
|
" mul.ftz.f32 %f1178, %f898, %f1176;\n"
|
|
" sub.ftz.f32 %f1179, %f1178, %f1177;\n"
|
|
" .loc 17 341 0\n"
|
|
" mul.ftz.f32 %f1180, %f1174, %f732;\n"
|
|
" mul.ftz.f32 %f1181, %f909, %f1176;\n"
|
|
" sub.ftz.f32 %f1182, %f1181, %f1180;\n"
|
|
" .loc 17 354 0\n"
|
|
" mul.ftz.f32 %f1183, %f657, %f1182;\n"
|
|
" fma.rn.ftz.f32 %f914, %f1179, %f654, %f1183;\n"
|
|
" add.ftz.f32 %f268, %f914, %f268;\n"
|
|
" @!%p3 bra $Lt_0_62978;\n"
|
|
" .loc 17 356 0\n"
|
|
" mov.f32 %f1184, %f23;\n"
|
|
" mul.ftz.f32 %f1185, %f278, %f914;\n"
|
|
" sub.ftz.f32 %f1186, %f1184, %f1185;\n"
|
|
" mov.f32 %f23, %f1186;\n"
|
|
" .loc 17 357 0\n"
|
|
" mov.f32 %f1187, %f27;\n"
|
|
" mul.ftz.f32 %f1188, %f277, %f914;\n"
|
|
" sub.ftz.f32 %f1189, %f1187, %f1188;\n"
|
|
" mov.f32 %f27, %f1189;\n"
|
|
" .loc 17 358 0\n"
|
|
" mul.ftz.f32 %f1190, %f276, %f914;\n"
|
|
" sub.ftz.f32 %f28, %f28, %f1190;\n"
|
|
" mov.f32 %f29, %f28;\n"
|
|
"$Lt_0_62978:\n"
|
|
" .loc 17 381 0\n"
|
|
" mul.ftz.f32 %f1191, %f80, %f284;\n"
|
|
" mul.ftz.f32 %f1192, %f78, %f284;\n"
|
|
" mul.ftz.f32 %f1193, %f91, %f284;\n"
|
|
" neg.ftz.f32 %f1194, %f1191;\n"
|
|
" mov.f32 %f1195, 0f00000000; \n"
|
|
" fma.rn.ftz.f32 %f1196, %f1195, %f283, %f1192;\n"
|
|
" neg.ftz.f32 %f1197, %f1193;\n"
|
|
" mov.f32 %f1198, 0f00000000; \n"
|
|
" fma.rn.ftz.f32 %f1199, %f283, %f1198, %f1194;\n"
|
|
" fma.rn.ftz.f32 %f1200, %f71, %f358, %f1196;\n"
|
|
" mov.f32 %f1201, 0f00000000; \n"
|
|
" fma.rn.ftz.f32 %f1202, %f283, %f1201, %f1197;\n"
|
|
" fma.rn.ftz.f32 %f1203, %f358, %f89, %f1199;\n"
|
|
" fma.rn.ftz.f32 %f1204, %f358, %f79, %f1202;\n"
|
|
" mul.ftz.f32 %f1205, %f1203, %f662;\n"
|
|
" neg.ftz.f32 %f1206, %f1205;\n"
|
|
" fma.rn.ftz.f32 %f1207, %f661, %f1200, %f1206;\n"
|
|
" fma.rn.ftz.f32 %f1208, %f665, %f1204, %f1207;\n"
|
|
" mul.ftz.f32 %f1209, %f759, %f1208;\n"
|
|
" mul.ftz.f32 %f1210, %f783, %f1208;\n"
|
|
" mul.ftz.f32 %f1211, %f789, %f1208;\n"
|
|
" mul.ftz.f32 %f1212, %f801, %f1208;\n"
|
|
" mul.ftz.f32 %f1213, %f807, %f1208;\n"
|
|
" mul.ftz.f32 %f1214, %f795, %f1208;\n"
|
|
" mul.ftz.f32 %f1215, %f825, %f1208;\n"
|
|
" mul.ftz.f32 %f1216, %f819, %f1208;\n"
|
|
" mul.ftz.f32 %f1217, %f813, %f1208;\n"
|
|
" neg.ftz.f32 %f1218, %f1209;\n"
|
|
" neg.ftz.f32 %f1219, %f1210;\n"
|
|
" neg.ftz.f32 %f1220, %f1211;\n"
|
|
" neg.ftz.f32 %f1221, %f1212;\n"
|
|
" neg.ftz.f32 %f1222, %f1213;\n"
|
|
" neg.ftz.f32 %f1223, %f1214;\n"
|
|
" neg.ftz.f32 %f1224, %f1215;\n"
|
|
" neg.ftz.f32 %f1225, %f1216;\n"
|
|
" neg.ftz.f32 %f1226, %f1217;\n"
|
|
" fma.rn.ftz.f32 %f1227, %f225, %f445, %f1218;\n"
|
|
" fma.rn.ftz.f32 %f1228, %f251, %f445, %f1219;\n"
|
|
" fma.rn.ftz.f32 %f1229, %f227, %f445, %f1220;\n"
|
|
" fma.rn.ftz.f32 %f1230, %f264, %f445, %f1221;\n"
|
|
" fma.rn.ftz.f32 %f1231, %f262, %f445, %f1222;\n"
|
|
" fma.rn.ftz.f32 %f1232, %f252, %f445, %f1223;\n"
|
|
" fma.rn.ftz.f32 %f1233, %f246, %f445, %f1224;\n"
|
|
" fma.rn.ftz.f32 %f1234, %f263, %f445, %f1225;\n"
|
|
" fma.rn.ftz.f32 %f1235, %f227, %f445, %f1226;\n"
|
|
" mul.ftz.f32 %f1236, %f479, %f1227;\n"
|
|
" mul.ftz.f32 %f1237, %f475, %f1236;\n"
|
|
" mul.ftz.f32 %f1238, %f478, %f1227;\n"
|
|
" mul.ftz.f32 %f1239, %f476, %f1238;\n"
|
|
" sub.ftz.f32 %f1240, %f1239, %f1237;\n"
|
|
" mul.ftz.f32 %f1241, %f477, %f1228;\n"
|
|
" mul.ftz.f32 %f1242, %f476, %f1241;\n"
|
|
" sub.ftz.f32 %f1243, %f1240, %f1242;\n"
|
|
" mul.ftz.f32 %f1244, %f477, %f1229;\n"
|
|
" fma.rn.ftz.f32 %f1245, %f475, %f1244, %f1243;\n"
|
|
" mul.ftz.f32 %f1246, %f474, %f1228;\n"
|
|
" fma.rn.ftz.f32 %f1247, %f479, %f1246, %f1245;\n"
|
|
" mul.ftz.f32 %f1248, %f474, %f1229;\n"
|
|
" mul.ftz.f32 %f1249, %f478, %f1248;\n"
|
|
" sub.ftz.f32 %f1250, %f1247, %f1249;\n"
|
|
" mul.ftz.f32 %f1251, %f468, %f1230;\n"
|
|
" fma.rn.ftz.f32 %f1252, %f476, %f1251, %f1250;\n"
|
|
" mul.ftz.f32 %f1253, %f468, %f1231;\n"
|
|
" mul.ftz.f32 %f1254, %f475, %f1253;\n"
|
|
" sub.ftz.f32 %f1255, %f1252, %f1254;\n"
|
|
" mul.ftz.f32 %f1256, %f470, %f1232;\n"
|
|
" mul.ftz.f32 %f1257, %f476, %f1256;\n"
|
|
" sub.ftz.f32 %f1258, %f1255, %f1257;\n"
|
|
" mul.ftz.f32 %f1259, %f469, %f1232;\n"
|
|
" fma.rn.ftz.f32 %f1260, %f475, %f1259, %f1258;\n"
|
|
" fma.rn.ftz.f32 %f1261, %f1231, %f480, %f1260;\n"
|
|
" mul.ftz.f32 %f1262, %f1230, %f481;\n"
|
|
" sub.ftz.f32 %f1263, %f1261, %f1262;\n"
|
|
" fma.rn.ftz.f32 %f1264, %f1233, %f484, %f1263;\n"
|
|
" mul.ftz.f32 %f1265, %f1234, %f485;\n"
|
|
" sub.ftz.f32 %f1266, %f1264, %f1265;\n"
|
|
" mul.ftz.f32 %f1267, %f1233, %f482;\n"
|
|
" sub.ftz.f32 %f1268, %f1266, %f1267;\n"
|
|
" fma.rn.ftz.f32 %f1269, %f1234, %f483, %f1268;\n"
|
|
" mul.ftz.f32 %f1270, %f470, %f1235;\n"
|
|
" fma.rn.ftz.f32 %f1271, %f479, %f1270, %f1269;\n"
|
|
" mul.ftz.f32 %f1272, %f469, %f1235;\n"
|
|
" mul.ftz.f32 %f1273, %f478, %f1272;\n"
|
|
" sub.ftz.f32 %f1274, %f1271, %f1273;\n"
|
|
" .loc 17 392 0\n"
|
|
" mul.ftz.f32 %f1275, %f80, %f586;\n"
|
|
" mul.ftz.f32 %f1276, %f78, %f586;\n"
|
|
" mul.ftz.f32 %f1277, %f91, %f586;\n"
|
|
" mul.ftz.f32 %f1278, %f117, %f893;\n"
|
|
" mul.ftz.f32 %f1279, %f85, %f893;\n"
|
|
" mul.ftz.f32 %f1280, %f98, %f893;\n"
|
|
" neg.ftz.f32 %f1281, %f1275;\n"
|
|
" neg.ftz.f32 %f1282, %f1277;\n"
|
|
" mul.ftz.f32 %f1283, %f875, %f1274;\n"
|
|
" mul.ftz.f32 %f1284, %f889, %f224;\n"
|
|
" mul.ftz.f32 %f1285, %f889, %f248;\n"
|
|
" mov.f32 %f1286, 0f00000000; \n"
|
|
" fma.rn.ftz.f32 %f1287, %f591, %f1286, %f1281;\n"
|
|
" mov.f32 %f1288, 0f00000000; \n"
|
|
" fma.rn.ftz.f32 %f1289, %f1288, %f591, %f1276;\n"
|
|
" mov.f32 %f1290, 0f00000000; \n"
|
|
" fma.rn.ftz.f32 %f1291, %f591, %f1290, %f1282;\n"
|
|
" fma.rn.ftz.f32 %f1292, %f188, %f890, %f1284;\n"
|
|
" mul.ftz.f32 %f1293, %f889, %f257;\n"
|
|
" fma.rn.ftz.f32 %f1294, %f890, %f169, %f1285;\n"
|
|
" fma.rn.ftz.f32 %f1295, %f680, %f83, %f1278;\n"
|
|
" fma.rn.ftz.f32 %f1296, %f113, %f680, %f1279;\n"
|
|
" fma.rn.ftz.f32 %f1297, %f680, %f93, %f1280;\n"
|
|
" fma.rn.ftz.f32 %f1298, %f583, %f89, %f1287;\n"
|
|
" fma.rn.ftz.f32 %f1299, %f71, %f583, %f1289;\n"
|
|
" fma.rn.ftz.f32 %f1300, %f583, %f79, %f1291;\n"
|
|
" fma.rn.ftz.f32 %f1301, %f196, %f891, %f1292;\n"
|
|
" fma.rn.ftz.f32 %f1302, %f890, %f140, %f1293;\n"
|
|
" fma.rn.ftz.f32 %f1303, %f891, %f214, %f1294;\n"
|
|
" fma.rn.ftz.f32 %f1304, %f885, %f100, %f1295;\n"
|
|
" fma.rn.ftz.f32 %f1305, %f885, %f96, %f1296;\n"
|
|
" fma.rn.ftz.f32 %f1306, %f885, %f120, %f1297;\n"
|
|
" fma.rn.ftz.f32 %f1307, %f891, %f230, %f1302;\n"
|
|
" mul.ftz.f32 %f1308, %f1298, %f1304;\n"
|
|
" mul.ftz.f32 %f1309, %f1307, %f419;\n"
|
|
" fma.rn.ftz.f32 %f1310, %f1305, %f1299, %f1308;\n"
|
|
" fma.rn.ftz.f32 %f1311, %f423, %f1301, %f1309;\n"
|
|
" fma.rn.ftz.f32 %f1312, %f1306, %f1300, %f1310;\n"
|
|
" fma.rn.ftz.f32 %f1313, %f416, %f1303, %f1311;\n"
|
|
" mul.ftz.f32 %f1314, %f622, %f1312;\n"
|
|
" mul.ftz.f32 %f1315, %f1208, %f871;\n"
|
|
" sub.ftz.f32 %f1316, %f1315, %f1283;\n"
|
|
" neg.ftz.f32 %f1317, %f1314;\n"
|
|
" mul.ftz.f32 %f1318, %f1208, %f678;\n"
|
|
" sub.ftz.f32 %f1319, %f1316, %f1318;\n"
|
|
" fma.rn.ftz.f32 %f1320, %f594, %f1319, %f1317;\n"
|
|
" mul.ftz.f32 %f1321, %f1313, %f732;\n"
|
|
" fma.rn.ftz.f32 %f1322, %f909, %f1320, %f1321;\n"
|
|
" mul.ftz.f32 %f1323, %f657, %f1322;\n"
|
|
" mul.ftz.f32 %f1324, %f1313, %f708;\n"
|
|
" fma.rn.ftz.f32 %f1325, %f898, %f1320, %f1324;\n"
|
|
" fma.rn.ftz.f32 %f1326, %f1325, %f654, %f1323;\n"
|
|
" sub.ftz.f32 %f267, %f267, %f1326;\n"
|
|
" .loc 17 407 0\n"
|
|
" mov.f32 %f1327, 0f00000000; \n"
|
|
" fma.rn.ftz.f32 %f1328, %f283, %f80, %f1327;\n"
|
|
" mov.f32 %f1329, 0f00000000; \n"
|
|
" fma.rn.ftz.f32 %f1330, %f77, %f283, %f1329;\n"
|
|
" mov.f32 %f1331, 0f00000000; \n"
|
|
" fma.rn.ftz.f32 %f1332, %f283, %f91, %f1331;\n"
|
|
" fma.rn.ftz.f32 %f1333, %f358, %f72, %f1328;\n"
|
|
" fma.rn.ftz.f32 %f1334, %f88, %f358, %f1330;\n"
|
|
" fma.rn.ftz.f32 %f1335, %f358, %f94, %f1332;\n"
|
|
" mul.ftz.f32 %f1336, %f1333, %f662;\n"
|
|
" neg.ftz.f32 %f1337, %f1336;\n"
|
|
" fma.rn.ftz.f32 %f1338, %f661, %f1334, %f1337;\n"
|
|
" fma.rn.ftz.f32 %f1339, %f665, %f1335, %f1338;\n"
|
|
" mul.ftz.f32 %f1340, %f759, %f1339;\n"
|
|
" mul.ftz.f32 %f1341, %f783, %f1339;\n"
|
|
" mul.ftz.f32 %f1342, %f789, %f1339;\n"
|
|
" mul.ftz.f32 %f1343, %f801, %f1339;\n"
|
|
" mul.ftz.f32 %f1344, %f807, %f1339;\n"
|
|
" mul.ftz.f32 %f1345, %f795, %f1339;\n"
|
|
" mul.ftz.f32 %f1346, %f825, %f1339;\n"
|
|
" mul.ftz.f32 %f1347, %f819, %f1339;\n"
|
|
" mul.ftz.f32 %f1348, %f813, %f1339;\n"
|
|
" neg.ftz.f32 %f1349, %f1340;\n"
|
|
" neg.ftz.f32 %f1350, %f1341;\n"
|
|
" neg.ftz.f32 %f1351, %f1342;\n"
|
|
" neg.ftz.f32 %f1352, %f1343;\n"
|
|
" neg.ftz.f32 %f1353, %f1344;\n"
|
|
" neg.ftz.f32 %f1354, %f1345;\n"
|
|
" neg.ftz.f32 %f1355, %f1346;\n"
|
|
" neg.ftz.f32 %f1356, %f1347;\n"
|
|
" neg.ftz.f32 %f1357, %f1348;\n"
|
|
" fma.rn.ftz.f32 %f1358, %f226, %f445, %f1349;\n"
|
|
" fma.rn.ftz.f32 %f1359, %f255, %f445, %f1350;\n"
|
|
" fma.rn.ftz.f32 %f1360, %f247, %f445, %f1351;\n"
|
|
" fma.rn.ftz.f32 %f1361, %f184, %f445, %f1352;\n"
|
|
" fma.rn.ftz.f32 %f1362, %f258, %f445, %f1353;\n"
|
|
" fma.rn.ftz.f32 %f1363, %f254, %f445, %f1354;\n"
|
|
" fma.rn.ftz.f32 %f1364, %f249, %f445, %f1355;\n"
|
|
" fma.rn.ftz.f32 %f1365, %f259, %f445, %f1356;\n"
|
|
" fma.rn.ftz.f32 %f1366, %f247, %f445, %f1357;\n"
|
|
" mul.ftz.f32 %f1367, %f479, %f1358;\n"
|
|
" mul.ftz.f32 %f1368, %f475, %f1367;\n"
|
|
" mul.ftz.f32 %f1369, %f478, %f1358;\n"
|
|
" mul.ftz.f32 %f1370, %f476, %f1369;\n"
|
|
" sub.ftz.f32 %f1371, %f1370, %f1368;\n"
|
|
" mul.ftz.f32 %f1372, %f477, %f1359;\n"
|
|
" mul.ftz.f32 %f1373, %f476, %f1372;\n"
|
|
" sub.ftz.f32 %f1374, %f1371, %f1373;\n"
|
|
" mul.ftz.f32 %f1375, %f477, %f1360;\n"
|
|
" fma.rn.ftz.f32 %f1376, %f475, %f1375, %f1374;\n"
|
|
" mul.ftz.f32 %f1377, %f474, %f1359;\n"
|
|
" fma.rn.ftz.f32 %f1378, %f479, %f1377, %f1376;\n"
|
|
" mul.ftz.f32 %f1379, %f474, %f1360;\n"
|
|
" mul.ftz.f32 %f1380, %f478, %f1379;\n"
|
|
" sub.ftz.f32 %f1381, %f1378, %f1380;\n"
|
|
" mul.ftz.f32 %f1382, %f468, %f1361;\n"
|
|
" fma.rn.ftz.f32 %f1383, %f476, %f1382, %f1381;\n"
|
|
" mul.ftz.f32 %f1384, %f468, %f1362;\n"
|
|
" mul.ftz.f32 %f1385, %f475, %f1384;\n"
|
|
" sub.ftz.f32 %f1386, %f1383, %f1385;\n"
|
|
" mul.ftz.f32 %f1387, %f470, %f1363;\n"
|
|
" mul.ftz.f32 %f1388, %f476, %f1387;\n"
|
|
" sub.ftz.f32 %f1389, %f1386, %f1388;\n"
|
|
" mul.ftz.f32 %f1390, %f469, %f1363;\n"
|
|
" fma.rn.ftz.f32 %f1391, %f475, %f1390, %f1389;\n"
|
|
" fma.rn.ftz.f32 %f1392, %f1362, %f480, %f1391;\n"
|
|
" mul.ftz.f32 %f1393, %f1361, %f481;\n"
|
|
" sub.ftz.f32 %f1394, %f1392, %f1393;\n"
|
|
" fma.rn.ftz.f32 %f1395, %f1364, %f484, %f1394;\n"
|
|
" mul.ftz.f32 %f1396, %f1365, %f485;\n"
|
|
" sub.ftz.f32 %f1397, %f1395, %f1396;\n"
|
|
" mul.ftz.f32 %f1398, %f1364, %f482;\n"
|
|
" sub.ftz.f32 %f1399, %f1397, %f1398;\n"
|
|
" fma.rn.ftz.f32 %f1400, %f1365, %f483, %f1399;\n"
|
|
" mul.ftz.f32 %f1401, %f470, %f1366;\n"
|
|
" fma.rn.ftz.f32 %f1402, %f479, %f1401, %f1400;\n"
|
|
" mul.ftz.f32 %f1403, %f469, %f1366;\n"
|
|
" mul.ftz.f32 %f1404, %f478, %f1403;\n"
|
|
" sub.ftz.f32 %f1405, %f1402, %f1404;\n"
|
|
" .loc 17 418 0\n"
|
|
" mul.ftz.f32 %f1406, %f889, %f140;\n"
|
|
" mul.ftz.f32 %f1407, %f889, %f169;\n"
|
|
" mul.ftz.f32 %f1408, %f875, %f1405;\n"
|
|
" mul.ftz.f32 %f1409, %f889, %f190;\n"
|
|
" fma.rn.ftz.f32 %f1410, %f890, %f216, %f1407;\n"
|
|
" fma.rn.ftz.f32 %f1411, %f191, %f890, %f1409;\n"
|
|
" fma.rn.ftz.f32 %f1412, %f890, %f232, %f1406;\n"
|
|
" fma.rn.ftz.f32 %f1413, %f891, %f219, %f1410;\n"
|
|
" mov.f32 %f1414, 0f00000000; \n"
|
|
" fma.rn.ftz.f32 %f1415, %f591, %f80, %f1414;\n"
|
|
" mov.f32 %f1416, 0f00000000; \n"
|
|
" fma.rn.ftz.f32 %f1417, %f77, %f591, %f1416;\n"
|
|
" mov.f32 %f1418, 0f00000000; \n"
|
|
" fma.rn.ftz.f32 %f1419, %f591, %f91, %f1418;\n"
|
|
" fma.rn.ftz.f32 %f1420, %f192, %f891, %f1411;\n"
|
|
" fma.rn.ftz.f32 %f1421, %f891, %f236, %f1412;\n"
|
|
" fma.rn.ftz.f32 %f1422, %f583, %f72, %f1415;\n"
|
|
" fma.rn.ftz.f32 %f1423, %f88, %f583, %f1417;\n"
|
|
" fma.rn.ftz.f32 %f1424, %f583, %f94, %f1419;\n"
|
|
" mul.ftz.f32 %f1425, %f1421, %f419;\n"
|
|
" fma.rn.ftz.f32 %f1426, %f423, %f1420, %f1425;\n"
|
|
" mul.ftz.f32 %f1427, %f1422, %f1304;\n"
|
|
" fma.rn.ftz.f32 %f1428, %f416, %f1413, %f1426;\n"
|
|
" fma.rn.ftz.f32 %f1429, %f1305, %f1423, %f1427;\n"
|
|
" fma.rn.ftz.f32 %f1430, %f1306, %f1424, %f1429;\n"
|
|
" mul.ftz.f32 %f1431, %f622, %f1430;\n"
|
|
" mul.ftz.f32 %f1432, %f1339, %f871;\n"
|
|
" sub.ftz.f32 %f1433, %f1432, %f1408;\n"
|
|
" neg.ftz.f32 %f1434, %f1431;\n"
|
|
" mul.ftz.f32 %f1435, %f1339, %f678;\n"
|
|
" sub.ftz.f32 %f1436, %f1433, %f1435;\n"
|
|
" fma.rn.ftz.f32 %f1437, %f594, %f1436, %f1434;\n"
|
|
" mul.ftz.f32 %f1438, %f1428, %f732;\n"
|
|
" fma.rn.ftz.f32 %f1439, %f909, %f1437, %f1438;\n"
|
|
" mul.ftz.f32 %f1440, %f657, %f1439;\n"
|
|
" mul.ftz.f32 %f1441, %f1428, %f708;\n"
|
|
" fma.rn.ftz.f32 %f1442, %f898, %f1437, %f1441;\n"
|
|
" fma.rn.ftz.f32 %f1443, %f1442, %f654, %f1440;\n"
|
|
" sub.ftz.f32 %f266, %f266, %f1443;\n"
|
|
" .loc 17 433 0\n"
|
|
" mul.ftz.f32 %f1444, %f70, %f284;\n"
|
|
" mul.ftz.f32 %f1445, %f87, %f284;\n"
|
|
" mul.ftz.f32 %f1446, %f76, %f284;\n"
|
|
" fma.rn.ftz.f32 %f1447, %f283, %f90, %f1444;\n"
|
|
" fma.rn.ftz.f32 %f1448, %f86, %f283, %f1445;\n"
|
|
" fma.rn.ftz.f32 %f1449, %f283, %f81, %f1446;\n"
|
|
" mov.f32 %f1450, 0f00000000; \n"
|
|
" fma.rn.ftz.f32 %f1451, %f358, %f1450, %f1447;\n"
|
|
" mov.f32 %f1452, 0f00000000; \n"
|
|
" fma.rn.ftz.f32 %f1453, %f1452, %f358, %f1448;\n"
|
|
" mov.f32 %f1454, 0f00000000; \n"
|
|
" fma.rn.ftz.f32 %f1455, %f358, %f1454, %f1449;\n"
|
|
" mul.ftz.f32 %f1456, %f1451, %f662;\n"
|
|
" neg.ftz.f32 %f1457, %f1456;\n"
|
|
" fma.rn.ftz.f32 %f1458, %f661, %f1453, %f1457;\n"
|
|
" fma.rn.ftz.f32 %f1459, %f665, %f1455, %f1458;\n"
|
|
" mul.ftz.f32 %f1460, %f759, %f1459;\n"
|
|
" mul.ftz.f32 %f1461, %f783, %f1459;\n"
|
|
" mul.ftz.f32 %f1462, %f789, %f1459;\n"
|
|
" mul.ftz.f32 %f1463, %f801, %f1459;\n"
|
|
" mul.ftz.f32 %f1464, %f807, %f1459;\n"
|
|
" mul.ftz.f32 %f1465, %f795, %f1459;\n"
|
|
" mul.ftz.f32 %f1466, %f825, %f1459;\n"
|
|
" mul.ftz.f32 %f1467, %f819, %f1459;\n"
|
|
" mul.ftz.f32 %f1468, %f813, %f1459;\n"
|
|
" neg.ftz.f32 %f1469, %f1460;\n"
|
|
" neg.ftz.f32 %f1470, %f1461;\n"
|
|
" neg.ftz.f32 %f1471, %f1462;\n"
|
|
" neg.ftz.f32 %f1472, %f1463;\n"
|
|
" neg.ftz.f32 %f1473, %f1464;\n"
|
|
" neg.ftz.f32 %f1474, %f1465;\n"
|
|
" neg.ftz.f32 %f1475, %f1466;\n"
|
|
" neg.ftz.f32 %f1476, %f1467;\n"
|
|
" neg.ftz.f32 %f1477, %f1468;\n"
|
|
" fma.rn.ftz.f32 %f1478, %f243, %f445, %f1469;\n"
|
|
" fma.rn.ftz.f32 %f1479, %f260, %f445, %f1470;\n"
|
|
" fma.rn.ftz.f32 %f1480, %f250, %f445, %f1471;\n"
|
|
" fma.rn.ftz.f32 %f1481, %f253, %f445, %f1472;\n"
|
|
" fma.rn.ftz.f32 %f1482, %f244, %f445, %f1473;\n"
|
|
" fma.rn.ftz.f32 %f1483, %f261, %f445, %f1474;\n"
|
|
" fma.rn.ftz.f32 %f1484, %f212, %f445, %f1475;\n"
|
|
" fma.rn.ftz.f32 %f1485, %f245, %f445, %f1476;\n"
|
|
" fma.rn.ftz.f32 %f1486, %f250, %f445, %f1477;\n"
|
|
" mul.ftz.f32 %f1487, %f479, %f1478;\n"
|
|
" mul.ftz.f32 %f1488, %f475, %f1487;\n"
|
|
" mul.ftz.f32 %f1489, %f478, %f1478;\n"
|
|
" mul.ftz.f32 %f1490, %f476, %f1489;\n"
|
|
" sub.ftz.f32 %f1491, %f1490, %f1488;\n"
|
|
" mul.ftz.f32 %f1492, %f477, %f1479;\n"
|
|
" mul.ftz.f32 %f1493, %f476, %f1492;\n"
|
|
" sub.ftz.f32 %f1494, %f1491, %f1493;\n"
|
|
" mul.ftz.f32 %f1495, %f477, %f1480;\n"
|
|
" fma.rn.ftz.f32 %f1496, %f475, %f1495, %f1494;\n"
|
|
" mul.ftz.f32 %f1497, %f474, %f1479;\n"
|
|
" fma.rn.ftz.f32 %f1498, %f479, %f1497, %f1496;\n"
|
|
" mul.ftz.f32 %f1499, %f474, %f1480;\n"
|
|
" mul.ftz.f32 %f1500, %f478, %f1499;\n"
|
|
" sub.ftz.f32 %f1501, %f1498, %f1500;\n"
|
|
" mul.ftz.f32 %f1502, %f468, %f1481;\n"
|
|
" fma.rn.ftz.f32 %f1503, %f476, %f1502, %f1501;\n"
|
|
" mul.ftz.f32 %f1504, %f468, %f1482;\n"
|
|
" mul.ftz.f32 %f1505, %f475, %f1504;\n"
|
|
" sub.ftz.f32 %f1506, %f1503, %f1505;\n"
|
|
" mul.ftz.f32 %f1507, %f470, %f1483;\n"
|
|
" mul.ftz.f32 %f1508, %f476, %f1507;\n"
|
|
" sub.ftz.f32 %f1509, %f1506, %f1508;\n"
|
|
" mul.ftz.f32 %f1510, %f469, %f1483;\n"
|
|
" fma.rn.ftz.f32 %f1511, %f475, %f1510, %f1509;\n"
|
|
" fma.rn.ftz.f32 %f1512, %f1482, %f480, %f1511;\n"
|
|
" mul.ftz.f32 %f1513, %f1481, %f481;\n"
|
|
" sub.ftz.f32 %f1514, %f1512, %f1513;\n"
|
|
" fma.rn.ftz.f32 %f1515, %f1484, %f484, %f1514;\n"
|
|
" mul.ftz.f32 %f1516, %f1485, %f485;\n"
|
|
" sub.ftz.f32 %f1517, %f1515, %f1516;\n"
|
|
" mul.ftz.f32 %f1518, %f1484, %f482;\n"
|
|
" sub.ftz.f32 %f1519, %f1517, %f1518;\n"
|
|
" fma.rn.ftz.f32 %f1520, %f1485, %f483, %f1519;\n"
|
|
" mul.ftz.f32 %f1521, %f470, %f1486;\n"
|
|
" fma.rn.ftz.f32 %f1522, %f479, %f1521, %f1520;\n"
|
|
" mul.ftz.f32 %f1523, %f469, %f1486;\n"
|
|
" mul.ftz.f32 %f1524, %f478, %f1523;\n"
|
|
" sub.ftz.f32 %f1525, %f1522, %f1524;\n"
|
|
" .loc 17 444 0\n"
|
|
" mul.ftz.f32 %f1526, %f70, %f586;\n"
|
|
" mul.ftz.f32 %f1527, %f87, %f586;\n"
|
|
" mul.ftz.f32 %f1528, %f76, %f586;\n"
|
|
" mul.ftz.f32 %f1529, %f875, %f1525;\n"
|
|
" mul.ftz.f32 %f1530, %f889, %f193;\n"
|
|
" mul.ftz.f32 %f1531, %f889, %f213;\n"
|
|
" fma.rn.ftz.f32 %f1532, %f211, %f890, %f1530;\n"
|
|
" mul.ftz.f32 %f1533, %f889, %f228;\n"
|
|
" fma.rn.ftz.f32 %f1534, %f890, %f220, %f1531;\n"
|
|
" fma.rn.ftz.f32 %f1535, %f591, %f90, %f1526;\n"
|
|
" fma.rn.ftz.f32 %f1536, %f86, %f591, %f1527;\n"
|
|
" fma.rn.ftz.f32 %f1537, %f591, %f81, %f1528;\n"
|
|
" fma.rn.ftz.f32 %f1538, %f190, %f891, %f1532;\n"
|
|
" fma.rn.ftz.f32 %f1539, %f890, %f239, %f1533;\n"
|
|
" fma.rn.ftz.f32 %f1540, %f891, %f169, %f1534;\n"
|
|
" mov.f32 %f1541, 0f00000000; \n"
|
|
" fma.rn.ftz.f32 %f1542, %f583, %f1541, %f1535;\n"
|
|
" mov.f32 %f1543, 0f00000000; \n"
|
|
" fma.rn.ftz.f32 %f1544, %f1543, %f583, %f1536;\n"
|
|
" mov.f32 %f1545, 0f00000000; \n"
|
|
" fma.rn.ftz.f32 %f1546, %f583, %f1545, %f1537;\n"
|
|
" fma.rn.ftz.f32 %f1547, %f891, %f140, %f1539;\n"
|
|
" mul.ftz.f32 %f1548, %f1547, %f419;\n"
|
|
" mul.ftz.f32 %f1549, %f1542, %f1304;\n"
|
|
" fma.rn.ftz.f32 %f1550, %f423, %f1538, %f1548;\n"
|
|
" fma.rn.ftz.f32 %f1551, %f1305, %f1544, %f1549;\n"
|
|
" fma.rn.ftz.f32 %f1552, %f416, %f1540, %f1550;\n"
|
|
" fma.rn.ftz.f32 %f1553, %f1306, %f1546, %f1551;\n"
|
|
" mul.ftz.f32 %f1554, %f622, %f1553;\n"
|
|
" mul.ftz.f32 %f1555, %f1459, %f871;\n"
|
|
" sub.ftz.f32 %f1556, %f1555, %f1529;\n"
|
|
" neg.ftz.f32 %f1557, %f1554;\n"
|
|
" mul.ftz.f32 %f1558, %f1459, %f678;\n"
|
|
" sub.ftz.f32 %f1559, %f1556, %f1558;\n"
|
|
" fma.rn.ftz.f32 %f1560, %f594, %f1559, %f1557;\n"
|
|
" mul.ftz.f32 %f1561, %f1552, %f732;\n"
|
|
" fma.rn.ftz.f32 %f1562, %f909, %f1560, %f1561;\n"
|
|
" mul.ftz.f32 %f1563, %f657, %f1562;\n"
|
|
" mul.ftz.f32 %f1564, %f1552, %f708;\n"
|
|
" fma.rn.ftz.f32 %f1565, %f898, %f1560, %f1564;\n"
|
|
" fma.rn.ftz.f32 %f1566, %f1565, %f654, %f1563;\n"
|
|
" sub.ftz.f32 %f265, %f265, %f1566;\n"
|
|
" mul.lo.s32 %r33, %r14, %r1;\n"
|
|
" cvt.s64.s32 %rd49, %r33;\n"
|
|
" mul.wide.s32 %rd50, %r33, 4;\n"
|
|
" add.u64 %rd25, %rd25, %rd50;\n"
|
|
" setp.gt.u64 %p22, %rd28, %rd25;\n"
|
|
" @%p22 bra $Lt_0_46338;\n"
|
|
" bra.uni $Lt_0_45826;\n"
|
|
"$Lt_0_69634:\n"
|
|
" mov.f32 %f265, 0f00000000; \n"
|
|
" mov.f32 %f266, 0f00000000; \n"
|
|
" mov.f32 %f267, 0f00000000; \n"
|
|
" mov.f32 %f268, 0f00000000; \n"
|
|
" mov.f32 %f269, 0f00000000; \n"
|
|
" mov.f32 %f270, 0f00000000; \n"
|
|
" mov.f32 %f271, 0f00000000; \n"
|
|
"$Lt_0_45826:\n"
|
|
" mov.u32 %r34, 1;\n"
|
|
" setp.le.s32 %p23, %r1, %r34;\n"
|
|
" @%p23 bra $Lt_0_65794;\n"
|
|
" .loc 17 448 0\n"
|
|
" mov.u64 %rd51, __cuda___cuda_local_var_33303_55_non_const_red_acc136;\n"
|
|
" cvt.s64.s32 %rd52, %r2;\n"
|
|
" mul.wide.s32 %rd53, %r2, 4;\n"
|
|
" add.u64 %rd54, %rd51, %rd53;\n"
|
|
" mov.f32 %f1567, %f270;\n"
|
|
" st.shared.f32 [%rd54+0], %f1567;\n"
|
|
" mov.f32 %f1568, %f269;\n"
|
|
" st.shared.f32 [%rd54+512], %f1568;\n"
|
|
" mov.f32 %f1569, %f268;\n"
|
|
" st.shared.f32 [%rd54+1024], %f1569;\n"
|
|
" mov.f32 %f1570, %f267;\n"
|
|
" st.shared.f32 [%rd54+1536], %f1570;\n"
|
|
" mov.f32 %f1571, %f266;\n"
|
|
" st.shared.f32 [%rd54+2048], %f1571;\n"
|
|
" mov.f32 %f1572, %f265;\n"
|
|
" st.shared.f32 [%rd54+2560], %f1572;\n"
|
|
" shr.s32 %r35, %r1, 31;\n"
|
|
" mov.s32 %r36, 1;\n"
|
|
" and.b32 %r37, %r35, %r36;\n"
|
|
" add.s32 %r38, %r37, %r1;\n"
|
|
" shr.s32 %r39, %r38, 1;\n"
|
|
" mov.s32 %r40, %r39;\n"
|
|
" mov.u32 %r41, 0;\n"
|
|
" setp.ne.u32 %p24, %r39, %r41;\n"
|
|
" @!%p24 bra $Lt_0_64258;\n"
|
|
"$Lt_0_64770:\n"
|
|
" setp.ge.u32 %p25, %r16, %r40;\n"
|
|
" @%p25 bra $Lt_0_65026;\n"
|
|
" add.u32 %r42, %r2, %r40;\n"
|
|
" cvt.u64.u32 %rd55, %r42;\n"
|
|
" mul.wide.u32 %rd56, %r42, 4;\n"
|
|
" add.u64 %rd57, %rd51, %rd56;\n"
|
|
" ld.shared.f32 %f1573, [%rd57+0];\n"
|
|
" add.ftz.f32 %f1567, %f1573, %f1567;\n"
|
|
" st.shared.f32 [%rd54+0], %f1567;\n"
|
|
" ld.shared.f32 %f1574, [%rd57+512];\n"
|
|
" add.ftz.f32 %f1568, %f1574, %f1568;\n"
|
|
" st.shared.f32 [%rd54+512], %f1568;\n"
|
|
" ld.shared.f32 %f1575, [%rd57+1024];\n"
|
|
" add.ftz.f32 %f1569, %f1575, %f1569;\n"
|
|
" st.shared.f32 [%rd54+1024], %f1569;\n"
|
|
" ld.shared.f32 %f1576, [%rd57+1536];\n"
|
|
" add.ftz.f32 %f1570, %f1576, %f1570;\n"
|
|
" st.shared.f32 [%rd54+1536], %f1570;\n"
|
|
" ld.shared.f32 %f1577, [%rd57+2048];\n"
|
|
" add.ftz.f32 %f1571, %f1577, %f1571;\n"
|
|
" st.shared.f32 [%rd54+2048], %f1571;\n"
|
|
" ld.shared.f32 %f1578, [%rd57+2560];\n"
|
|
" add.ftz.f32 %f1572, %f1578, %f1572;\n"
|
|
" st.shared.f32 [%rd54+2560], %f1572;\n"
|
|
"$Lt_0_65026:\n"
|
|
" shr.u32 %r40, %r40, 1;\n"
|
|
" mov.u32 %r43, 0;\n"
|
|
" setp.ne.u32 %p26, %r40, %r43;\n"
|
|
" @%p26 bra $Lt_0_64770;\n"
|
|
"$Lt_0_64258:\n"
|
|
" mov.f32 %f270, %f1567;\n"
|
|
" mov.f32 %f269, %f1568;\n"
|
|
" mov.f32 %f268, %f1569;\n"
|
|
" mov.f32 %f267, %f1570;\n"
|
|
" mov.f32 %f266, %f1571;\n"
|
|
" mov.f32 %f265, %f1572;\n"
|
|
" ld.param.s32 %r44, [__cudaparm_kernel_ellipsoid_eflag];\n"
|
|
" mov.s32 %r45, 0;\n"
|
|
" set.gt.u32.s32 %r46, %r44, %r45;\n"
|
|
" neg.s32 %r47, %r46;\n"
|
|
" ld.param.s32 %r48, [__cudaparm_kernel_ellipsoid_vflag];\n"
|
|
" mov.s32 %r49, 0;\n"
|
|
" set.gt.u32.s32 %r50, %r48, %r49;\n"
|
|
" neg.s32 %r51, %r50;\n"
|
|
" or.b32 %r52, %r47, %r51;\n"
|
|
" mov.u32 %r53, 0;\n"
|
|
" setp.eq.s32 %p27, %r52, %r53;\n"
|
|
" @%p27 bra $Lt_0_65794;\n"
|
|
" mov.f32 %f1567, %f19;\n"
|
|
" st.shared.f32 [%rd54+0], %f1567;\n"
|
|
" mov.f32 %f1568, %f21;\n"
|
|
" st.shared.f32 [%rd54+512], %f1568;\n"
|
|
" mov.f32 %f1569, %f23;\n"
|
|
" st.shared.f32 [%rd54+1024], %f1569;\n"
|
|
" mov.f32 %f1570, %f25;\n"
|
|
" st.shared.f32 [%rd54+1536], %f1570;\n"
|
|
" mov.f32 %f1571, %f27;\n"
|
|
" st.shared.f32 [%rd54+2048], %f1571;\n"
|
|
" mov.f32 %f1572, %f28;\n"
|
|
" st.shared.f32 [%rd54+2560], %f1572;\n"
|
|
" mov.f32 %f1579, %f271;\n"
|
|
" st.shared.f32 [%rd54+3072], %f1579;\n"
|
|
" mov.s32 %r54, %r39;\n"
|
|
" @!%p24 bra $Lt_0_66306;\n"
|
|
"$Lt_0_66818:\n"
|
|
" setp.ge.u32 %p28, %r16, %r54;\n"
|
|
" @%p28 bra $Lt_0_67074;\n"
|
|
" add.u32 %r55, %r2, %r54;\n"
|
|
" cvt.u64.u32 %rd58, %r55;\n"
|
|
" mul.wide.u32 %rd59, %r55, 4;\n"
|
|
" add.u64 %rd60, %rd51, %rd59;\n"
|
|
" ld.shared.f32 %f1580, [%rd60+0];\n"
|
|
" add.ftz.f32 %f1567, %f1580, %f1567;\n"
|
|
" st.shared.f32 [%rd54+0], %f1567;\n"
|
|
" ld.shared.f32 %f1581, [%rd60+512];\n"
|
|
" add.ftz.f32 %f1568, %f1581, %f1568;\n"
|
|
" st.shared.f32 [%rd54+512], %f1568;\n"
|
|
" ld.shared.f32 %f1582, [%rd60+1024];\n"
|
|
" add.ftz.f32 %f1569, %f1582, %f1569;\n"
|
|
" st.shared.f32 [%rd54+1024], %f1569;\n"
|
|
" ld.shared.f32 %f1583, [%rd60+1536];\n"
|
|
" add.ftz.f32 %f1570, %f1583, %f1570;\n"
|
|
" st.shared.f32 [%rd54+1536], %f1570;\n"
|
|
" ld.shared.f32 %f1584, [%rd60+2048];\n"
|
|
" add.ftz.f32 %f1571, %f1584, %f1571;\n"
|
|
" st.shared.f32 [%rd54+2048], %f1571;\n"
|
|
" ld.shared.f32 %f1585, [%rd60+2560];\n"
|
|
" add.ftz.f32 %f1572, %f1585, %f1572;\n"
|
|
" st.shared.f32 [%rd54+2560], %f1572;\n"
|
|
" ld.shared.f32 %f1586, [%rd60+3072];\n"
|
|
" add.ftz.f32 %f1579, %f1586, %f1579;\n"
|
|
" st.shared.f32 [%rd54+3072], %f1579;\n"
|
|
"$Lt_0_67074:\n"
|
|
" shr.u32 %r54, %r54, 1;\n"
|
|
" mov.u32 %r56, 0;\n"
|
|
" setp.ne.u32 %p29, %r54, %r56;\n"
|
|
" @%p29 bra $Lt_0_66818;\n"
|
|
"$Lt_0_66306:\n"
|
|
" mov.f32 %f19, %f1567;\n"
|
|
" mov.f32 %f21, %f1568;\n"
|
|
" mov.f32 %f23, %f1569;\n"
|
|
" mov.f32 %f25, %f1570;\n"
|
|
" mov.f32 %f27, %f1571;\n"
|
|
" mov.f32 %f29, %f1572;\n"
|
|
" mov.f32 %f271, %f1579;\n"
|
|
"$Lt_0_65794:\n"
|
|
"$Lt_0_63746:\n"
|
|
" mov.u32 %r57, 0;\n"
|
|
" setp.ne.s32 %p30, %r16, %r57;\n"
|
|
" @%p30 bra $Lt_0_67842;\n"
|
|
" ld.param.u64 %rd61, [__cudaparm_kernel_ellipsoid_engv];\n"
|
|
" add.u64 %rd62, %rd61, %rd3;\n"
|
|
" ld.param.s32 %r58, [__cudaparm_kernel_ellipsoid_astride];\n"
|
|
" ld.param.s32 %r59, [__cudaparm_kernel_ellipsoid_eflag];\n"
|
|
" mov.u32 %r60, 0;\n"
|
|
" setp.le.s32 %p31, %r59, %r60;\n"
|
|
" @%p31 bra $Lt_0_68354;\n"
|
|
" st.global.f32 [%rd62+0], %f271;\n"
|
|
" cvt.s64.s32 %rd63, %r58;\n"
|
|
" mul.wide.s32 %rd64, %r58, 4;\n"
|
|
" add.u64 %rd62, %rd62, %rd64;\n"
|
|
"$Lt_0_68354:\n"
|
|
" ld.param.s32 %r61, [__cudaparm_kernel_ellipsoid_vflag];\n"
|
|
" mov.u32 %r62, 0;\n"
|
|
" setp.le.s32 %p32, %r61, %r62;\n"
|
|
" @%p32 bra $Lt_0_68866;\n"
|
|
" mov.f32 %f1587, %f19;\n"
|
|
" st.global.f32 [%rd62+0], %f1587;\n"
|
|
" cvt.s64.s32 %rd65, %r58;\n"
|
|
" mul.wide.s32 %rd66, %r58, 4;\n"
|
|
" add.u64 %rd67, %rd66, %rd62;\n"
|
|
" mov.f32 %f1588, %f21;\n"
|
|
" st.global.f32 [%rd67+0], %f1588;\n"
|
|
" add.u64 %rd68, %rd66, %rd67;\n"
|
|
" mov.f32 %f1589, %f23;\n"
|
|
" st.global.f32 [%rd68+0], %f1589;\n"
|
|
" add.u64 %rd69, %rd66, %rd68;\n"
|
|
" mov.f32 %f1590, %f25;\n"
|
|
" st.global.f32 [%rd69+0], %f1590;\n"
|
|
" add.u64 %rd62, %rd66, %rd69;\n"
|
|
" mov.f32 %f1591, %f27;\n"
|
|
" st.global.f32 [%rd62+0], %f1591;\n"
|
|
" mov.f32 %f1592, %f29;\n"
|
|
" add.u64 %rd70, %rd66, %rd62;\n"
|
|
" st.global.f32 [%rd70+0], %f1592;\n"
|
|
"$Lt_0_68866:\n"
|
|
" ld.param.u64 %rd71, [__cudaparm_kernel_ellipsoid_ans];\n"
|
|
" mul.lo.u64 %rd72, %rd2, 16;\n"
|
|
" add.u64 %rd73, %rd71, %rd72;\n"
|
|
" mov.f32 %f1593, %f1594;\n"
|
|
" st.global.v4.f32 [%rd73+0], {%f270,%f269,%f268,%f1593};\n"
|
|
" add.s32 %r63, %r8, %r58;\n"
|
|
" cvt.s64.s32 %rd74, %r63;\n"
|
|
" mul.wide.s32 %rd75, %r63, 16;\n"
|
|
" add.u64 %rd76, %rd71, %rd75;\n"
|
|
" mov.f32 %f1595, %f1596;\n"
|
|
" st.global.v4.f32 [%rd76+0], {%f267,%f266,%f265,%f1595};\n"
|
|
"$Lt_0_67842:\n"
|
|
"$Lt_0_45314:\n"
|
|
" .loc 17 451 0\n"
|
|
" exit;\n"
|
|
"$LDWend_kernel_ellipsoid:\n"
|
|
" }\n"
|
|
;
|