__global__ void CudaData_Upload_Kernel_DoubleFloat(double* buffer,float* dev_data,
						unsigned nx,unsigned ny,unsigned nz,copy_mode mode)
{
  if(mode==x) mode=xx;
  unsigned length=nx;
  if(ny>0) length*=ny;
  if(nz>0) length*=nz;
  unsigned i=(blockIdx.x*gridDim.y+blockIdx.y)*blockDim.x+threadIdx.x,j,k,l;

  
  if(i>=length) return;
  switch(mode)
  {
     case xx:
     {
       dev_data[i]=buffer[i];
     }
     case xy:
     {
       dev_data[i]=buffer[i];
     }
     case yx:
       {
       j=i/ny;
       k=i%ny;
       dev_data[k*nx+j]=buffer[j*ny+k];
       }
     case xyz:
     {
       dev_data[i]=buffer[i];
     }
     case xzy:
       {
       	j=i/(ny*nz);
       k=(i%(ny*nz))/nz;
       l=i%nz;
       dev_data[j*ny*nz+l*ny+k]=buffer[j*ny*nz+k*nz+l];
       }
  }
}

__global__ void CudaData_Upload_Kernel_DoubleDouble(double* buffer,double* dev_data,
						unsigned nx,unsigned ny,unsigned nz,copy_mode mode)
{
  if(mode==x) mode=xx;
  unsigned length=nx;
  if(ny>0) length*=ny;
  if(nz>0) length*=nz;
  unsigned i=(blockIdx.x*gridDim.y+blockIdx.y)*blockDim.x+threadIdx.x,j,k,l;
  if(i>=length) return;
  switch(mode)
  {
     case xx:
       dev_data[i]=buffer[i];
     case xy:
       dev_data[i]=buffer[i];
     case yx:
       j=i/ny;
       k=i%ny;
       dev_data[k*nx+j]=buffer[j*ny+k];
     case xyz:
       dev_data[i]=buffer[i];
     case xzy:
       j=i/(ny*nz);
       k=(i%(ny*nz))/nz;
       l=i%nz;
       dev_data[j*ny*nz+l*ny+k]=buffer[j*ny*nz+k*nz+l];
  }
}

__global__ void CudaData_Upload_Kernel_FloatDouble(float* buffer,double* dev_data,
						unsigned nx,unsigned ny,unsigned nz,copy_mode mode)
{
  if(mode==x) mode=xx;
  unsigned length=nx;
  if(ny>0) length*=ny;
  if(nz>0) length*=nz;
  unsigned i=(blockIdx.x*gridDim.y+blockIdx.y)*blockDim.x+threadIdx.x,j,k,l;
  if(i>=length) return;
  switch(mode)
  {
     case xx:
       dev_data[i]=buffer[i];
     case xy:
       dev_data[i]=buffer[i];
     case yx:
       j=i/ny;
       k=i%ny;
       dev_data[k*nx+j]=buffer[j*ny+k];
     case xyz:
       dev_data[i]=buffer[i];
     case xzy:
       j=i/(ny*nz);
       k=(i%(ny*nz))/nz;
       l=i%nz;
       dev_data[j*ny*nz+l*ny+k]=buffer[j*ny*nz+k*nz+l];
  }
}

__global__ void CudaData_Upload_Kernel_FloatFloat(float* buffer,float* dev_data,
						unsigned nx,unsigned ny,unsigned nz,copy_mode mode)
{
  if(mode==x) mode=xx;
  unsigned length=nx;
  if(ny>0) length*=ny;
  if(nz>0) length*=nz;
  unsigned i=(blockIdx.x*gridDim.y+blockIdx.y)*blockDim.x+threadIdx.x,j,k,l;
  if(i>=length) return;
  switch(mode)
  {
     case xx:
       dev_data[i]=buffer[i];
     case xy:
       dev_data[i]=buffer[i];
     case yx:
       j=i/ny;
       k=i%ny;
       dev_data[k*nx+j]=buffer[j*ny+k];
     case xyz:
       dev_data[i]=buffer[i];
     case xzy:
       j=i/(ny*nz);
       k=(i%(ny*nz))/nz;
       l=i%nz;
       dev_data[j*ny*nz+l*ny+k]=buffer[j*ny*nz+k*nz+l];
  }
}

__global__ void CudaData_Upload_Kernel_IntInt(int* buffer,int* dev_data,
						unsigned nx,unsigned ny,unsigned nz,copy_mode mode)
{
  if(mode==x) mode=xx;
  unsigned length=nx;
  if(ny>0) length*=ny;
  if(nz>0) length*=nz;
  unsigned i=(blockIdx.x*gridDim.y+blockIdx.y)*blockDim.x+threadIdx.x,j,k,l;
  if(i>=length) return;
  switch(mode)
  {
     case xx:
       dev_data[i]=buffer[i];
     case xy:
       dev_data[i]=buffer[i];
     case yx:
       j=i/ny;
       k=i%ny;
       dev_data[k*nx+j]=buffer[j*ny+k];
     case xyz:
       dev_data[i]=buffer[i];
     case xzy:
       j=i/(ny*nz);
       k=(i%(ny*nz))/nz;
       l=i%nz;
       dev_data[j*ny*nz+l*ny+k]=buffer[j*ny*nz+k*nz+l];
  }
}