#include #include "Ttiming.h" __global__ void set(int *a,int *b, int N){ int i =blockIdx.x * blockDim.x + threadIdx.x; //patrz w niej w 'multiply' while(i>>(dev_a,dev_b,N); //wypełaianie tablic a i b 'losowymi' wartościami cudaDeviceSynchronize(); //synchronizacja, bo inaczej pomar czasu nie ma sensu //czas start tt.Begin(); //mnożenie a i b; c to wynik multiply<<<10,384>>>(dev_a,dev_b,dev_c,size); //takie wartosći <<<10,384>>> bo jest dla nich najszybsze, ale jeszcze zrobie dokładne testy i ewentualnie je poprawie //czas stop cudaDeviceSynchronize();//synchronizacja, bo inaczej pomar czasu nie ma sensu time = tt.End(); if(false){ //kopiowanie tablicy 'c' z pamieci urządzenia do hosta co by można było to odczytać, wyswietlić itp. cudaMemcpy(c,dev_c,N*sizeof(long),cudaMemcpyDeviceToHost); for(int i=0;i