Zadanie 3

2016-11-16 20:58:54 +01:00
parent e5c4d9ecfa
commit e47932ce65
4 changed files with 150 additions and 0 deletions
--- a/DergunPiotr-WaskoDominik/zad3/Makefile
+++ b/DergunPiotr-WaskoDominik/zad3/Makefile
@@ -0,0 +1,5 @@
+macierz_gpu: macierz_gpu.cu
+	nvcc macierz_gpu.cu -o macierz_gpu
+
+clean:
+	rm -rf macierz_gpu
--- a/DergunPiotr-WaskoDominik/zad3/Ttiming.h
+++ b/DergunPiotr-WaskoDominik/zad3/Ttiming.h
@@ -0,0 +1,40 @@
+#if !defined(DEF_TTIMING)
+#define DEF_TTIMING
+#include <sys/time.h>
+
+class TTiming
+{
+protected:
+	struct timeval start;
+	struct timeval stop;
+	void getTime(timeval &tv);
+	
+public:
+	TTiming(void);
+
+	void Begin(void);
+	long End(void);
+};
+
+inline TTiming::TTiming(void)
+{
+
+}
+
+inline void TTiming::Begin(void)
+{
+	getTime(start);
+}
+
+inline long TTiming::End(void)
+{
+	getTime(stop);
+	return ((stop.tv_sec-start.tv_sec) * 1000 + (stop.tv_usec-start.tv_usec)/1000.0) + 0.5;
+}
+
+inline void TTiming::getTime(timeval &tv)
+{
+	gettimeofday(&tv,NULL);
+}
+
+#endif
--- a/DergunPiotr-WaskoDominik/zad3/macierz_gpu
+++ b/DergunPiotr-WaskoDominik/zad3/macierz_gpu
--- a/DergunPiotr-WaskoDominik/zad3/macierz_gpu.cu
+++ b/DergunPiotr-WaskoDominik/zad3/macierz_gpu.cu
@@ -0,0 +1,105 @@
+#include <stdio.h>
+#include "Ttiming.h"
+
+
+
+
+__global__ void set(int *a,int *b, int N){
+	int i =blockIdx.x * blockDim.x + threadIdx.x;  //patrz w niej w  'multiply'
+	while(i<N){
+		a[i] = 1 + (int)(sinf(i) * i * threadIdx.x) % 20;
+		b[i] = 1 + (int)(cosf(i) * i * threadIdx.x) % 20;
+		
+		i+=blockDim.x * gridDim.x;
+	}
+
+}
+
+
+__global__ void multiply(int *a,int *b,long *c, int N){
+	int i =blockIdx.x * blockDim.x + threadIdx.x;  //obliczam którą komurkę tablicy mam liczyć, fajne wytłumaczenie o co chodzi jest w "cuda w przykładach" na stronie 47
+	long sum = 0;
+	int temp,temp2;
+	while(i<N*N){
+		temp = (int)floor((float)(i/N*N));
+		temp2 = i%N;
+		for(int j=0;j<N;j++){
+			sum +=a[temp + j] * b[j*N + temp2 ];
+		}
+		c[i]=sum;
+		sum =0;
+		i+=blockDim.x * gridDim.x; //inkrementacja o ilość wszystkich 'watków' 
+	}
+
+
+}
+
+
+int main(int argc, char *argv[]){
+
+	int size;
+	int N;
+	char *endptr;
+	int *dev_a,*dev_b;
+	long *dev_c;
+	long *c;
+
+
+	//do pomiaru czasu
+	TTiming tt;
+	long time;
+
+	size = strtol(argv[1], &endptr, 10);
+	
+	if (*endptr)
+	{
+		perror(" Invalid array size format\n");
+		exit(1);
+	}
+
+	if (size <= 0)
+	{
+		perror("The number of matrix dimension must be positive\n");
+		exit(1);
+	}
+
+	N = size*size;
+	c = (long*)malloc(N * sizeof(long));
+	
+	cudaMalloc((void**)&dev_a,N*sizeof(int));
+	cudaMalloc((void**)&dev_b,N*sizeof(int));
+	cudaMalloc((void**)&dev_c,N*sizeof(long));
+
+	
+	set<<<20,192>>>(dev_a,dev_b,N); //wypełaianie tablic a i b 'losowymi' wartościami
+	cudaDeviceSynchronize(); //synchronizacja,  bo inaczej pomar czasu nie ma sensu
+
+	//czas start
+	tt.Begin();
+
+	//mnożenie a i b; c to wynik
+	multiply<<<10,384>>>(dev_a,dev_b,dev_c,size); //takie wartosći <<<10,384>>> bo jest dla nich najszybsze, ale jeszcze zrobie dokładne testy i ewentualnie je poprawie
+
+	//czas stop
+	cudaDeviceSynchronize();//synchronizacja,  bo inaczej pomar czasu nie ma sensu
+	time = tt.End();
+
+
+	if(false){
+		//kopiowanie tablicy 'c' z pamieci urządzenia do hosta co by można było to odczytać, wyswietlić itp.
+		cudaMemcpy(c,dev_c,N*sizeof(long),cudaMemcpyDeviceToHost);
+		for(int i=0;i<N;i++){
+			printf("%ld; ",c[i]);
+		}
+	}
+
+
+	printf("czas : %ld ms\n" ,time);
+
+	cudaFree(dev_c);
+	cudaFree(dev_b);
+	cudaFree(dev_a);
+	free(c);
+
+	return 0;
+}