Predviđanje uspeha studenta pristupom otkrivanja zakonitosti u podacima u obrazovanju
Predicting students' performance: Educational data mining approach
Апстракт
Primena otkrivanja zakonitosti u podacima u oblasti obrazovanja (engl. educational data mining) predstavlja novu, rastuću oblast, koja ima veliki potencijal za istraživanje. Usmerena je na razvoj modela i metoda za istraživanje podataka prikupljenih iz obrazovnog sistema. Kao takva, podrazumeva različite aspekte obrazovanja: studente, profesore, materijale sa predavanja, organizaciju grupa studenata za učenje, sve u cilju boljeg razumevanja i poboljšanja procesa učenja. Slično kao i u drugim oblastima otkrivanja zakonitosti u podacima, i u obrazovanju se prema preporuci koristi CRISP-DM metodologija istraživanja. Za potrebe ovog rada korišćeni su podaci diplomiranih studenata poslednjih pet generacija koje su završile smer Informacioni sistemi i tehnologije (779 studenata sa Fakulteta organizacionih nauka Univerziteta u Beogradu). Baza podataka se sastoji od različitih studentskih podataka, koji obuhvataju lične osobine studenata, uspeh u srednjoj školi, tip i lokaciju srednje škole, b...odove na prijemnom ispitu i ocene sa prve godine studija. Cilj ovog istraživanja je stvaranje modela za predikciju konačnog proseka ocena studenta zasnovanih na informacijama dobijenim sa Fakulteta organizacionih nauka. U tu svrhu korišćena su tri algoritma: neuronske mreže, linearna regresija i mašine sa vektorima podrške. Za evaluaciju modela korišćeni su koren srednje kvadratne greške (RMSE) i apsolutna greška (AE). Najbolji rezultat postignut je korišćenjem neuronskih mreža (AE = 0,2656) i linearne regresije (RMSE = 0,3425). Utvrđene greške između rezultata različitih algoritama su jako blizu jedna drugoj, te se ne može zaključiti koji je algoritam najbolji. Zaključujemo da problem predviđanja krajnje ocene studija predstavlja velik izazov. U drugom delu istraživanja korišćeni su algoritmi za selekciju atributa u cilju identifikovanja ključnih faktora koji utiču na prosečnu ocenu tokom studija. Tačnije, korišćena su tri algoritma selekcije atributa, i to: selekcija unapred, eliminacija unazad i genetski algoritam. Nakon sprovođenja eksperimenta, zaključeno je da se najbolji podaci predikcije uspeha studenata dobijaju korišćenjem linearne regresije sa genetskim algoritmima. Upotrebom ovog modela možemo zaključiti da lični podaci ne utiču na krajnji prosek ocena studenta. Sa druge strane, ocene iz prve godine (osim one iz Ekonomije) i bodovi sa prijemnog ispita važni su za predikciju uspeha studenata. Apsolutna greška ovog modela iznosi 0,2528, dok koren srednje kvadratne greške iznosi 0,3288. Dalje istraživanje bi trebalo da bude usmereno ka optimizaciji parametara korišćenih algoritama. Kako neuronske mreže i mašine sa vektorima podrške poseduju parametre koje je potrebno prilagoditi svakom istraživanju, potrebno je sprovesti i ovaj vid analize, gde bi se u tu svrhu koristio genetski algoritam. Napravljeni model i prepoznati značajni atributi mogu se koristiti za predikciju uspeha studenata, gde samo saznanje u ranoj fazi studija za studenta može predstavljati veoma važnu informaciju. Međutim, ta informacija je veoma važna i za fakultet odnosno univerzitet, jer mogu da prate razvoj i uspeh svojih studenata u odnosu na očekivani uspeh.
Applying data mining on data gathered from educational environments is a new, growing research area also known as educational data mining (EDM). It is focused on developing models and methods for exploring data collected from educational environments. EDM considers different aspects of education: students, teachers, teaching materials, organization of classes in order to better understand and improve educational process. In this paper we use different data mining algorithms in order to find the best suited model for prediction of students' success at the end of their studies. These models are generated and evaluated on students' personal, high school, admission and first year grades data from Faculty of Organizational Sciences, University of Belgrade, who studied Information Systems and Technologies study program. Specifically, artificial neural networks, linear regression and support vector machines are applied on students' aforementioned data to generate the model, which can be used ...to predict the students' average grade at the end of their studies. Similarly, several attribute selection techniques are applied in order to identify which attributes contribute the most to prediction of students' performance. Experiments showed that genetic algorithm attribute weighting technique gave best results where absolute error for linear regression and support vector machines were 0.2528. Also, personal data does not influence the final grade average. On the other hand first year grades, except Economy course, admission and high school data are considered important.
Кључне речи:
visoko obrazovanje / regresija / predviđanje postignuća / otkrivanje zakonitosti u podacima iz oblasti obrazovanja / obrada podataka / Regression / Performance prediction / Higher education / Educational Data Mining / Data MiningИзвор:
Inovacije u nastavi - časopis za savremenu nastavu, 2013, 26, 2, 82-92Издавач:
- Univerzitet u Beogradu - Učiteljski fakultet, Beograd
Институција/група
Fakultet organizacionih naukaTY - JOUR AU - Radovanović, Sandro AU - Išljamović, Sonja AU - Suknović, Milija PY - 2013 UR - https://rfos.fon.bg.ac.rs/handle/123456789/1120 AB - Primena otkrivanja zakonitosti u podacima u oblasti obrazovanja (engl. educational data mining) predstavlja novu, rastuću oblast, koja ima veliki potencijal za istraživanje. Usmerena je na razvoj modela i metoda za istraživanje podataka prikupljenih iz obrazovnog sistema. Kao takva, podrazumeva različite aspekte obrazovanja: studente, profesore, materijale sa predavanja, organizaciju grupa studenata za učenje, sve u cilju boljeg razumevanja i poboljšanja procesa učenja. Slično kao i u drugim oblastima otkrivanja zakonitosti u podacima, i u obrazovanju se prema preporuci koristi CRISP-DM metodologija istraživanja. Za potrebe ovog rada korišćeni su podaci diplomiranih studenata poslednjih pet generacija koje su završile smer Informacioni sistemi i tehnologije (779 studenata sa Fakulteta organizacionih nauka Univerziteta u Beogradu). Baza podataka se sastoji od različitih studentskih podataka, koji obuhvataju lične osobine studenata, uspeh u srednjoj školi, tip i lokaciju srednje škole, bodove na prijemnom ispitu i ocene sa prve godine studija. Cilj ovog istraživanja je stvaranje modela za predikciju konačnog proseka ocena studenta zasnovanih na informacijama dobijenim sa Fakulteta organizacionih nauka. U tu svrhu korišćena su tri algoritma: neuronske mreže, linearna regresija i mašine sa vektorima podrške. Za evaluaciju modela korišćeni su koren srednje kvadratne greške (RMSE) i apsolutna greška (AE). Najbolji rezultat postignut je korišćenjem neuronskih mreža (AE = 0,2656) i linearne regresije (RMSE = 0,3425). Utvrđene greške između rezultata različitih algoritama su jako blizu jedna drugoj, te se ne može zaključiti koji je algoritam najbolji. Zaključujemo da problem predviđanja krajnje ocene studija predstavlja velik izazov. U drugom delu istraživanja korišćeni su algoritmi za selekciju atributa u cilju identifikovanja ključnih faktora koji utiču na prosečnu ocenu tokom studija. Tačnije, korišćena su tri algoritma selekcije atributa, i to: selekcija unapred, eliminacija unazad i genetski algoritam. Nakon sprovođenja eksperimenta, zaključeno je da se najbolji podaci predikcije uspeha studenata dobijaju korišćenjem linearne regresije sa genetskim algoritmima. Upotrebom ovog modela možemo zaključiti da lični podaci ne utiču na krajnji prosek ocena studenta. Sa druge strane, ocene iz prve godine (osim one iz Ekonomije) i bodovi sa prijemnog ispita važni su za predikciju uspeha studenata. Apsolutna greška ovog modela iznosi 0,2528, dok koren srednje kvadratne greške iznosi 0,3288. Dalje istraživanje bi trebalo da bude usmereno ka optimizaciji parametara korišćenih algoritama. Kako neuronske mreže i mašine sa vektorima podrške poseduju parametre koje je potrebno prilagoditi svakom istraživanju, potrebno je sprovesti i ovaj vid analize, gde bi se u tu svrhu koristio genetski algoritam. Napravljeni model i prepoznati značajni atributi mogu se koristiti za predikciju uspeha studenata, gde samo saznanje u ranoj fazi studija za studenta može predstavljati veoma važnu informaciju. Međutim, ta informacija je veoma važna i za fakultet odnosno univerzitet, jer mogu da prate razvoj i uspeh svojih studenata u odnosu na očekivani uspeh. AB - Applying data mining on data gathered from educational environments is a new, growing research area also known as educational data mining (EDM). It is focused on developing models and methods for exploring data collected from educational environments. EDM considers different aspects of education: students, teachers, teaching materials, organization of classes in order to better understand and improve educational process. In this paper we use different data mining algorithms in order to find the best suited model for prediction of students' success at the end of their studies. These models are generated and evaluated on students' personal, high school, admission and first year grades data from Faculty of Organizational Sciences, University of Belgrade, who studied Information Systems and Technologies study program. Specifically, artificial neural networks, linear regression and support vector machines are applied on students' aforementioned data to generate the model, which can be used to predict the students' average grade at the end of their studies. Similarly, several attribute selection techniques are applied in order to identify which attributes contribute the most to prediction of students' performance. Experiments showed that genetic algorithm attribute weighting technique gave best results where absolute error for linear regression and support vector machines were 0.2528. Also, personal data does not influence the final grade average. On the other hand first year grades, except Economy course, admission and high school data are considered important. PB - Univerzitet u Beogradu - Učiteljski fakultet, Beograd T2 - Inovacije u nastavi - časopis za savremenu nastavu T1 - Predviđanje uspeha studenta pristupom otkrivanja zakonitosti u podacima u obrazovanju T1 - Predicting students' performance: Educational data mining approach EP - 92 IS - 2 SP - 82 VL - 26 UR - conv_151 ER -
@article{ author = "Radovanović, Sandro and Išljamović, Sonja and Suknović, Milija", year = "2013", abstract = "Primena otkrivanja zakonitosti u podacima u oblasti obrazovanja (engl. educational data mining) predstavlja novu, rastuću oblast, koja ima veliki potencijal za istraživanje. Usmerena je na razvoj modela i metoda za istraživanje podataka prikupljenih iz obrazovnog sistema. Kao takva, podrazumeva različite aspekte obrazovanja: studente, profesore, materijale sa predavanja, organizaciju grupa studenata za učenje, sve u cilju boljeg razumevanja i poboljšanja procesa učenja. Slično kao i u drugim oblastima otkrivanja zakonitosti u podacima, i u obrazovanju se prema preporuci koristi CRISP-DM metodologija istraživanja. Za potrebe ovog rada korišćeni su podaci diplomiranih studenata poslednjih pet generacija koje su završile smer Informacioni sistemi i tehnologije (779 studenata sa Fakulteta organizacionih nauka Univerziteta u Beogradu). Baza podataka se sastoji od različitih studentskih podataka, koji obuhvataju lične osobine studenata, uspeh u srednjoj školi, tip i lokaciju srednje škole, bodove na prijemnom ispitu i ocene sa prve godine studija. Cilj ovog istraživanja je stvaranje modela za predikciju konačnog proseka ocena studenta zasnovanih na informacijama dobijenim sa Fakulteta organizacionih nauka. U tu svrhu korišćena su tri algoritma: neuronske mreže, linearna regresija i mašine sa vektorima podrške. Za evaluaciju modela korišćeni su koren srednje kvadratne greške (RMSE) i apsolutna greška (AE). Najbolji rezultat postignut je korišćenjem neuronskih mreža (AE = 0,2656) i linearne regresije (RMSE = 0,3425). Utvrđene greške između rezultata različitih algoritama su jako blizu jedna drugoj, te se ne može zaključiti koji je algoritam najbolji. Zaključujemo da problem predviđanja krajnje ocene studija predstavlja velik izazov. U drugom delu istraživanja korišćeni su algoritmi za selekciju atributa u cilju identifikovanja ključnih faktora koji utiču na prosečnu ocenu tokom studija. Tačnije, korišćena su tri algoritma selekcije atributa, i to: selekcija unapred, eliminacija unazad i genetski algoritam. Nakon sprovođenja eksperimenta, zaključeno je da se najbolji podaci predikcije uspeha studenata dobijaju korišćenjem linearne regresije sa genetskim algoritmima. Upotrebom ovog modela možemo zaključiti da lični podaci ne utiču na krajnji prosek ocena studenta. Sa druge strane, ocene iz prve godine (osim one iz Ekonomije) i bodovi sa prijemnog ispita važni su za predikciju uspeha studenata. Apsolutna greška ovog modela iznosi 0,2528, dok koren srednje kvadratne greške iznosi 0,3288. Dalje istraživanje bi trebalo da bude usmereno ka optimizaciji parametara korišćenih algoritama. Kako neuronske mreže i mašine sa vektorima podrške poseduju parametre koje je potrebno prilagoditi svakom istraživanju, potrebno je sprovesti i ovaj vid analize, gde bi se u tu svrhu koristio genetski algoritam. Napravljeni model i prepoznati značajni atributi mogu se koristiti za predikciju uspeha studenata, gde samo saznanje u ranoj fazi studija za studenta može predstavljati veoma važnu informaciju. Međutim, ta informacija je veoma važna i za fakultet odnosno univerzitet, jer mogu da prate razvoj i uspeh svojih studenata u odnosu na očekivani uspeh., Applying data mining on data gathered from educational environments is a new, growing research area also known as educational data mining (EDM). It is focused on developing models and methods for exploring data collected from educational environments. EDM considers different aspects of education: students, teachers, teaching materials, organization of classes in order to better understand and improve educational process. In this paper we use different data mining algorithms in order to find the best suited model for prediction of students' success at the end of their studies. These models are generated and evaluated on students' personal, high school, admission and first year grades data from Faculty of Organizational Sciences, University of Belgrade, who studied Information Systems and Technologies study program. Specifically, artificial neural networks, linear regression and support vector machines are applied on students' aforementioned data to generate the model, which can be used to predict the students' average grade at the end of their studies. Similarly, several attribute selection techniques are applied in order to identify which attributes contribute the most to prediction of students' performance. Experiments showed that genetic algorithm attribute weighting technique gave best results where absolute error for linear regression and support vector machines were 0.2528. Also, personal data does not influence the final grade average. On the other hand first year grades, except Economy course, admission and high school data are considered important.", publisher = "Univerzitet u Beogradu - Učiteljski fakultet, Beograd", journal = "Inovacije u nastavi - časopis za savremenu nastavu", title = "Predviđanje uspeha studenta pristupom otkrivanja zakonitosti u podacima u obrazovanju, Predicting students' performance: Educational data mining approach", pages = "92-82", number = "2", volume = "26", url = "conv_151" }
Radovanović, S., Išljamović, S.,& Suknović, M.. (2013). Predviđanje uspeha studenta pristupom otkrivanja zakonitosti u podacima u obrazovanju. in Inovacije u nastavi - časopis za savremenu nastavu Univerzitet u Beogradu - Učiteljski fakultet, Beograd., 26(2), 82-92. conv_151
Radovanović S, Išljamović S, Suknović M. Predviđanje uspeha studenta pristupom otkrivanja zakonitosti u podacima u obrazovanju. in Inovacije u nastavi - časopis za savremenu nastavu. 2013;26(2):82-92. conv_151 .
Radovanović, Sandro, Išljamović, Sonja, Suknović, Milija, "Predviđanje uspeha studenta pristupom otkrivanja zakonitosti u podacima u obrazovanju" in Inovacije u nastavi - časopis za savremenu nastavu, 26, no. 2 (2013):82-92, conv_151 .