Mean squared error of prediction (MSEP) estimates for principal component regression (PCR) and partial least squares regression (PLSR)

2004 ◽  
Vol 18 (9) ◽  
pp. 422-429 ◽  
Author(s):  
Bj�rn-Helge Mevik ◽  
Henrik Ren� Cederkvist
2012 ◽  
Vol 61 (2) ◽  
pp. 277-290 ◽  
Author(s):  
Ádám Csorba ◽  
Vince Láng ◽  
László Fenyvesi ◽  
Erika Michéli

Napjainkban egyre nagyobb igény mutatkozik olyan technológiák és módszerek kidolgozására és alkalmazására, melyek lehetővé teszik a gyors, költséghatékony és környezetbarát talajadat-felvételezést és kiértékelést. Ezeknek az igényeknek felel meg a reflektancia spektroszkópia, mely az elektromágneses spektrum látható (VIS) és közeli infravörös (NIR) tartományában (350–2500 nm) végzett reflektancia-mérésekre épül. Figyelembe véve, hogy a talajokról felvett reflektancia spektrum információban nagyon gazdag, és a vizsgált tartományban számos talajalkotó rendelkezik karakterisztikus spektrális „ujjlenyomattal”, egyetlen görbéből lehetővé válik nagyszámú, kulcsfontosságú talajparaméter egyidejű meghatározása. Dolgozatunkban, a reflektancia spektroszkópia alapjaira helyezett, a talajok ösz-szetételének meghatározását célzó módszertani fejlesztés első lépéseit mutatjuk be. Munkánk során talajok szervesszén- és CaCO3-tartalmának megbecslését lehetővé tévő többváltozós matematikai-statisztikai módszerekre (részleges legkisebb négyzetek módszere, partial least squares regression – PLSR) épülő prediktív modellek létrehozását és tesztelését végeztük el. A létrehozott modellek tesztelése során megállapítottuk, hogy az eljárás mindkét talajparaméter esetében magas R2értéket [R2(szerves szén) = 0,815; R2(CaCO3) = 0,907] adott. A becslés pontosságát jelző közepes négyzetes eltérés (root mean squared error – RMSE) érték mindkét paraméter esetében közepesnek mondható [RMSE (szerves szén) = 0,467; RMSE (CaCO3) = 3,508], mely a reflektancia mérési előírások standardizálásával jelentősen javítható. Vizsgálataink alapján arra a következtetésre jutottunk, hogy a reflektancia spektroszkópia és a többváltozós kemometriai eljárások együttes alkalmazásával, gyors és költséghatékony adatfelvételezési és -értékelési módszerhez juthatunk.


2015 ◽  
Vol 78 (4) ◽  
pp. 668-674 ◽  
Author(s):  
MATTHEW EADY ◽  
BOSOON PARK ◽  
SUN CHOI

This study was designed to evaluate hyperspectral microscope images for early and rapid detection of Salmonella serotypes Enteritidis, Heidelberg, Infantis, Kentucky, and Typhimurium at incubation times of 6, 8, 10, 12, and 24 h. Images were collected by an acousto-optical tunable filter hyperspectral microscope imaging system with a metal halide light source measuring 89 contiguous wavelengths every 4 nm between 450 and 800 nm. Pearson correlation values were calculated for incubation times of 8, 10, and 12 h and compared with data for 24 h to evaluate the change in spectral signatures from bacterial cells over time. Regions of interest were analyzed at 30% of the pixels in an average cell size. Spectral data were preprocessed by applying a global data transformation algorithm and then subjected to principal component analysis (PCA). The Mahalanobis distance was calculated from PCA score plots for analyzing serotype cluster separation. Partial least-squares regression was applied for calibration and validation of the model, and soft independent modeling of class analogy was utilized to classify serotype clusters in the training set. Pearson correlation values indicate very similar spectral patterns for reduced incubation times ranging from 0.9869 to 0.9990. PCA score plots indicated cluster separation at all incubation times, with incubation time Mahalanobis distances of 2.146 to 27.071. Partial least-squares regression had a maximum root mean squared error of calibration of 0.0025 and a root mean squared error of validation of 0.0030. Soft independent modeling of class analogy correctly classified values at 8 h (98.32%), 10 h (96.67%), 12 h (88.33%), and 24 h (98.67%) with the optimal number of principal components (four or five). The results of this study suggest that Salmonella serotypes can be classified by applying a PCA to hyperspectral microscope imaging data from samples after only 8 h of incubation.


2019 ◽  
Vol 8 (4) ◽  
pp. 496-505
Author(s):  
Vetranella .T.R.A. Sinaga ◽  
Diah Safitri ◽  
Rita Rahmawati

The multiple regression classic assumptions are used to give linear unbiased and minimum variance estimator. In Human Development Index (HDI) and influencing factors in East Java, there are two variables with VIF more than 10 so the assumption of non-multicollinearity is not fulfilled. Principal component regression (PCR) and partial least squares regression (PLS-R) can solve this problem. By doing principal component analysis, there are two linear combinations to take as the new   independent variables which are free from collinearity. In the PLS-R, NIPALS algorithm is used to calculate the components and other structures and to estimate the parameter. While in PCR all independent variables are significant, the percentage of households with drinking water is feasibles is not significant in the model. PLS-R’s  is 95,85% is greater than PCR’s  = 93,42%. PCR’s PRESS = 81,78 is greater than PLS-R’s PRESS = 61,0595.Keywords: Human Development Index (HDI), Multicollinearity, Principal Component Regression, Partial Least Squares Regression, , PRESS


Sign in / Sign up

Export Citation Format

Share Document