[PDF]    http://dx.doi.org/10.3952/lithjphys.48310

Open access article / Atviros prieigos straipsnis

Lith. J. Phys. 48, 209–217 (2008)


QUANTIFICATION OF PATTERN RECOGNITION QUALITY BY MULTIVARIATE NORMAL DISTRIBUTION FUNCTIONS
Petras Serapinas, Žilvinas Ežerinskis, and Artūras Acus
Institute of Theoretical Physics and Astronomy of Vilnius University, A. Goštauto 12, LT-01108 Vilnius, Lithuania
E-mail: ezerinskis@pfi.lt

Received 9 May 2008; revised 18 September 2008; accepted 18 September 2008

Analysis of the multivariate data distributions can be helpful or directly applicable in pattern recognition tests. Estimate of the volume of the critical region of overlapping distributions is essential in determination of the confidence level of classification. Mathematical tools for analysis of the multivariate distributions (included probability, false positives and false negatives, means for calculation of the critical region) are developed. Sum of the false negative and the false positive is found as a very approximate characteristic of the total uncertainty of classification. The false negative probability is extremely distribution coordinate dependent and analysis of the details of the overlapping distributions is needed to evaluate the real risk of misclassification of samples. Application of the multivariate distributions to the regional classification of wine samples according to the data of multielement analysis is presented as an example.
Keywords: multivariate distribution, uncertainty, pattern recognition, confidence test, food analysis
PACS: 02.50.Sk, 07.05.Ka, 82.80.Ms, 89.75.Kd


DAUGIAMAČIŲ GAUSO SKIRSTINIŲ ANALIZĖS TAIKYMAS BANDINIŲ KLASIFIKACIJOS KOKYBEI VERTINTI
Petras Serapinas, Žilvinas Ežerinskis, Artūras Acus
Vilniaus universiteto Teorinės fizikos ir astronomijos institutas, Vilnius, Lietuva

Duomenų klasifikacijos pasikliautinumo lygį lemia skirstinių persiklojimo laipsnis. Yra daug būdų ir patogių priemonių vienmačiams skirstiniams analizuoti, tačiau daugiamačių skirstinių analizė retai taikoma. Straipsnyje pateikiamos lentelės ir būdai daugiamačių Gauso skirstinių įskaitytajai tikimybei, kritinei sričiai, klaidingosioms teigiamosioms ir klaidingosioms neigiamosioms tikimybėms skaičiuoti. Parodoma, kad klaidingosios teigiamosios ir klaidingosios neigiamosios tikimybių suma yra tik labai apytikrė klasifikacijos pasikliautinumo charakteristika. Klaidingoji neigiamoji tikimybė yra lokalizuota skirstinyje, ir jos vaidmuo duomenų klasifikavimui iš esmės priklauso nuo to, kiek konkretūs duomenys yra toli nuo tos srities. Pateikiamas pavyzdys, kaip daugiamačių skirstinių analizė panaudojama vyno bandinių regioninei klasifikacijai pagal spektrometrinius cheminės analizės duomenis.


References / Nuorodos


[1] L.A. Berrueta, R.M. Alonso-Salces, and K. Heberger, Supervised pattern recognition in food analysis, J. Chromatogr. A 1158, 196–214 (2007),
http://dx.doi.org/10.1016/j.chroma.2007.05.024
[2] M. Daszykowski and B. Walczak, Use and abuse of chemometrics in chromatography, Trends Anal. Chem. 25, 1081–1096 (2006),
http://dx.doi.org/10.1016/j.trac.2006.09.001
[3] A. Gustavo González, Use and misuse of supervised pattern recognition methods for interpreting compositional data, J. Chromatogr. A 1158, 215–225 (2007),
http://dx.doi.org/10.1016/j.chroma.2007.02.091
[4] S.F. Møller, J. von Frese, and R. Bro, Robust methods for multivariate data analysis, J. Chemometrics 19, 549–563 (2005),
http://dx.doi.org/10.1002/cem.962
[5] L. Petersen and K.H. Esbensen, Representative process sampling for reliable data analysis – a tutorial, J. Chemometrics 19, 625–647 (2005),
http://dx.doi.org/10.1002/cem.968
[6] D. Howel, Multivariate data analysis of pollutant profiles: PCB levels across Europe, Chemosphere 67, 1300–1307 (2007),
http://dx.doi.org/10.1016/j.chemosphere.2006.11.025
[7] J. Neyman and E.S. Pearson, Joint Statistical Papers (Cambridge University Press, Cambridge, 1967) p. 99,
http://www.abebooks.com/Joint-Statistical-Papers-Neyman-Pearson-University/16934279469/bd
[8] P. Serapinas, P.R. Venskutonis, V. Aninkevičius, Ž. Ežerinskis, A. Galdikas, and V. Juzikienė, Step by step approach to multi-element data analysis in testing the provenance of wines, Food Chem. 107, 1652–1660 (2008),
http://dx.doi.org/10.1016/j.foodchem.2007.09.003
[9] M. Roesslein, M. Wolf, B. Wampfler, and W. Wegscheider, A forgotten fact about the standard deviation, Accred. Qual. Assur. 12, 495–496 (2007),
http://dx.doi.org/10.1007/s00769-007-0285-2
[10] Mathematica, Version 5.2 (Wolfram Research, Inc., Champaign, IL, 2005),
http://wolfram-mathematica.software.informer.com/5.2/