[PDF]
http://dx.doi.org/10.3952/lithjphys.48310
Open access article / Atviros prieigos straipsnis
Lith. J. Phys. 48, 209–217 (2008)
QUANTIFICATION OF PATTERN
RECOGNITION QUALITY BY MULTIVARIATE NORMAL DISTRIBUTION
FUNCTIONS
Petras Serapinas, Žilvinas Ežerinskis, and Artūras Acus
Institute of Theoretical Physics and Astronomy of Vilnius
University, A. Goštauto 12, LT-01108 Vilnius, Lithuania
E-mail: ezerinskis@pfi.lt
Received 9 May 2008; revised 18
September 2008; accepted 18 September 2008
Analysis of the multivariate data
distributions can be helpful or directly applicable in pattern
recognition tests. Estimate of the volume of the critical region
of overlapping distributions is essential in determination of the
confidence level of classification. Mathematical tools for
analysis of the multivariate distributions (included probability,
false positives and false negatives, means for calculation of the
critical region) are developed. Sum of the false negative and the
false positive is found as a very approximate characteristic of
the total uncertainty of classification. The false negative
probability is extremely distribution coordinate dependent and
analysis of the details of the overlapping distributions is needed
to evaluate the real risk of misclassification of samples.
Application of the multivariate distributions to the regional
classification of wine samples according to the data of
multielement analysis is presented as an example.
Keywords: multivariate distribution,
uncertainty, pattern recognition, confidence test, food analysis
PACS: 02.50.Sk, 07.05.Ka, 82.80.Ms, 89.75.Kd
DAUGIAMAČIŲ GAUSO SKIRSTINIŲ
ANALIZĖS TAIKYMAS BANDINIŲ KLASIFIKACIJOS KOKYBEI VERTINTI
Petras Serapinas, Žilvinas Ežerinskis, Artūras Acus
Vilniaus universiteto Teorinės fizikos ir astronomijos
institutas, Vilnius, Lietuva
Duomenų klasifikacijos pasikliautinumo lygį
lemia skirstinių persiklojimo laipsnis. Yra daug būdų ir patogių
priemonių vienmačiams skirstiniams analizuoti, tačiau daugiamačių
skirstinių analizė retai taikoma. Straipsnyje pateikiamos lentelės
ir būdai daugiamačių Gauso skirstinių įskaitytajai tikimybei,
kritinei sričiai, klaidingosioms teigiamosioms ir klaidingosioms
neigiamosioms tikimybėms skaičiuoti. Parodoma, kad klaidingosios
teigiamosios ir klaidingosios neigiamosios tikimybių suma yra tik
labai apytikrė klasifikacijos pasikliautinumo charakteristika.
Klaidingoji neigiamoji tikimybė yra lokalizuota skirstinyje, ir
jos vaidmuo duomenų klasifikavimui iš esmės priklauso nuo to, kiek
konkretūs duomenys yra toli nuo tos srities. Pateikiamas pavyzdys,
kaip daugiamačių skirstinių analizė panaudojama vyno bandinių
regioninei klasifikacijai pagal spektrometrinius cheminės analizės
duomenis.
References / Nuorodos
[1] L.A. Berrueta, R.M. Alonso-Salces, and K. Heberger, Supervised
pattern recognition in food analysis, J. Chromatogr. A 1158,
196–214 (2007),
http://dx.doi.org/10.1016/j.chroma.2007.05.024
[2] M. Daszykowski and B. Walczak, Use and abuse of chemometrics in
chromatography, Trends Anal. Chem. 25, 1081–1096 (2006),
http://dx.doi.org/10.1016/j.trac.2006.09.001
[3] A. Gustavo González, Use and misuse of supervised pattern
recognition methods for interpreting compositional data, J.
Chromatogr. A 1158, 215–225 (2007),
http://dx.doi.org/10.1016/j.chroma.2007.02.091
[4] S.F. Møller, J. von Frese, and R. Bro, Robust methods for
multivariate data analysis, J. Chemometrics 19, 549–563
(2005),
http://dx.doi.org/10.1002/cem.962
[5] L. Petersen and K.H. Esbensen, Representative process sampling
for reliable data analysis – a tutorial, J. Chemometrics 19,
625–647 (2005),
http://dx.doi.org/10.1002/cem.968
[6] D. Howel, Multivariate data analysis of pollutant profiles: PCB
levels across Europe, Chemosphere 67, 1300–1307 (2007),
http://dx.doi.org/10.1016/j.chemosphere.2006.11.025
[7] J. Neyman and E.S. Pearson, Joint Statistical Papers
(Cambridge University Press, Cambridge, 1967) p. 99,
http://www.abebooks.com/Joint-Statistical-Papers-Neyman-Pearson-University/16934279469/bd
[8] P. Serapinas, P.R. Venskutonis, V. Aninkevičius, Ž. Ežerinskis,
A. Galdikas, and V. Juzikienė, Step by step approach to
multi-element data analysis in testing the provenance of wines, Food
Chem. 107, 1652–1660 (2008),
http://dx.doi.org/10.1016/j.foodchem.2007.09.003
[9] M. Roesslein, M. Wolf, B. Wampfler, and W. Wegscheider, A
forgotten fact about the standard deviation, Accred. Qual. Assur. 12,
495–496 (2007),
http://dx.doi.org/10.1007/s00769-007-0285-2
[10] Mathematica, Version 5.2 (Wolfram Research, Inc.,
Champaign, IL, 2005),
http://wolfram-mathematica.software.informer.com/5.2/