Selección de variables para datos multivariados y datos funcionales

Gimenez, Yanina

Registro completo de metadatos

Campo DC	Valor	Lengua/Idioma
dc.provenance	Facultad de Ciencias Exactas y Naturales de la UBA	-
dc.contributor	Fraiman, Ricardo	-
dc.contributor	Gimenez, Yanina	-
dc.creator	Gimenez, Yanina	-
dc.date.accessioned	2018-05-04T22:05:44Z	-
dc.date.accessioned	2018-05-28T16:53:38Z	-
dc.date.available	2018-05-04T22:05:44Z	-
dc.date.available	2018-05-28T16:53:38Z	-
dc.date.issued	2015-03-27	-
dc.identifier.uri	http://10.0.0.11:8080/jspui/handle/bnmm/75200	-
dc.description	El problema de selección de variables es en la actualidad una de las principales áreas de investigación en la estadística. Si bien esta temática comenzó a analizarse en la década del 70, en los últimos a˜nos ha tenido un desarrollo explosivo, asociado a problemas de alta dimensión (high dimensional data) y de enormes bases de datos (big data). Estos desarrollos están vinculados fundamentalmente a los avances tecnológicos provenientes de problemas en biología, genética, meteorología, entre otras disciplinas. En esta tesis trabajamos en el problema de selección de variables en diversos modelos estadísticos (regresión, clasificación, componentes principales, entre otros) para datos multivariados y para datos funcionales. Buscamos identificar un peque˜no conjunto de variables que explique del mejor modo posible, mediante relaciones no paramétricas, el modelo en cuestión. Típicamente al analizar datos multivariados surgen dos tipos de problemáticas. Por un lado, encontramos variables no informativas, por otra parte, las variables suelen no ser independientes. El objetivo de esta tesis es entender la estructura interna de los datos asociados a cada modelo. Para realizarlo extendemos las ideas introducidas en Fraiman et al. (2008). Primero damos una propuesta para seleccionar variables en el problema de componentes principales. Luego, introducimos una técnica general de selección de variables para datos multivariados. Estudiamos esta segunda propuesta para los modelos de regresión lineal, modelo lineal generalizado, componentes principales y correlación canónica. En todos los casos obtenemos resultados de consistencia. Mediante simulaciones describimos el comportamiento de los procedimientos presentados, realizamos comparaciones con otros métodos existentes e ilustramos con ejemplos de datos reales. Finalmente extendemos las ideas del método propuesto a datos funcionales. En este caso no es razonable considerar las variables coordenadas como en el caso finito dimensional. Para ello, proponemos hacer la selección de un conjunto de funciones conocidas, {f1,...,fp} de las trayectorias, a valores reales. Dicho conjunto de funciones se seleccionan de acuerdo al problema a tratar. Hacemos diferentes propuestas de conjuntos que son adecuados para distintos problemas. El objetivo es seleccionar un peque˜no subconjunto, {fi1,...,fid} , contenido en {f1,...,fp} que sea el que describa mejor el resultado del modelo estadístico aplicado. Damos una propuesta para los casos de clasificación, componentes principales y para el modelo lineal funcional con respuesta escalar y con respuesta funcional. En cada caso estudiamos resultados de consistencia.	-
dc.description	The study of variable selection problems in several statistical procedures is now a mainstream research area. These kind of problems have first been tackled in the 70’s. As a result of the enormous technological advances it has become during the last years an enormous challenge, associated with high dimensional and big data problems. Biological, genetic, meteorological problems, among others, can be addressed from this perspective. We herein introduce a general procedure for selecting variables, which can be applied to several classical multivariate and functional problems. We seek to identify a small subset of the original variables that can better explain, through nonparametric relationships, the model concerned. The method typically yields some noisy uninformative variables and some variables that are strongly related because of general dependence. The aim of this work is to help understand the underlying structures of a given data set. We extend the ideas introduced by Fraiman et al. (2008). The thesis has three main chapters. First, we introduce a procedure for variable selection for principal components. Then, we study a general procedure for variable selection for multivariate data. We study these techniques for linear regression models, generalize linear models, principal components and canonical correlation. The asymptotic behavior of the proposed methods are analyzed. Simulations describing the behavior of the new procedures have been carried out and comparisons with several well known variable selection procedures had also been done. In addition, we also illustrate the performance of the procedure analyzing several real data examples. Finally, we extend the ideas of the method to functional data framework. In this case it makes not sense to consider the coordinates of the variables, as in the finite dimensional case. Hence, we propose to select, from a set of known functions {f1,...,fp,fi : L²[a,b] → R}, a subset of them. The group of function should be selected in relation with the statistical model. The final goal is to keep a subset of function {fi1,...,fid} from {f1,...,fp} that better explain the model. We study the cases of classification, principal components and linear regression with scalar and functional response. In each case the asymptotic behavior of the proposed method has been studied.	-
dc.description	Fil:Gimenez, Yanina. Universidad de Buenos Aires. Facultad de Ciencias Exactas y Naturales; Argentina.	-
dc.format	application/pdf	-
dc.language	spa	-
dc.publisher	Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires	-
dc.rights	info:eu-repo/semantics/openAccess	-
dc.rights	http://creativecommons.org/licenses/by/2.5/ar	-
dc.source.uri	http://digital.bl.fcen.uba.ar/gsdl-282/cgi-bin/library.cgi?a=d&c=tesis&d=Tesis_5705_Gimenez	-
dc.subject	VARIABLE SELECTION	-
dc.subject	REGRESSION	-
dc.subject	PRINCIPAL COMPONENT ANALYSIS	-
dc.subject	CLASSIFICATION	-
dc.subject	MULTIVARIATE DATA	-
dc.subject	FUNCTIONAL DATA	-
dc.subject	SELECCION DE VARIABLES	-
dc.subject	REGRESION	-
dc.subject	COMPONENTES PRINCIPALES	-
dc.subject	CLASIFICACION	-
dc.subject	DATOS MULTIVARIADOS	-
dc.subject	DATOS FUNCIONALES	-
dc.title	Selección de variables para datos multivariados y datos funcionales	-
dc.title	Variable selection for multivariate data and functional data	-
dc.type	info:eu-repo/semantics/doctoralThesis	-
dc.type	info:ar-repo/semantics/tesis doctoral	-
dc.type	info:eu-repo/semantics/publishedVersion	-
Aparece en las colecciones:	FCEN - Facultad de Ciencias Exactas y Naturales. UBA

Ficheros en este ítem:

No hay ficheros asociados a este ítem.

Mostrar el registro sencillo del ítem