Sumario: | La capacidad de analizar bases de datos de alta dimensionalidad es de fundamental importancia en numerosas actividades productivas y áreas del conocimiento en general. Esto es particularmente cierto en la última década, ya que se observa un fuerte aumento en cantidad y la variedad de datos, facilitado por los últimos avances en hardware y software. Un área central en este crecimiento es el Aprendizaje Automático (AA), rama de las Ciencias de la Computación que estudia algoritmos que aprenden a ejecutar determinadas tareas a partir de ejemplos. Dentro del área de AA, es frecuente hacer uso de algoritmos de reducción de dimensionalidad sobre datos con gran cantidad de variables, con el foco en mejorar la capacidad de dichos algoritmos. En este plan de trabajo tenemos como objetivo general evaluar y cuantificar como diversos métodos de reducción de dimensionalidad impactan en el desempeño de tareas de AA. Para esto, haremos un estudio comparativo sobre cuatro casos de estudio empíricos que representan dos grandes tipos de datos: datos provenientes de simulaciones numéricas y datos relacionados con cohortes, por ejemplo de carácter demográfico o médico. Se compararán algoritmos de reducción de dimensionalidad, en particular no lineales, se identificarán cuales son más adecuados a cada tipo de datos y se cuantificará la mejora en el desempeño de tareas específicas de AA vinculadas a cada caso de estudio.
|