Implementación de técnicas de minería de datos para el análisis de información del atlas sísmico colombiano

Hoy en día, se estima que el crecimiento de información digital es del 60% anual, lo cual indica, que hay gran cantidad de información almacenada en las bases de datos de diferentes entidades y organismos. Sin embargo, permanece oculta mucha información valiosa que al ser identificada y explotada...

Descripción completa

Detalles Bibliográficos
Autores principales: Jaimes Rincón, Johann Manuel, Vergel Criado, Fabio Andrés
Otros Autores: Hernández Cáceres, Javier
Formato: info:eu-repo/semantics/bachelorThesis
Lenguaje:Español
Publicado: Universidad Autónoma de Bucaramanga UNAB 2020
Materias:
Acceso en línea:http://hdl.handle.net/20.500.12749/1403
http://biblioteca-repositorio.clacso.edu.ar/handle/CLACSO/22391
_version_ 1782335500693012480
author Jaimes Rincón, Johann Manuel
Vergel Criado, Fabio Andrés
author2 Hernández Cáceres, Javier
author_facet Hernández Cáceres, Javier
Jaimes Rincón, Johann Manuel
Vergel Criado, Fabio Andrés
author_sort Jaimes Rincón, Johann Manuel
collection Repositorio
description Hoy en día, se estima que el crecimiento de información digital es del 60% anual, lo cual indica, que hay gran cantidad de información almacenada en las bases de datos de diferentes entidades y organismos. Sin embargo, permanece oculta mucha información valiosa que al ser identificada y explotada permite establecer patrones o normas a las empresas, permitiendo reducir costos ó maximizar ganancias y, así mismo, generan un nuevo conocimiento; no obstante, hallar la forma adecuada de extraer este nuevo conocimiento. A nivel nacional, las empresas explotadoras de hidrocarburos son de las más interesadas en extraer nuevo conocimiento de sus bases de datos, como es el caso del ICP (Instituto Colombiano del Petróleo), organismo que en el año 2005, desarrolló el Atlas sísmico colombiano, toda vez que le permitió, almacenar la información sísmica colombiana. En este atlas sísmico reposa gran cantidad de información útil que por medio de las técnicas de minería de datos le proporcionan al ICP poder establece estrategias, normas para minimizar costos y maximizar ganancias y productividad. En este proyecto se implementara un prototipo computacional desarrollado con el cual, se pretenden analizar los datos obtenidos en el atlas sísmicos colombianos que se encuentran almacenados en la base de datos ICP, y poder facilitar el trabajo de análisis de las técnicas sobre grandes volúmenes de datos, en razón de obtener resultados rápidos y confiables.
format info:eu-repo/semantics/bachelorThesis
id clacso-CLACSO22391
institution CLACSO, Repositorio Digital
language Español
publishDate 2020
publisher Universidad Autónoma de Bucaramanga UNAB
record_format greenstone
spelling clacso-CLACSO223912022-03-14T20:13:59Z Implementación de técnicas de minería de datos para el análisis de información del atlas sísmico colombiano Implementation of data mining techniques for the analysis of information from the Colombian seismic atlas Jaimes Rincón, Johann Manuel Vergel Criado, Fabio Andrés Hernández Cáceres, Javier García Díaz, Juan Carlos https://scienti.minciencias.gov.co/cvlac/visualizador/generarCurriculoCv.do?cod_rh=0000817864 Grupo de Investigación Preservación e Intercambio Digital de Información y Conocimiento - Prisma Systems engineering Data mining Electronic data processing Research KDD CRISP Seismic atlas of Colombia Ingeniería de sistemas Minería de datos Procesamiento electrónico de datos Investigaciones Atlas sísmico de Colombia Minería de datos WEKA Hoy en día, se estima que el crecimiento de información digital es del 60% anual, lo cual indica, que hay gran cantidad de información almacenada en las bases de datos de diferentes entidades y organismos. Sin embargo, permanece oculta mucha información valiosa que al ser identificada y explotada permite establecer patrones o normas a las empresas, permitiendo reducir costos ó maximizar ganancias y, así mismo, generan un nuevo conocimiento; no obstante, hallar la forma adecuada de extraer este nuevo conocimiento. A nivel nacional, las empresas explotadoras de hidrocarburos son de las más interesadas en extraer nuevo conocimiento de sus bases de datos, como es el caso del ICP (Instituto Colombiano del Petróleo), organismo que en el año 2005, desarrolló el Atlas sísmico colombiano, toda vez que le permitió, almacenar la información sísmica colombiana. En este atlas sísmico reposa gran cantidad de información útil que por medio de las técnicas de minería de datos le proporcionan al ICP poder establece estrategias, normas para minimizar costos y maximizar ganancias y productividad. En este proyecto se implementara un prototipo computacional desarrollado con el cual, se pretenden analizar los datos obtenidos en el atlas sísmicos colombianos que se encuentran almacenados en la base de datos ICP, y poder facilitar el trabajo de análisis de las técnicas sobre grandes volúmenes de datos, en razón de obtener resultados rápidos y confiables. INTRODUCCIÓN 17 1. MARCO TEORICO 22 1.1 PROCESO DE DESCUBRIMIENTO EN BASES DE DATOS 22 1.1.1 Proceso de KDD 23 1.1.1.1 Base de datos 24 1.1.1.2 Selección 24 1.1.1.3 Pre procesado 24 1.1.1.4 Transformación 24 1.1.1.5 Minería de datos 24 1.1.1.6 Interpretación y Evaluación 25 1.2 MINERÍA DE DATOS 26 1.2.1Proceso de minería de datos 27 1.2.2 Fases de la minería de datos 28 1.2.2.1 Selección 28 1.2.2.2 Preprocesado 29 1.2.2.3 Fases de la minería de datos 29 1.2.2.4 Extraccion de conocimiento 30 1.2.2.5 Evaluación 30 1.2.3 Aplicaciones de la minería de datos 32 1.2.4 Ventajas de la minería de datos 32 1.2.5 Ejemplo de la minería de datos 33 1.3 TÉCNICAS DE MINERÍA DE DATOS 34 1.3.1 Análisis Factorial 35 1.3.1.1 Análisis de componentes principales 38 1.3.1.1.1 Obtención de los componentes Principales 40 1.3.2 Análisis de Clústers 41 1.3.3 Análisis de Regresión 44 1.3.4 Árboles de Decisión 45 1.3.4.1 Árbol C4.5 46 1.3.4.2 Entropía 47 1.3.5 Reglas de asociación 47 1.3.5.1Reglas de asociación Aprioris 48 2. METODOLOGÍA CRISP – DM 50 2.1 PROBLEMA 51 2.2 COMPRENSIÓN DE LOS DATOS 52 2.3 CARACTERIZACIÓN DE LOS DATOS 53 2.4 MODELADO 55 2.4.1 Modelo A 55 2.4.2 Modelo B 57 2.5 ENTRENAMIENTO DE DATOS 58 2.5.1 Entrenamiento de datos 58 2.5.2 Resultados Técnica de Análisis de Regresión 59 2.5.3 Resultados Técnica de Componentes Principales 61 2.5.4 Resultados Técnica de Clústers 66 2.5.5 Resultados Técnica de Arboles de Decisión 68 2.5.5.1 Reglas de decisión 72 2.6 EVALUACIÓN 76 2.6.1 Resultados Técnica de Clústers 80 2.6.2 Resultados aplicando Técnica de Análisis de Regresión 83 2.6.3 Resultados Técnica de Componentes Principales 85 2.6.4Resultados Técnica de Análisis de Regresión 88 2.6.5 Resultados aplicando Técnica de Análisis de Regresión a componentes principales 89 2.6.6 Resultados Técnica de Arboles de Decisión 90 2.6.7 Resultados aplicando Técnica de Arboles de Decisión A componentes principales 96 2.6.8 Resultados aplicando Técnica de Arboles de Decisión Mediante el método de Percentage Split 100 2.7 SOLUCIÓN 104 3. CONCLUSIONES 105 BIBLIOGRAFÍA 109 ANEXOS 114 Pregrado Today, it is estimated that the growth of digital information is 60% per year, which indicates that there is a large amount of information stored in the databases of different entities and organizations. However, a lot of valuable information remains hidden which, when identified and exploited, allows companies to establish patterns or norms, allowing them to reduce costs or maximize profits and, likewise, generate new knowledge; however, find the right way to extract this new knowledge. At the national level, hydrocarbon companies are among the most interested in extracting new knowledge from their databases, such as the ICP (Colombian Petroleum Institute), an organization that in 2005 developed the Colombian Seismic Atlas. every time it allowed him to store the Colombian seismic information. This seismic atlas contains a large amount of useful information that, through data mining techniques, provides the ICP with the power to establish strategies and standards to minimize costs and maximize profits and productivity. This project will implement a computational prototype developed with which, it is intended to analyze the data obtained in the Colombian seismic atlas that are stored in the ICP database, and to facilitate the work of analysis of the techniques on large volumes of data , in order to obtain fast and reliable results. 2020-06-26T17:56:41Z 2020-06-26T17:56:41Z 2008 2022-03-14T20:13:59Z 2022-03-14T20:13:59Z info:eu-repo/semantics/bachelorThesis Trabajo de Grado http://purl.org/coar/resource_type/c_7a1f info:eu-repo/semantics/acceptedVersion http://purl.org/redcol/resource_type/TP http://hdl.handle.net/20.500.12749/1403 instname:Universidad Autónoma de Bucaramanga - UNAB reponame:Repositorio Institucional UNAB http://biblioteca-repositorio.clacso.edu.ar/handle/CLACSO/22391 spa Jaimes Rincón, Johann Manuel, Vergel Criado, Fabio Andrés, Hernández Cáceres, Javier (2008). Implementación de técnicas de minería de datos para el análisis de información del atlas sísmico colombiano. Bucaramanga (Colombia) : Universidad Autónoma de Bucaramanga UNAB About EMC: Leadership and Innovation: The Digital Universe. [Online]. [Visitada Marzo 16 de 2008]. Disponible en Internet: <http://www.emc.com/digital_universe Análisis Multivariados, Dr. Roberto Mercado Hernandez. [Online]. [Visitada en Octubre de 2007] Disponible en Internet <www.feoc.ugto.mx/super/obtenga/D0003.ppt >. Aplicación de técnicas de minería de datos en la construcción y validación de modelos predictivos y asociativos a partir de especificaciones de requisitos de software. [Online]. [Visitada en Octubre de 2007] .Disponible en Internet:< www.sc.ehu.es/jiwdocoj/remis/docs/minerw.pdf >. Arboles de clasificación. [Online]. [Visitada en Octubre de 2007].Disponible en Internet: < http://math.uprm.edu/~edgar/treeDaza.html >. Bienvenidos: ECOPETROL: Disponible en internet. [Online]. [Visitada Agosto 21 de 2007]. Disponible en Internet: <http://www.ecopetrol.com.co/Informe_Anual/....htm >. DAEDALUS - Proceso de minería de datos. Disponible en internet. ? [Online]. [Visitada Septiembre de 2007]. Disponible en Internet: URL: < http://www.daedalus.es.../datos >. Data Mining – Enfoque [Online]. [Visitada Septiembre 11 de 2007]. Disponible en Internet: < http://datamining.iespana.es/dataminig_enfoque.htm >. Data Mining & Knowledge Discovery in Databases (KDD). [Online]. [Visitada Octubre 3 de 2007]. Disponible en Internet: <http://elvex.ugr.es/etexts/spanish/kdd/KDD.html > Descubrimiento de Conocimiento en Bases de Datos [Online]. [Visitada Septiembre 11 de 2007]. Disponible en Internet: < exa.unne.edu.ar/depar/areas/informatica/SistemasOperativos/ MonografiaMD.PDF El análisis de Regresión – Joaquín Aldás Manzano. El Análisis Factorial. [Online]. [Visitada en Diciembre de 2007] Disponible en Internet: URL: < www.ciberconta.unizar.es/.../.pdf >. eGobierno e Innovación Gubernamental. [Online]. [Visitada Septiembre 11 de 2007]. Disponible en Internet:< www.tidap.gob.mx/enc_dataw/JulioVargasdwh.ppt >. Formación y prevención de riesgos laborales: Bases para la adquisición de una cultura preventiva en los centros educativos. [Online]. [Visitada en Diciembre de 2007] Disponible en Internet:< http://hera.ugr.es/tesisugr/17116788.pdf >. HERNÁNDEZ ORALLO. Introducción a la Minería de Datos. 2005. Editorial Pearson, Informática y Salud.BIOCHIPS Y BIOINFORMÁTICA [Online]. [Visitada Septiembre 11 de 2007]. Disponible en Internet: <http://www.conganat.org/SEIS/i_s/i_s25/i_s25_1.htm >. Mati – Minería de datos. ¿Para qué nos sirve en una publicación digital? [Online]. [Visitada Septiembre 11 de 2007]. Disponible en Internet:< http://www.mati.unam.mx/...51> Métodos Estadísticos de Clasificación. [Online]. [Visitada en Octubre de 2007]. Disponible en Internet:< http://www.seh-lelha.org/clasifica.htm >. Minería de datos inteligente [Online]. [Visitada Septiembre 11 de 2007]. Disponible en Internet: < http://www.itba.edu.ar...datos.htm > Minería de datos para control de robots. [Online]. [Visitada Octubre 27 de 2007]. Disponible en Internet:< http://www.daedalus.es/...Robotica.pdf > OHRN, A. 1999. “Discernibility and Rough Sets in Medicine: Tools and Applications”, Department of Computer and Information Science, Norwegian University of Science and Technology, N-7941 Trondheim, Norway Principal – Tipos de técnicas Multivariantes. [Online]. [Visitada en Octubre de 2007]. Disponible en Internet: < http://www.virtual.unal.edu.co/.../tiposmulti.htm Quality Control for the Manufacturing of Industrial Materials. [Online]. [Visitada Octubre 27 de 2007] Disponible en Internet: < http://www.daedalus.es/...I.php > Red Española de Minería de Datos y Aprendizaje. [Online]. [Visitada Septiembre 11 de 2007]. Disponible en Internet: http://www.lsi.us.es/redmidas/ Reglas de asociación aplicadas a la detección de fraudes con tarjetas de crédito. [Online]. [Visitada en Octubre de 2007]. Disponible en Internet:<www.ucu.edu.uy/.../.pdf > The Expanding Digital Universe. [Online]. [Visitado en Marzo 16 de 2008]. Disponible en Internet: < http://www.emc.com/.../Expanding...022507.pdf > Universidad de Salamanca. Departamento de Informática y Automática. [Online]. [Visitada Octubre 27 de 2007]. Disponible en Internet:< www.sc.ehu.es/jiwdocoj/remis/docs/minerw.pdf > Universidad de Antioquia – Facultad de Ingenieria electronica[Online]. [Visitada Octubre 27 de 2007]. Disponible en Internet: < http://electronica.udea.edu.co/...pdf Uso del método de análisis de componentes principales para la caracterización de fincas agropecuarias. [Online]. [Visitada en Octubre de 2007]. Disponible en Internet: < www.ceniap.gov.ve/.../htm >. WOLFF Carmen Gloria. La Tecnología Datawarehousing. 1999 [online, Articulo]. [Citado el 27 de agosto 2006]. Disponible en Internet: <http://www.inf.udec.cl/revista/ediciones/edicion3/cwolff.PDF> p. 2. http://creativecommons.org/licenses/by-nc-nd/2.5/co/ Abierto (Texto Completo) info:eu-repo/semantics/openAccess http://purl.org/coar/access_right/c_abf2 Atribución-NoComercial-SinDerivadas 2.5 Colombia application/pdf application/pdf Bucaramanga (Colombia) Colombia Universidad Autónoma de Bucaramanga UNAB Facultad Ingeniería Pregrado Ingeniería de Sistemas
spellingShingle Systems engineering
Data mining
Electronic data processing
Research
KDD
CRISP
Seismic atlas of Colombia
Ingeniería de sistemas
Minería de datos
Procesamiento electrónico de datos
Investigaciones
Atlas sísmico de Colombia
Minería de datos
WEKA
Jaimes Rincón, Johann Manuel
Vergel Criado, Fabio Andrés
Implementación de técnicas de minería de datos para el análisis de información del atlas sísmico colombiano
title Implementación de técnicas de minería de datos para el análisis de información del atlas sísmico colombiano
title_full Implementación de técnicas de minería de datos para el análisis de información del atlas sísmico colombiano
title_fullStr Implementación de técnicas de minería de datos para el análisis de información del atlas sísmico colombiano
title_full_unstemmed Implementación de técnicas de minería de datos para el análisis de información del atlas sísmico colombiano
title_short Implementación de técnicas de minería de datos para el análisis de información del atlas sísmico colombiano
title_sort implementación de técnicas de minería de datos para el análisis de información del atlas sísmico colombiano
topic Systems engineering
Data mining
Electronic data processing
Research
KDD
CRISP
Seismic atlas of Colombia
Ingeniería de sistemas
Minería de datos
Procesamiento electrónico de datos
Investigaciones
Atlas sísmico de Colombia
Minería de datos
WEKA
url http://hdl.handle.net/20.500.12749/1403
http://biblioteca-repositorio.clacso.edu.ar/handle/CLACSO/22391