CEUPE

"Nuestra Maestría en Data Science es de referencia internacional, escogida por empresas Multinacionales y Gobiernos como la más completa en su categoría"

InicioData MiningLa guía definitiva de la Data Mining

La guía definitiva de la Data Mining

En el mundo actual, la Data Mining (minería de datos) es una tecnología de rápido crecimiento, en donde uno de los objetos más importantes y valiosos son los datos.

SOLICITA MÁS INFORMACIÓN DE LA MAESTRÍA EN DATA SCIENCE

Maestría Online en Data Science

    RECIBE EN TU EMAIL:

    El precio y facilidades de pago.
    Postulación a la BECA 65% dcto.
    Complementos: Curso de idiomas GRATIS (Sólo por pago único) + Networking Profesional.

    Acreditaciones Master DataScience

    En el mundo actual, la Data Mining (minería de datos) es una tecnología de rápido crecimiento, en donde uno de los objetos más importantes y valiosos son los datos. Dichos datos pueden proceder de múltiples fuentes y algunos tipos de estos son desestructurados y sin clasificar.

    Por esta razón, tienes que convertir estos datos desestructurados y desordenados en algunos datos significativos para poder obtener patrones útiles, válidos y ocultos. Todo ello para que puedas descubrir relaciones desconocidas entre diferentes atributos ocultos en los datos. Pero, ¿cómo puedes hacer esto? Pues bien, aquí es donde entra en juego la Data Mining

    ¿En qué consiste la Data Mining?

    En términos sencillos, la minería significa extraer objetos ocultos, por ello, en términos informáticos y de tecnología, la Data Mining significa encontrar patrones ocultos de los datos. Se hace esta operación para extraer información significativa de ellos.

    Puedes tomar como ejemplo para entender la Data Mining, tu propio correo Gmail. Todo el mundo sabe que Gmail tiene una función que localiza el correo no deseado y lo envía directamente a la carpeta de spam de forma automática ¿Has pensado alguna vez que Google tiene ideas o supone algo sobre esos correos? Pues hay una manera como Google entiende que esos correos son clasificados como spam.

    Para empezar, el gigante tecnológico Google dispone de cantidades masivas e ilimitadas de datos para entrenar su modelo. De esta manera, puede detectar el correo clasificado como spam. Antes de empezar a hacer el modelo, van a ir primero por las técnicas de data mining para entender los datos y encontrar patrones ocultos en ellos. Pero, ¿cuáles son esos patrones de datos?

    Si alguna vez te has fijado, todos los correos clasificados como spam tienen algunas palabras clave que son comunes; tales como:

    • Lotería.
    • Algunos enlaces propensos a contener virus.
    • Regalos gratis.
    • Esquemas fraudulentos.
    • Promesas de dinero.
    • Descuentos.

    De esta manera, si tus correos contienen alguno de estos tipos de palabras clave, entonces Google pone directamente esos correos en las carpetas de spam.

    Echa un vistazo a otro ejemplo de Data Mining

    Del mismo modo, puedes tomar un ejemplo para encontrar las estafas, a través de las transacciones en línea. Para detectar la transacción fraudulenta, tienes que entender los datos y el patrón oculto, obviamente.

    Dicho esto, puedes suponer que una persona recibe de repente un mensaje del banco diciendo que ha gastado X cantidad de dinero en París para comprar joyas. Pero en su historial, dicha persona nunca había estado en París y mucho menos compró algo de esa cantidad de dinero. 

    Pues bien, es en este caso en donde entran las técnicas de Data Mining para ayudar a encontrar los patrones de todo el historial de importes y ubicaciones de las transacciones pasadas. El modelo debería ser capaz de entender y detectar que dicha transacción no fue realizada por el propietario de la tarjeta. De esta manera funcionan las aplicaciones más potentes de esta disciplina.

    ¿Cuáles son los tipos de Data Mining?

    A estas alturas, ya tienes un panorama claro acerca del data mining. Pero es conveniente saber que no es una disciplina de un solo concepto, ya que puede dividirse en varios tipos y cuáles tipos de datos puede extraer esta tecnología.

    Base de datos relacional

    Si los datos ya están en una base de datos, pueden ser minados sin problemas. Pero, ¿qué es una base de datos? Pues bien, la base de datos es un sistema donde se pueden almacenar y gestionar los datos sin esfuerzo manual.

    Ahora, son bien conocidas las Bases de Datos Relacionales, el cual es también un tipo de Sistema de Gestión de Bases de Datos (DBMS o SGBD). Donde se define un tipo de relación entre los datos que están almacenados en estas bases de datos. Esta relación ayuda a almacenar, gestionar y recuperar los datos de la base de datos de manera sencilla.

    Almacenes de datos

    El almacenamiento de datos es una manera de recoger dichos datos desde varias fuentes y así  encontrar los requisitos de negocio significativos. En otras palabras, ayuda a encontrar y cumplir con los requisitos de negocio mediante el procesamiento de los datos no estructurados.

    Las técnicas de data warehousing (almacén de datos) trabajan sobre diversos tipos de datos, fuentes y los recursos que se utilizan para obtenerlos, tales como los datos estructurados, semiestructurados y los datos no estructurados. Del mismo modo, los datos semiestructurados y no estructurados se procesan, transforman y se recopilan.

    Para que los usuarios tengan acceso a los datos que han sido procesados, se utilizan algunas herramientas conocidas de Business Intelligence. Así como también, métodos de clientes SQL y hojas de cálculo. Ahora bien, la técnica de la Data Warehouse, hace que coincida la información que procede de diversas fuentes. Todo ello desde una base de datos completa.

    Además, el almacén de datos ayuda a disponer de una base de datos correctamente estructurada para que una empresa pueda analizar a sus clientes con mayor precisión. Así, todo este proceso garantiza la extracción de toda la información y de esta manera, el almacén de datos completa el proceso de Data Mining.

    Repositorios de datos

    Como su nombre lo indica, los repositorios de datos son espacios definidos, donde se pueden almacenar todos los datos cruciales para procesarlos posteriormente. En otras palabras, un repositorio de datos se refiere al sistema de almacenamiento de datos que se utiliza en una organización para el análisis y procesamiento de datos en información.

    Base de datos objeto – relacional

    Este tipo de bases de datos se refieren a una agrupación y mezcla de bases de datos orientadas. Así como también, a objetos y modelos de bases de datos relacionales. Estos sistemas soportan todas las particularidades de los conceptos orientados a objetos (OOPS, por sus siglas en inglés). De esta manera, uno de los principales enfoques de este método, es establecer una especie de puente entre la base de datos relacional y el modelo orientado a objetos.

    Base de datos transaccional

    Normalmente, las bases de datos transaccionales se usan para la gestión de toda la información sobre transacciones que se hacen en sitios web. Por ejemplo, cuando quieres contar la cantidad de clics del sitio web de tu negocio. Entre ellos se encuentran los clics de: las reservas de vuelos, reservas de hotel y cualquier tipo de compra.

    Todas las transacciones tienen un número de identificación. El cual es único para obtener la información adecuada de los datos. Por ello, una base de datos transaccional contiene diversa información relacionada con las transacciones en línea. La aplicación de la Data Mining en esta base de datos se traduce en la detección de fraudes con tarjetas de crédito.

    ¿Cuál es el ciclo de vida del proceso de Mata Mining?

    Como todo proceso, concepto, disciplina o tecnología, la Data Mining consta de una serie de fases que permiten su aplicación y desarrollo. Del mismo modo, también se le llama ciclo de vida. A continuación, verás de lo que trata el ciclo de vida de la Data Mining.

    1. Entendimiento del negocio

    Antes de entrar en cualquier procedimiento, tienes que tener una visualización completa y clara del entendimiento de tu empresa y negocio. Entonces, ¿qué es el entendimiento del negocio? El entendimiento o comprensión del negocio significa ampliar el destino y los requisitos previos. A través del punto de vista de los objetivos de la empresa.

    Igualmente, esta fase te ayuda a comprender lo que se necesita para llegar a su destino y así, resolver el problema. El objetivo principal de esta fase es comprender los objetivos y las condiciones del proyecto. Esto desde una perspectiva netamente comercial. Después de esto, hay que convertir esos conocimientos en una definición del problema de Data Mining. Por ello, se diseña un plan básico para alcanzar los objetivos trazados.

    2. Comprensión de los datos

    Uno de los pasos más importantes es tener un entendimiento claro de los datos. Esta fase comienza con la recopilación de los datos y continúa con actividades para que te familiarices con los datos que se han recopilado. Ya sea para identificar los problemas de calidad de los datos, determinar los primeros conocimientos de los datos o detectar subconjuntos interesantes. De esta forma, se pueden formar hipótesis de información oculta.

    3. Modelización y preparación de los datos

    Después de recopilar y procesar todos los datos, se aplican varias técnicas de modelado. Acto seguido, a través de la extracción de características, se encuentran los atributos de mayor relevancia de los datos. Para aplicarlos en diferentes modelos de procesamiento.

    Extracción de características

    Una de las partes más importantes antes de construir el modelo, es la extracción de características propias. Así pues. Se puede asumir cuáles características son la base de un modelo. Estas características van a definir cómo va a funcionar el modelo de Data Mining. Por lo tanto, tienes que escoger muy bien todas las características.

    Del mismo modo, la clasificación de particularidades se usa para borrar las que añaden más “ruido” (información no relevante ni importante) que información. Esta clasificación se ejecuta para evitar la temida dimensionalidad. Que es la razón de la complejidad del modelo que se quiere aplicar.

    Entrenar el modelo

    Primero, vas a entender esta situación con un ejemplo. Debes suponer que estás haciendo un plato y tienes todos los ingredientes preparados. Ahora, hay que mezclarlos bien y hornear la preparación. Entrenar el modelo es lo mismo que hornear el plato que vas a hacer. Ahora bien, solo tienes que pasar los datos en el algoritmo correcto para entrenar tu modelo.

    4. Evaluación

    En esta fase, ya has construido el modelo o los modelos, según el caso. Antes de la implementación final del modelo, es importante evaluarlo completamente. Tienes que asegurarte de que tu modelo tiene esas cualidades determinadas para lograr los requisitos empresariales y los objetivos propuestos.  

    5. Despliegue o explotación

    La creación y evaluación del modelo no es el final del proceso de Data Mining. Tienes que estar seguro, desde cada perspectiva posible, de que tu modelo aprende correctamente de los datos y cumple todos los objetivos que has propuesto. Por último, tras el informe que se genera, puedes desplegar el modelo en la nube para tus clientes habituales. El proceso de minería de datos es complejo, pero puede aportar innumerables beneficios a tu organización ¿Quieres extraer todos los datos relevantes? Puedes hacerlo mediante el Máster en Data Science.

    ¡Comparte!

    ¡Déjanos tu comentario!

    Dejar respuesta

    Please enter your comment!
    Please enter your name here

    Este sitio está protegido por reCAPTCHA y se aplican la política de privacidad y los términos de servicio de Google.

    Te puede interesar 👇

    SOLICITA MÁS INFORMACIÓN

    Maestría Online en Data Science

    Completa este formulario y recibe un 8% de descuento adicional (por pago único) + Beca del 65% de descuento.

      RECIBE EN TU EMAIL:

      El precio y facilidades de pago. Postulación a la BECA 65% dcto. Complementos: Curso de idiomas GRATIS (Sólo por pago único) + Networking Profesional.