Minería de datos utilizando software libre

Objetivos:

Los objetivos del curso son los siguientes:

  • El alumno dominara el concepto de minería de datos
  • El alumno será capaz de aplicar toda la metodología de minería de datos (Metodología usada en el curso KDD)
  • El alumno sabrá aplicar la preparación de los datos antes de realizar la identificación de patrones en la minería de datos
  • El alumno sabrá escoger y comprender el algoritmo de minería de datos más apropiado para todo tipo de  problemas  
  • El alumno sabrá aplicar la herramienta WEKA para poder implementar una solución basada en la minería de datos
  • El alumno lograra hacer un análisis de minería de datos en cualquier empresa nacional.

Contenido

En este curso se encuentra esquematizado y desarrollado de tal forma que permite a los alumnos inscritos en el mismo desarrollar las competencias necesarias para el desarrollo de la tecnología de minería de datos en cualquier empresa nacional sin importar el rubro en el que la empresa se encuentre. En este curso se expone un caso 100 por ciento real de una empresa que se desarrolla en el rubro de la compra y venta de equipos informáticos llamada ONLY específicamente será analizada el área de Facturación de la misma
En el presente curso se incide en los siguientes puntos:

  • Que es la minería de datos
  • El proceso del descubrimiento de conocimiento
  • Recopilación y almacenes de datos
  • Limpieza y Transformación
  • Exploración y Selección
  • El problema de la extracción de patrones
  • Modelización estadística paramétrica
  • Modelización estadística no paramétrica
  • Reglas de Asociación y Dependencia
  • Arboles de decisión y sistemas de reglas
  • Redes Neuronales Artificiales 

Durante el desarrollo del curso se utilizara la herramienta bajo licencia libre más avanzada llamada WEKA.
En el curso se realizaran laboratorios usando la herramienta WEKA para cubrir los principales algoritmos aplicados de la minería de datos, como son los siguientes:

  • Regresión
  • Asociación
  • Clasificación
  • Redes Neuronales

 

Prerequisitos

Conocimientos Básicos de Bases de Datos

Duración

El curso dura 24horas

Material

Se entregara una manual de 120 páginas que cubre todo el contenido teórico y práctico del curso

Sílabo

Sección I: Que es la minería de Datos

  • Nuevas Necesidades
  • El concepto de Minería de Datos
  • Ejemplos de Minería de Datos
  • Tipos de Datos
  • Tipos de Modelos
  • La minería de Datos y el proceso de descubrimiento de conocimientos en bases de datos
  • Relación con otras disciplinas
  • Aplicaciones
  • Sistemas y Herramientas de Minería de Datos

 

Sección II: El proceso de extracción del conocimiento

  • Las fases del proceso de extracción de conocimiento
  • Fase de Integración y recopilación
  • Fase de selección, limpieza y transformación
  • Fase de minería de datos
  • Fase de evaluación e interpretación
  • Fase de difusión, uso y monitorización  

 

Sección III: Recopilación, Almacenes de Datos

  • Introducción
  • Necesidades de los Almacenes de Datos
  • OLTP y OLAP
  • Almacenes de Datos y bases de datos Transaccionales
  • Arquitectura de los Almacenes de Datos
  • Modelo Multidimensional
  • Datamarts
  • Exploración de un Almacén de Datos. Operadores
  • Implementación del Almacén de Datos. Diseño
  • Carga y Mantenimiento del Almacén de Datos
  • Almacenes de Datos y Minería de Datos 

 

Sección IV: Limpieza y Transformación

  • Introducción
  • Integración y Limpieza de Datos
  • Integración
  • Reconocimiento
  • Valores Faltantes
  • Valores Erróneos, Detección de valores anómalos
  • Transformación de atributos. Creación de Características
  • Reducción de dimensionalidad por transformación
  • Otros métodos de reducción de dimensionalidad
  • Aumento de la dimensionalidad por transformación o construcción
  • Aumento de la dimensionalidad mediante núcleos
  • Creación de Características
  • Discretizacion y Numerizacion
  • Normalización de rango: escalado y centrado   

 

Sección V: Exploración y Selección

  • Introducción. El contexto de la vista minable
  • Reconocimiento del Dominio y de los usuarios
  • Reconocimiento y exploración de los datos
  • Exploración mediante visualización
  • Sumarizacion, descripción, generalización y pivotamiento
  • Selección de datos
  • Técnicas de Muestreo
  • Selección de características relevantes. Reducción de Dimensionalidad
  • Lenguajes, primitivas e interfaces de minería de datos  

 

Sección VI: El problema de la extracción de patrones

  • Introducción
  • Tareas y Métodos
  • Métodos. Correspondencias entre tareas y métodos
  • Minería de Datos y aprendizaje inductivo
  • Los patrones son hipótesis. Evaluación
  • Métodos retardados y anticipativos. Comprensibilidad
  • La eficiencia del Aprendizaje
  • El lenguaje de los patrones, Expresividad
  • Que expresividad es necesaria? SubAjuste y SobreAjuste
  • Medidas de Separabilidad
  • Técnicas para aumentar la expresividad
  • Breve comparación de métodos 

 

Sección VII: Modelización estadística paramétrica

  • Concepto de modelización estadística
  • Modelo de Regresión
  • Regresión Lineal
  • Estimación de la función de Regresión Lineal
  • Significación de los regresores
  • Medidas de la bondad del modelo de regresión
  • Selección de las variables del modelo
  • Modelos de regresión sobre componentes incorrelacionados
  • Modelos de regresión con variables categóricas
  • Análisis de residuo
  • Ejemplo: Aplicación a los datos SERVO
  • Sistemas, aplicabilidad y recomendaciones de uso

 

Sección VIII: Modelización estadística no paramétrica

  • Introducción
  • Regresión no paramétrica
  • Estimadores núcleo y ajuste local de polinomios
  • Elección del parámetro de suavizado
  • Conclusiones, aplicabilidad y sistemas

 

Sección IX: Reglas de asociación y dependencia

  • Introducción
  • Reglas de Asociación
  • Reglas de dependencia
  • Reglas de asociación multinivel
  • Reglas de asociación secuenciales

 

Sección X: Arboles de decisión y sistemas de reglas

  • Introducción
  • Sistema por partición; arboles de decisión para clasificación
  • Particiones posibles
  • Criterio de selección de particiones
  • Poda y reestructuración
  • Sistemas, aplicabilidad y recomendaciones de uso 

 

Sección XI: Redes Neuronales Artificiales

  • Introducción
  • Neuronas biológicas y artificiales
  • El aprendizaje en las redes neuronales artificiales
  • Aprendizaje supervisado en RNA
  • Perceptron simple y Adaline
  • Función de activación
  • Aplicaciones y Ejemplo
  • Aprendizaje no supervisado en RNA
  • Aprendizaje de Hebb
  • Aprendizaje competitivo
  • Sistemas, aplicabilidad y recomendaciones de uso 

Pasos para registrarse

Paso 1: Acérquese al módulo de informes en la sede central de sistemasuni, consulte por el curso y solicite una orden de pago, para el pago en caja

Paso 2: Vaya a caja de al Facultad de Ingeniería Industrial y Sistemas (que esta a unos metros), con la orden de pago haga la cancelación del curso.

Paso 3: Con el recibo sellado por caja acérquese nuevamente al módulo de informes para que se efectúe el registro en el curso.

 

Consultas

 

“La imaginación es más importante que el conocimiento. El conocimiento es limitado, mientras que la imaginación no”

 

Albert Einstein










 

CENTRAL - UNI
Universidad Nacional de Ingeniería
Av. Túpac Amaru 210 - Rimac
Alt. Puerta 5 de la UNI
Teléfonos: Directo: 381-3851 - 382-4832 Central 4811070 Anexos: 569- 408
SAN BORJA
Av. Rosa Toro 1111
Alt. Cdra. 31 Javier Prado Este
Telefono 346-0005 346-4486