Skip to content

Repositorio del curso de Datos Masivos I de la Licenciatura en Ciencia de Datos del IIMAS

Notifications You must be signed in to change notification settings

gibranfp/CursoDatosMasivosI

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

78 Commits
 
 
 
 
 
 
 
 

Repository files navigation

Datos Masivos I

Repositorio del curso de Datos Masivos I de la Licenciatura en Ciencia de Datos del IIMAS. El curso aborda los algoritmos y herramientas computacionales básicas para búsqueda y análisis en conjuntos de datos masivos.

Horario

  • Martes de 10:00 a 11:30 AM
  • Miércoles de 14:00 a 16:00 PM
  • Jueves de 10:00 a 11:30 AM

Plataformas

Temario

1. Conceptos básicos

  • Definición y características
  • Generación, procedencia y preparación de datos
  • El principio de Bonferroni
  • Privacidad y riesgo
  • Modelos de computación para datos masivos

2. Modelo de mapeo y reducción

  • Sistema de almacenamiento y procesamiento distribuido
  • Modelo de programación
  • Algoritmos con el modelo de mapeo y reducción
  • Extensiones
  • El modelo costo-comunicación
  • Teoría de la complejidad para el modelo de mapeo y reducción

3. Búsqueda de elementos similares

  • Medidas de similitud y distancia Resúmenes de conjuntos con preservación de similitud
  • Funciones hash sensibles a la localidad
  • Métodos para altos grados de similitud
  • Aplicaciones

4. Algoritmos para flujos de datos

  • Modelos de flujo de datos
  • Muestreo
  • Filtrado
  • Conteo
  • Estimación de momentos
  • Búsqueda de los elementos más comunes

5. Algoritmos de memoria externa

  • Modelo de memoria externa
  • Modelo de caché inconsciente
  • Cotas fundamentales de operaciones de entrada y salida
  • Escaneo
  • Ordenamiento
  • Búsqueda
  • Estructuras de datos estáticos y dinámicos

Bibliografía

  • Jure Leskovec, Anand Rajaraman and Jeffrey D. Ullman. Mining of Massive Datasets. Second Edition. Cambridge University Press, 2014. Liga
  • Charu C. Aggarwal. Data Mining. Springer International Publishing, 2015. Liga
  • Jeffrey Vitter. Algorithms and Data Structures for External Memory. Now Foundations and Trends, 2008. Liga

Criterios de evaluación

  • Proyectos (60%)
  • Tareas (20%)
  • Exámenes (10%)
  • Participación (10%)

Ambiente de programación

En este curso las herramientas de programación que se emplearán son las siguientes:

About

Repositorio del curso de Datos Masivos I de la Licenciatura en Ciencia de Datos del IIMAS

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published