Repositorio del curso de Datos Masivos I de la Licenciatura en Ciencia de Datos del IIMAS. El curso aborda los algoritmos y herramientas computacionales básicas para búsqueda y análisis en conjuntos de datos masivos.
- Martes de 10:00 a 11:30 AM
- Miércoles de 14:00 a 16:00 PM
- Jueves de 10:00 a 11:30 AM
1. Conceptos básicos
- Definición y características
- Generación, procedencia y preparación de datos
- El principio de Bonferroni
- Privacidad y riesgo
- Modelos de computación para datos masivos
2. Modelo de mapeo y reducción
- Sistema de almacenamiento y procesamiento distribuido
- Modelo de programación
- Algoritmos con el modelo de mapeo y reducción
- Extensiones
- El modelo costo-comunicación
- Teoría de la complejidad para el modelo de mapeo y reducción
3. Búsqueda de elementos similares
- Medidas de similitud y distancia Resúmenes de conjuntos con preservación de similitud
- Funciones hash sensibles a la localidad
- Métodos para altos grados de similitud
- Aplicaciones
4. Algoritmos para flujos de datos
- Modelos de flujo de datos
- Muestreo
- Filtrado
- Conteo
- Estimación de momentos
- Búsqueda de los elementos más comunes
5. Algoritmos de memoria externa
- Modelo de memoria externa
- Modelo de caché inconsciente
- Cotas fundamentales de operaciones de entrada y salida
- Escaneo
- Ordenamiento
- Búsqueda
- Estructuras de datos estáticos y dinámicos
- Jure Leskovec, Anand Rajaraman and Jeffrey D. Ullman. Mining of Massive Datasets. Second Edition. Cambridge University Press, 2014. Liga
- Charu C. Aggarwal. Data Mining. Springer International Publishing, 2015. Liga
- Jeffrey Vitter. Algorithms and Data Structures for External Memory. Now Foundations and Trends, 2008. Liga
- Proyectos (60%)
- Tareas (20%)
- Exámenes (10%)
- Participación (10%)
En este curso las herramientas de programación que se emplearán son las siguientes: