912 171 879
Buscador de Cursos & Artículos
Categorías
DENOMINACIÓN
Procesamiento de datos para su uso en sistemas de Inteligencia Artificial basados en aprendizaje automático
CÓDIGO
MF2492_3
DESCRIPCIÓN
Módulo formativo MF2492_3: Procesamiento de datos para su uso en sistemas de Inteligencia Artificial basados en aprendizaje automático
DURACIÓN
150 horas
CAPACIDADES Y CRITERIOS DE EVALUACIÓN
C1: Aplicar técnicas de extracción de datos de las fuentes, previa identificación y clasificación de las mismas, estableciendo el filtrado inicial y configurando pasarelas que permitan su acceso para su posterior carga y análisis.
CE1.1 Identificar las fuentes de datos y conocimiento, clasificándolas:
‐ Según su origen: sistemas gestores de datos, sistemas IoT, plataformas de datos en ‘streaming’, integración con APIs u otro.
‐ Según su naturaleza: estructuradas o no estructuradas,
‐ Según sean formales, tales como las provenientes de fuentes jurídicas o bien no formales, como audios, imágenes o textos provenientes de redes sociales.
CE1.2 Describir tipos de filtros y consultas para la extracción de datos, explicando su funcionalidad.
CE1.3 Describir procedimientos de manejo de datos masivos y de mejora de tiempos de proceso de los mismos, tales como el proceso cercano a las fuentes en el caso de fuentes de datos distribuidas, explicando sus mecanismos de funcionamiento.
CE1.4 Describir tipos de pasarelas de conexión, identificando mecanismos de configuración y conexión.
CE1.5 En un supuesto práctico de extracción de datos de las fuentes:
‐ Conectar las fuentes de datos, configurando las pasarelas que permiten su acceso y teniendo en cuenta el tipo: estructurados, no estructurados; formales o no formales.
‐ Establecer los filtros y consultas para la extracción de datos desde las fuentes, previa selección, configurándolos, considerando la posibilidad de distribución de datos y de procesamiento cercano a las fuentes para maximizar tiempos de proceso, conforme a las especificaciones de análisis y según la naturaleza de los datos.
‐ Extraer los datos desde sus orígenes, conforme a las especificaciones de análisis y según la naturaleza de los datos
C2: Aplicar técnicas exploratorias para identificar y describir la estructura y variables en los datos en el dominio de aplicación.
CE2.1 Describir técnicas y posibilidades de almacenaje de los datos para componer conjuntos, identificando su naturaleza.
CE2.2 Identificar la estructura, variables y relaciones de los conjuntos de datos aplicando técnicas exploratorias.
CE2.3 Identificar entidades, volumetrías, relaciones y atributos, para documentar cada conjunto de datos, describiendo sus características.
CE2.4 En un supuesto práctico de aplicación de técnicas exploratorias para identificar y describir la estructura y variables en los datos en el dominio de aplicación:
‐ Almacenar los datos recogidos de fuentes diversas para componer conjuntos de datos, identificando su naturaleza.
‐ Explorar los conjuntos de datos recogidos por separado, identificando su estructura y relaciones para el análisis de variables.
‐ Documentar cada conjunto de datos, identificando entidades, volumetrías, relaciones y descripción de atributos, entre otros, para trabajar en las especificaciones de análisis de los datos, según los objetivos de negocio.
C3: Aplicar técnicas de verificación de datos mediante cálculos estadísticos, escribiendo código para explorar atributos de los datos con el fin de evaluar la cobertura y calidad del conjunto, de modo que permita la selección de los atributos clave para el entrenamiento de modelos, siguiendo unas especificaciones de análisis proporcionadas.
CE3.1 Describir las técnicas estadísticas de análisis de la calidad técnica de los datos, que se aplican para su verificación, explicando sus características y objetivos.
CE3.2 Identificar técnicas de evaluación de la calidad de los datos basadas en cálculos estadísticos tales como frecuencia y distribución, para detectar la cobertura y el sesgo, describiendo sus características.
CE3.3 En un supuesto práctico de verificación de datos:
‐ Aplicar técnicas estadísticas sobre los datos, identificando y describiendo la calidad técnica de los mismos, escribiendo código o usando herramientas software.
‐ Aplicar técnicas estadísticas sobre los datos, tales como frecuencia y distribución, identificando y describiendo la cobertura y sesgo de los mismos, escribiendo código o usando herramientas software.
‐ Documentar los resultados de la evaluación, detallando cualitativa y cuantitativamente el sesgo, la frecuencia, la cobertura y la calidad encontrados.
C4: Aplicar técnicas de selección de datos mediante la depuración, limpieza, construcción y posterior clasificación en conjuntos, para su uso posterior en el modelado analítico, según unas especificaciones del diseño.
CE4.1 Identificar los atributos de los datos, explicando sus características, para su selección según especificaciones del diseño y tomando como base los resultados de las verificaciones realizadas.
CE4.2 Identificar técnicas de limpieza y depurado de datos de entrenamiento, tales como la normalización, categorización o imputación de valores ausentes, entre otros, describiendo sus características y operativa.
CE4.3 Identificar técnicas de construcción de un conjunto de datos, describiendo sus características y las posibles variables sintéticas a añadir, atendiendo a las especificaciones de diseño de los modelos a implementar y según las técnicas de Inteligencia Artificial en las que se basen dichos modelos.
CE4.4 En un supuesto práctico de selección de datos:
‐ Depurar los datos de entrenamiento, siguiendo especificaciones y criterios dados, aplicando normalización y teniendo en cuenta las evaluaciones y verificaciones detectadas previamente.
‐ Depurar los datos de entrenamiento, siguiendo especificaciones y criterios dados, aplicando categorización y teniendo en cuenta las evaluaciones y verificaciones detectadas previamente.
‐ Depurar los datos de entrenamiento, siguiendo especificaciones y criterios dados, aplicando imputación de valores ausentes y teniendo en cuenta las evaluaciones y verificaciones detectadas previamente.
‐ Construir un conjunto de datos, añadiendo variables sintéticas fruto de cálculos agregados tales como normalización, reescalado y media móvil respecto a una ventana deslizante temporal.
Capacidades cuya adquisición debe ser completada en un entorno real de trabajo.
C1 respecto a CE1.5; C2 respecto a CE2.4; C3 respecto a CE3.3; C4 respecto a CE4.4.
Otras Capacidades:
Responsabilizarse del trabajo que desarrolla y del cumplimiento de los objetivos.
Demostrar cierto grado de autonomía en la resolución de contingencias relacionadas con su actividad.
Comunicarse eficazmente con las personas adecuadas en cada momento, respetando los canales establecidos en la organización.
Adaptarse a la organización, a sus cambios organizativos y tecnológicos, así como a situaciones o contextos nuevos.
Adoptar actitudes posturales adecuadas en el entorno de trabajo.
Mostrar una actitud de respeto hacia los compañeros, procedimientos y normas de la empresa.
Cumplir las medidas que favorezcan el principio de igualdad de trato y de oportunidades entre hombres y mujeres.
Valorar el talento y el rendimiento profesional con independencia del sexo.
Aplicar de forma efectiva el principio de igualdad de trato y no discriminación en las condiciones de trabajo entre mujeres y hombres.
CONTENIDOS
1 Fuentes de datos para un sistema de Inteligencia Artificial basado en aprendizaje automático
Fuentes de datos y de conocimiento. Definición.
Clasificaciones para descripción de datos. Orígenes y tipos (estructuradas y no estructuradas; formales y no formales).
Tecnologías y herramientas de extracción y conexión para conjuntos masivos de datos según su naturaleza y uso, tales como: conectores IoT, conectores para eventos en tiempo real, conectores SQL u otros.
Tecnologías y herramientas de almacenamiento para conjuntos de datos según su naturaleza y uso tales como gestores de datos SQL o noSQL, centralizados o distribuidos, basados en grafos, clave‐valor u otros.
El ciclo de preparación de los datos para un sistema de Inteligencia Artificial.
2 Perfilado de datos
Conceptos y dimensiones de perfilado de datos: entidades, volumetrías, relaciones y atributos de un conjunto de datos.
Técnicas exploratorias y herramientas para visualización y manipulación de datos.
3 Verificación de la calidad de los datos
Calidad de datos.
Evaluación de calidad de datos para la inteligencia artificial.
Técnicas de evaluación de calidad técnica de datos y no conformidades.
Definición de cobertura y sesgo para Inteligencia Artificial.
Técnicas de evaluación de sesgo y cobertura basadas en cálculos estadísticos.
4 Limpieza y depurado de datos
Perfilado de datos para el caso de uso con la perspectiva de negocio: atributos, características, dimensionalidad y variables sintéticas. Técnicas de limpieza y depurado de datos de entrenamiento.
Normalización, categorización, imputación de valores ausentes y otras.
Técnicas de generación de un conjunto de datos para el entrenamiento de un sistema de Inteligencia Artificial.
SI QUIERES APRENDER MÁS…
TE LLAMAMOS Y TE LO EXPLICAMOS TODO
