Framework para manejo de datos heterogéneos climáticos.
Fecha
2020-03
Autores
Jiménez Galina, Alicia Margarita
Título de la revista
ISSN de la revista
Título del volumen
Editor
Universidad Autónoma de Ciudad Juárez
Resumen
La Universidad Autónoma de Ciudad Juárez (UACJ), a través del Centro de Estudios Atmosféricos y Tecnologías Verdes (CECATEV), ha recolectado información desde 1996, sin embargo, utiliza procesos manuales para crear los archivos que deben servir al acervo de datos climatológicos de nuestra región lo cual limita la calidad y cantidad de información que se produce. Además, debido a los compromisos que cuenta la UACJ por medio del CECATEV con diversas universidades dentro y fuera del país, se debe compartir la información climática a diferentes usuarios, entre universidades y expertos en la materia.
Los datos atmosféricos son heterogéneos debido a que son recolectados por estaciones climatológicas de diferentes tipos, marcas y modelos, así como analizadores de gases y aerosoles, lo que implica un reto en la visualización de los datos de una manera que facilite el análisis y la elaboración de productos relevantes para la toma de decisiones y la mejor comprensión de los procesos radiactivos y contaminantes de nuestra región.
Si se considera además del tiempo que se emplea en concentrar la información manualmente, que los datos incluidos no están homogeneizados y lo que implicaría un procedimiento más complejo y tardado querer combinar diferentes estaciones y sensores en un solo archivo, resulta indispensable disponer de una herramienta que permita el tratamiento de los datos, minimizando tiempos y homogenizándolos para que puedan ser asimilados en modelos predictivos de la atmósfera.
El presente reporte de desarrollo tecnológico construye la administración de datos heterogéneos, iniciando por los procesos creados para su almacenamiento, así como el tratamiento para extracción y homogeneización de estos. Para este caso se utilizaron datos climáticos provenientes de estaciones meteorológicas y de calidad del aire, las cuales recolectan información de diferentes sensores y en diferentes unidades de medida. Para lograr lo anterior se construye un framework con estas características.
Se crea una estructura de metadatos que contienen el perfil de las estaciones y sus sensores, también se utiliza una base de datos NoSQL que permite la gestión de los datos en una estructura dinámica. Utilizando los metadatos y de acuerdo con la elección del usuario, permite combinar estaciones y sensores, rango de fechas y la unidad de salida deseada. Para finalmente a través de los parámetros elegidos extraer y homogeneizar la información, generando un dataset que pueda utilizarse para análisis de datos.
En el primer capítulo se describe el dominio de la aplicación analizado para decidir las estrategias a utilizar. Se establece la problemática, se define el objetivo general, los objetivos específicos, así como la justificación. En el segundo capítulo se refiere al marco referencial compuesto por el marco teórico, marco tecnológico y marco conceptual. En el tercer capítulo se
describe las estrategias desarrolladas para la construcción del framework, la creación de los metadatos, la estructura dinámica para el almacenamiento de los datos y el conjunto de librerías que forman el framework. En el cuarto capítulo se evalúan los resultados del framework en comparación con el ambiente manual. En el último capítulo, el quinto se presentan las conclusiones de los resultados del framework, así como áreas de oportunidad detectadas para mejoras futuras.
Descripción
La Universidad Autónoma de Ciudad Juárez (UACJ), a través del Centro de Estudios Atmosféricos y Tecnologías Verdes (CECATEV), ha recolectado información desde 1996, sin embargo, utiliza procesos manuales para crear los archivos que deben servir al acervo de datos climatológicos de nuestra región lo cual limita la calidad y cantidad de información que se produce. Además, debido a los compromisos que cuenta la UACJ por medio del CECATEV con diversas universidades dentro y fuera del país, se debe compartir la información climática a diferentes usuarios, entre universidades y expertos en la materia.
Los datos atmosféricos son heterogéneos debido a que son recolectados por estaciones climatológicas de diferentes tipos, marcas y modelos, así como analizadores de gases y aerosoles, lo que implica un reto en la visualización de los datos de una manera que facilite el análisis y la elaboración de productos relevantes para la toma de decisiones y la mejor comprensión de los procesos radiactivos y contaminantes de nuestra región.
Si se considera además del tiempo que se emplea en concentrar la información manualmente, que los datos incluidos no están homogeneizados y lo que implicaría un procedimiento más complejo y tardado querer combinar diferentes estaciones y sensores en un solo archivo, resulta indispensable disponer de una herramienta que permita el tratamiento de los datos, minimizando tiempos y homogenizándolos para que puedan ser asimilados en modelos predictivos de la atmósfera.
El presente reporte de desarrollo tecnológico construye la administración de datos heterogéneos, iniciando por los procesos creados para su almacenamiento, así como el tratamiento para extracción y homogeneización de estos. Para este caso se utilizaron datos climáticos provenientes de estaciones meteorológicas y de calidad del aire, las cuales recolectan información de diferentes sensores y en diferentes unidades de medida. Para lograr lo anterior se construye un framework con estas características.
Se crea una estructura de metadatos que contienen el perfil de las estaciones y sus sensores, también se utiliza una base de datos NoSQL que permite la gestión de los datos en una estructura dinámica. Utilizando los metadatos y de acuerdo con la elección del usuario, permite combinar estaciones y sensores, rango de fechas y la unidad de salida deseada. Para finalmente a través de los parámetros elegidos extraer y homogeneizar la información, generando un dataset que pueda utilizarse para análisis de datos.
En el primer capítulo se describe el dominio de la aplicación analizado para decidir las estrategias a utilizar. Se establece la problemática, se define el objetivo general, los objetivos específicos, así como la justificación. En el segundo capítulo se refiere al marco referencial compuesto por el marco teórico, marco tecnológico y marco conceptual. En el tercer capítulo se
describe las estrategias desarrolladas para la construcción del framework, la creación de los metadatos, la estructura dinámica para el almacenamiento de los datos y el conjunto de librerías que forman el framework. En el cuarto capítulo se evalúan los resultados del framework en comparación con el ambiente manual. En el último capítulo, el quinto se presentan las conclusiones de los resultados del framework, así como áreas de oportunidad detectadas para mejoras futuras.
Palabras clave
Datos heterogéneos, Homogeneización, NoSQL, MongoDB, ETL