Aplicación de la ciencia de datos para ciudades sostenibles

Por: Shaloom Yeamy Salas Escarcena

Octubre 27, 2020

Javier Richard Cuicapuza

Presidente y fundador de Data Science Research Perú, entidad que permite la democratización y difusión de conocimientos en Ciencia de Datos e Inteligencia Artificial. Además, organiza diferentes MeetUps, Datathons, IAckatons. Ha recibido diversos reconocimientos como la Hackaton MTC y la Hackaton Belcorp, también posee una reconocida trayectoria desarrollando soluciones tecnológicas para banca.

Foto: Javier Cuicapuza. Fuente LinkedIn

¿Cómo nació Data Research Perú?

Empezó hace un año y dos meses aproximadamente, como una comunidad tecnológica, siendo nuestro primer evento en la UNI. En anteriores oportunidades, yo había asistido a conferencias donde se compartían conocimientos con los ponentes y luego se hacía Networking con profesionales en Banca, RuiTail’s y otros sectores. Así, quisimos replicar estos programas que surgieron invitando a expertos y llegamos a tener 30 eventos por semana, con muchos voluntarios.

¿Qué es la ciencia de datos y Big Data? ¿Hay alguna diferencia entre ellos?

Consideramos a la ciencia de datos como un campo interdisciplinario que involucra cuatro pilares importantes: matemática, estadística y probabilidad, son aquellas que nos permiten entender los fundamentos y el funcionamiento de las técnicas predictivas que se utilizan; Además, tenemos a las habilidades de comunicación, que debe poseer todo profesional y es vital dentro del campo de ciencia de datos, dado que, si no sabes comunicar tus resultados, estos no servirán de mucho. El conocimiento del negocio y la experiencia propia, ya sean en Bank Service o los índices de consumo también son importantes en la ciencia de datos donde ya se está empezando a aplicar en muchos sectores bancarios e industriales, como se puede ver ahora en salud, minería y energía.

 La Big Data se define como un conjunto de tecnologías que analizan un gran volumen de información a través de servidores especializados.

La ciencia de datos y Big data son conceptos que interactúan entre sí, tanto en el campo de la investigación como en la industria comercial, planteando soluciones analíticas para grandes volúmenes de datos permitiendo la toma de decisiones. Para llegar a tener estos conocimientos entre un nivel medio y avanzado, la curva de aprendizaje es de un año y medio aproximadamente.

¿Cómo se está desarrollando en Perú esta área?

En gran mayoría de las entidades públicas y privadas recién está iniciándose, sin embargo, empresas relacionadas a la banca han invertido bastante en capacitación y contratación de buenos profesionales en el rubro.

En investigación tenemos casos exitosos de peruanos como Omar Flores, arequipeño e ingeniero que trabaja en Twitter, así como a Antonio Lossio, profesional que brindó una charla para TED San Marcos; muchos de estos expertos están fuera de Perú e incentivan el aprendizaje en el país. Entre las entidades de educación superior, algunas universidades han empezado a crear programas de estudio y maestrías orientadas a la ciencia de datos. En el campo de la medicina, se ve la previsión de enfermedades, el reconocimiento de radiografías, análisis de registros clínicos digitales entre otras aplicaciones.

Hay una infinidad de posibilidades para este rubro, se prevé que dentro de poco se estará intensificando el estudio de la ciencia de datos, incluso el Estado será capaz de promover este tipo de actividades, pero lo primero es ordenar la información que se tiene y se pueda armar una arquitectura de los datos.

Dentro de la organización, nosotros tenemos los MBP’s o mínimos viables, donde se plantean tecnologías orientadas a lenguajes como la identificación del quechua, o que permitan empezar a restaurar videos en blanco y negro haciendo uso de técnicas donde se pueda colorear imágenes, eliminar el ruido y mejorar los píxeles.

En entidades comerciales tanto grandes como pequeñas, se está empezando a ofrecer este servicio, donde empresas grandes son capaces de contratar consultoras para realizar pruebas de concepto para que sean exitosas. Así se empiezan más proyectos, entre los más comunes tenemos los ChatBots, incluso en Inteligencia Artificial tenemos el uso de aplicaciones móviles y tiendas en línea.

¿Qué tanto tiene que ver la inteligencia artificial con el uso de datos?

Tiene mucho que ver, pero es importante conocer y reconocer que es la Inteligencia Artificial (IA). El concepto inicia con Turing y ha ido evolucionando en el tiempo, actualmente existe una IA Débil y una IA fuerte. La IA débil puede automatizar o ejecutar velozmente procedimientos simples que el humano puede realizar pero que le tomaría más tiempo: cálculo matemático, reconocimiento de imágenes, traducción de textos, etc.

La IA fuerte sigue siendo un desafío, pues implica una mayor autonomía de la máquina para tomar decisiones y tener procesos cognitivos en el campo de aplicación. Hay algunos casos donde las máquinas siguen dando falsos positivos, es por ello que muchos de los servicios que se venden en IA no son 100% certeros; tener falsos positivos en procesos que decidan entre la vida y la muerte es muy complejo, es por eso que aún se siguen perfeccionando. La IA aún es dependiente de los datos para realizar los procedimientos, incluso dependen mucho de la intervención humana, por lo que no es autómata; aquí se resalta que, con mayor información se pueden tomar mejores decisiones.

 Así como una persona, la máquina necesita aprender para poder automatizar o ejecutar las operaciones, a este proceso se le denomina “Aprendizaje en máquina” o Machine Learning. Si los datos son correctos, la maquina podrá aprender y ejecutar el procedimiento debidamente, para esto hay mucha matemática y estadística.

Con respecto a la crisis mundial, se ha podido tomar mayor importancia en el estudio de datos. Si es así ¿Cuál ha sido la contribución de estos para la sociedad y entidades gubernamentales?

Con la crisis mundial, el mundo ha tenido que poner a prueba su lado digital obligándolo a transformarse. Algunos países ya están teniendo una buena gestión de datos, lo que nos permite tener una buena visión y certeza de lo que realmente está sucediendo, para tomar decisiones más acertadas y hacer previsiones aun cuando el futuro no se ve claro. A partir de esto, tomamos como ejemplo a los gobiernos que en su mayoría analizaron datos de geolocalización para monitorear a los afectados y no infectados, así como la interacción social para evaluar cómo se movía el virus y la posible tasa de contagio.

En China, este estudio fue más severo, se analizó cámaras, se hizo reconocimiento del rostro de los ciudadanos y se aplicó sanciones por no cumplir la cuarentena, dado que ese gobierno está monitoreando a cada momento a la gran mayoría de sus ciudadanos.

Por otro lado, algunos países se centraron más en el campo médico, tratando de predecir la presencia del virus mediante radiografías de tórax con análisis de imágenes que ayuden a los doctores con la identificación de casos; en este campo es necesario resaltar que la tecnología se debe utilizar de manera responsable, el sistema no daba un diagnóstico final, sino soporte en la lecturas donde la última decisión la tomaba el doctor a cargo, evitando falsos positivos que puedan mermar la vida de las personas.

En el caso de Perú, es evidente el desorden de los datos comprobándose en los DashBoard generados a través del aplicativo del Gobierno y después con la información que se presentó en los medios de comunicación. No teníamos un sistema integrado de datos, eso se demostró en el tema de reparto de bonos, generando complicaciones severas en este escenario. Finalmente, con la aplicación “Perú en tus manos” que tomó algunos meses para su desarrollo, se pudo hacer estudios para planificar una cuarentena focalizada. Cabe señalar que otros países lograron el mismo resultado en menor tiempo.

¿Hay alguna empresa o emprendimiento que use ciencia de datos para el desarrollo de su tecnología y además contribuya con los objetivos del desarrollo sostenible?

Existen distintas empresas con y sin fines de lucro que incentivan el desarrollo de tecnología a favor de la sociedad. En este rubro, DataKind es una ONG americana que es nuestro modelo a seguir, esta organización tiene un equipo de científicos de datos que involucra proyectos a favor de la sociedad a nivel mundial, con sedes en África y Reino Unido.

En ese sentido, nosotros adoptamos esa visión, encontrándonos en la etapa de capacitación de distintas personas para la resolución de problemas sociales. Nuestra sección de Innovación y Desarrollo busca contribuir con los Objetivos de Desarrollo Sostenible; pues también queremos revolucionar la educación hacia una de calidad en el país.

Se sabe que se usó ciencia de datos para disminuir el uso de automóviles y empezar a usar bicicletas en ciudades como Nueva York, ¿Es posible ciudades como Lima se transforman de la misma forma?

Como lo mencioné, un pilar importante en la ciencia de datos es el conocimiento del negocio, esto involucra tener especialistas y conocer el problema a tratar. En este caso para poder llevar a cabo un estudio como el realizado en Nueva York no sólo necesitamos de perfiles informáticos o estadísticos sino también de especialistas en espacios urbanos que podrían ser ingenieros civiles o arquitectos, así como la participación de entidades municipales para habilitar sus espacios, proponer mejoras y no perturbar el diseño actual.

Sería irresponsable afirmar que es posible la transformación sin un estudio previo, sin embargo, no podemos descartar el hecho de que este es un proyecto interesante a replicar con un grupo voluntario de control en coordinación con una municipalidad.

Justamente, hace un par de semanas tuvimos un webinar en donde se explicaba que, con el uso de Big Data, es posible que lugares por donde pasan ciclistas y personas que usan scooter sean mapeados para tener un registro.

En el caso particular de ciudades de EE.UU. donde se utiliza ciencia de datos, el cliente cede o vende su información para mejoras en la ciudad, ¿Es posible que esto suceda en Perú?

Siempre estamos vendiendo nuestra información, en cualquier aplicativo que descargamos; ya sea de deportes o delivery, los datos ya están viajando en la nube. Sin embargo, acá hay un gran problema, pues las empresas no pueden llegar a compartir los datos obtenidos, ni siquiera pueden ser compartidos con el Estado, y es este mismo el que debería poder empezar a regular todo flujo entrante como ya se ve en países como China. Es por ello que necesitamos muchos cambios, a nivel tecnológico, cultural y también y de infraestructura. En el país tenemos pocas ciclovías, de hecho, en Lima hay una mínima cantidad para lo extensa que es la ciudad y solo se encuentran en algunos distritos cercanos.

Ahora existen muchos paquetes en relación a temas ambientales como la calidad de aire o contribuciones de carbono, ¿hay otros paquetes que permitan el análisis de ciertos sectores como forestería, agricultura, pesquería? ¿qué impacto tendrían estos en la industria?

Dentro de la comunidad de software libre están creándose muchos paquetes. Desconocemos si existen paquetes exclusivos para dichas áreas, pero si se pueden crear. Lo que si podemos afirmar es que el impacto es alto y existen dos conceptos claves que nos permiten entenderlo, están los Sistemas de Información Geográficas (SIG) e Internet de las Cosas. Los SIG nos permiten trabajar con datos de geolocalización, relieves; mientras que el Internet de las cosas es la interconexión de objetos al internet, esto implica que se pueda colocar sensores sobre una superficie u objeto para medir la temperatura, humedad, movimiento, luz y demás.

En pesquería se presentan muchos problemas de optimización de recursos como la época de veda, flotas y el clima, de modo que conociendo esta data se puede aprovechar la pesca de manera más efectiva. En Paita, por ejemplo, que es uno de los puertos del Perú, se tiene mucha información de la cantidad de pescados que hay y justamente se puede hacer uso de la ciencia de datos, aplicando lenguajes de programación como Python para poder hacer gráficos, análisis y aplicar series de tiempo, pues hay información de 5, 10, 20, 30 años que ya está disponible de forma digital.

 En forestería se puede detectar tala ilegal con captura satelital de bosques mediante análisis de imágenes, aquí justamente entra el concepto de Computer Vision, donde hay competencias en las cuales se te da datos libres que son imágenes satelitales para poder trabajarlas e identificar algún tipo de problema o algún tipo de patrón.

En agricultura existe actualmente más trabajo de internet de las cosas y robótica para automatizar tareas de prevención de plagas, riegos, optimización de suelos, entre otros datos.

Desde nuestra organización tenemos un centro de capacitación en tecnología 4.0 y justamente está tratando de adentrarse en este mundo, pues no se trata solo de enfocarse en la banca, sino de que en áreas de interés como pesquería, agricultura, salud u otros, se pueda hacer uso de estos conocimientos para poder aplicarlos y que profesionales del interior del país puedan trabajar desde sus mismas regiones sin necesidad de acudir a la capital.

Hoy en día es tan importante conocer tus derechos con el valor de los datos. Si en tu empresa o área existen datos y toma de decisiones, es muy probable que exista la necesidad de implementar soluciones en ciencia de datos.

Artículos relacionados

Respuestas

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *