El Big Data, la inteligencia artificial y sus ramas (aprendizaje automático, aprendizaje profundo, lógica difusa, sistemas expertos, etc.) son componentes de algo más grande llamado Ciencia de Datos, la cual acompaña una de las revoluciones científicas más grandes de los últimos doscientos años. Esta revolución nos aporta una nueva y gran caja de herramientas de análisis de datos que fortalece nuestras investigaciones.

 

Pero, esta revolución, la cual en algo se ajusta a la estructura de lo que Thomas Kuhn definió como “cambios de paradigma científico”, radica no solo en las herramientas, sino también, en la forma misma de concebir la ciencia, ya que, estamos moviendo el foco desde las teorías hacia los datos como modelos de generación de conocimiento. En este paradigma, las predicciones importan más que las explicaciones, e incluso, se puede prescindir de estas. En palabras simples, estamos viendo el mundo más por la ventana de los datos, y menos por la de las teorías.

 

Los cambios de paradigma se han gestado de forma espontánea dentro de cada área del conocimiento, por ejemplo, las ideas de Aristóteles en la física, el heliocentrismo en la astronomía, la teoría atómica en la química, el ADN y la genética en la biología, la teoría relativa del valor en la economía, etc. En el caso de la ciencia de datos, el cambio de paradigma es transversal, ya que involucra a todas las disciplinas científicas, naturales, sociales, ingenierías, etc., que tienen en común la susceptibilidad a ser abordadas y alimentadas desde el Big Data.

 

Hoy estamos en una fase de transición entre el paradigma de las teorías y el de los datos, un punto intermedio en el cual ambos se retroalimentan constantemente para ayudarnos a responder viejas y nuevas preguntas de investigación con más confianza, precisión y exactitud que nunca. En este sentido, involucrar expertos en ciencia de datos en nuestros proyectos de investigación, además de semilleros de investigación que se formen con un entrenamiento sólido en estas herramientas, independiente del área de conocimiento específica, es hoy una condición sine qua non para no quedar rezagados en las tendencias de investigación a nivel mundial.

 

Contribuciones desde la ciencia de datos las podemos encontrar en trabajos como Felt (2016) y Wiedemann (2013) para las ciencias sociales; Hampton et al. (2013) y Michener & Jones (2012) para las ciencias naturales; Gillam (2009) para las ciencias de la salud; Provost & Fawcet (2013) para los negocios; Milićević et al (2017) para ciencias de la educación, y Álvarez et al (2022) para las ciencias agrícolas. En su libro “The Fourth Paradigm Data-Intensive Scientific Discovery”, Tony Hey et al. (2009) hacen un recorrido histórico, conceptual y metodológico por todas las ciencias que han venido a ser fortalecidas por la revolución de los datos. En plataformas como Google académico y Scopus, la búsqueda de “data science” o “big data” en combinación con una palabra clave de cualquier área del conocimiento, arroja como mínimo decenas de resultados, y puede ser utilizada para quien esté interesado en profundizar en el tema.

 

Ahora bien, podemos considerar que la revolución de los datos está ocurriendo gracias a dos condiciones: 1) el acceso cada vez mayor a conjuntos de datos de tamaños y variedades extensas, que se generan a una velocidad creciente (en inglés esto se conoce como las tres “V”, por volume, variety and velocity), y 2) al desarrollo y acceso a algoritmos de análisis de datos cada vez más poderosos para inferencia, asociación, pronóstico, predicción, e incluso, a algoritmos entrenados para entrenar a otros algoritmos (aprendizaje automático automatizado). Las redes neuronales artificiales son, por ejemplo, uno de los algoritmos más exitosos en aprendizaje profundo, que, emulando el funcionamiento de las neuronas humanas, son capaces de realizar tareas automatizadas con altísima eficiencia, tales como el reconocimiento de imágenes, la predicción de patrones, la identificación y prevención de riesgos, el pronóstico de eventos futuros, asociación entre enfermedades y causas, entre otras.

 

Pero, ver el mundo a través de la ventana de los datos implica usar un volumen suficientemente ‘grande’ de estos, para que los algoritmos de inteligencia artificial sean capaces de aprender y hacer predicciones sin necesidad de recurrir a modelos teóricos, con sus restrictivos supuestos. Con ‘grande’, nos referimos a volúmenes que usualmente no son posibles de ser colectados con la aproximación clásica de la investigación basada en teorías, con la cual un investigador o un grupo de estos hacen una pregunta de investigación, colectan los datos en campo con sus propias manos e instrumentos dentro de un marco teórico definido, y obtienen conclusiones a la luz de ese mismo marco teórico después de haber analizado su información.

 

Por lo tanto, apoyar nuestros proyectos de investigación con herramientas de la ciencia de datos implica recurrir a las entidades que recolectan, organizan, sistematizan, validan, almacenan, curan y hacen accesibles grandes volúmenes de datos al público, y hacer todo esto tiene sus precios (Big Data = Big Money). Los datos hacen parte de una industria de más de 300 billones de dólares al año, cuya infraestructura solo puede ser mantenida por compañías iguales de billonarias como Google, Meta, Microsoft, Nasa, y ESA, por mencionar algunos ejemplos del top 10 de estas organizaciones. Sin embargo, hay otras entidades que si bien, mucho más pequeñas, se han encargado por décadas de construir y democratizar grandes bases de datos que hoy son usadas por muchos proyectos de investigación, entre las que resaltan varias agencias de la Organización de las Naciones Unidas (FAO, IPCC, ACNUR), el Banco Mundial, a la Organización de Estados Americanos (OEA), la CEPAL, el DANE, el IDEAM, y varias instituciones estatales en cada país encargadas de recopilar y organizar estadísticas.

 

Es altamente probable que cuando queramos abordar un proyecto de investigación usando ciencia de datos, debamos acudir a los repositorios de una o varias de estas entidades. Veamos algunos ejemplos. Para investigar los efectos de cambio climático debemos acudir a los escenarios RPC del Panel Intergubernamental de Cambio Climático-IPCC (una agencia de la ONU), para detectar cambios históricos en el uso de suelo, a imágenes satelitales de la NASA, ESA o Google, para entender dinámicas electorales, a datos históricos del DANE, para indagar en la prevalencia del covid-19, a datos de la Universidad John Hopkins, para inquirir los factores de riesgo del virus Ébola, a datos de la Organización Mundial de la salud, y así podríamos hacer una gran lista para diferentes casos, en cualquier área y con cualquier pregunta imaginable.

 

Y es aquí donde emergen dos preguntas de reflexión crítica que no debemos evitar, aunque pareciera más cómodo hacerlo. 1. ¿Podemos confiar siempre en estas entidades como fuentes transparentes de evidencia? 2. ¿Podemos seguir haciendo investigación libre, independiente y autónoma si damos el salto completo a la ciencia basada en datos con Big data?

 

Dado que el propósito de este artículo es hacer una reflexión crítica sobre estas preguntas, y no dar una respuesta definitiva a ellas, discurriré un poco alrededor de los determinantes de cada una, esperando dejar en los investigadores una semilla igualmente crítica con la cual puedan hacer mayor digestión intelectual sobre sus propios resultados cuando estos implican ciencia de datos o Big Data.

 

Respecto a la primera pregunta, hay que reconocer que muchos de los datos suministrados por las entidades mencionadas han sido claves para resolver problemas en diferentes ramas de la ciencia a lo largo de varias décadas, y siguen siéndolo hoy en día. Pero, dado que son centros de poder, y no están exentas de las imperfecciones que de él proviene, el vínculo con sus usuarios en la provisión y uso de sus datos debe ser visto también como una relación de poder, y debe ser analizada bajo perspectivas politológicas serias. Esto cobra relevancia cuando entendemos que hoy, el activo económico más importante ya no es el petróleo, sino los datos. Entonces, tal como se pregunta Buyng-Chul Han (2022) uno de los filósofos contemporáneos más prominentes en estos temas, ¿quienes poseen una enorme cantidad de datos también poseen una enorme cantidad de poder? Hoy, del top 10 de empresas más grandes del mundo, cinco configuran el oligopolio del Big-Data, y tienen en conjunto más dinero que muchos países de Latinoamérica juntos, y se comportan como si fueran países, pasando en muchos casos por encima de la soberanía de otros. Entonces, el gran poder de los datos está en menos del 0.0000001% de la población.

 

Esto pone en perspectiva una influencia neo-colonial imperialista, y revela el aura orwelliana que caracteriza su actuar en el mundo, ya que con su mega-infraestructura combinada con los algoritmos de inteligencia artificial que manejan, son capaces no solo de vigilar nuestras actividades, sino, además, de influenciar patrones de comportamiento y consumo de mercancías e ideas, ideas muchas veces alejadas de nuestra cultura, razón por la cual se les hace necesario someter a través de diferentes estrategias. En resumen, actúan a manera de agente político global y de panóptico.

 

Ergo, por un principio de sana suspicacia ante el poder, es necesario por lo menos preguntarnos si estas entidades proveen información transparente y/o completa, o si hacen un uso correcto de la misma. Ejemplos al respecto incluyen los escándalos Climate Gate en 2009, Oxford Analytics en 2016, y todo el fenómeno de cancelación y coacción de la libertad de expresión en redes sociales en los últimos cinco años, muchas veces bajo el subterfugio de las “fake news”. Estos hechos han abierto la puerta a que, por lo menos, un mínimo escepticismo razonable es necesario frente a los gigantes de los datos.

 

Respecto a la segunda pregunta, es necesario considerar que la historia de la ciencia ha tenido como motor a la pura y llana curiosidad individual, a personas que se hicieron preguntas auténticas y autónomas sobre el funcionamiento del universo. Esa libertad para hacer y responder preguntas es uno de los pilares del avance de la ciencia, qué tantos beneficios ha traído para las sociedades libres. Bajo esta libertad, los investigadores usan su creatividad para construir metodologías que les permitan recopilar y analizar los datos que necesitan para responder sus propias preguntas, lo que genera avances en las metodologías de investigación. Por lo tanto, la forma en la que colectamos nuestros datos determina en parte el cómo respondemos las preguntas, la naturaleza misma de las respuestas, y las agendas de investigación que trazamos hacia el futuro.

 

Con la ciencia de datos avanzando exponencialmente, nuestra dependencia como investigadores a los centros de poder de los grandes datos es cada vez mayor, y es aquí donde radica el problema, ¡pues ojo!, esos datos ya fueron colectados, sistematizados, ordenados, muchas veces depurados, validados y hasta pre-analizados por alguien más, con una formación y visión del mundo particular, que puede diferir mucho de la nuestra.

 

Aquí es urgente entonces reflexionar en cómo algunos elementos de aquella libertad y creatividad para colectar datos podría reducirse, lo cual implicaría que las preguntas de investigación tengan que ser restringidas a formatos cada vez más homogéneos, para que se ajusten a esos datos ya existentes. Esto delinea un escenario distópico, en el cuál, las preguntas de investigación quedarán supeditadas a tener que moldearse a la visión exclusiva de aquellos con la capacidad de construir y mantener mega-infraestructuras de Big Data. Este escenario es la antítesis de la democratización de los datos que prometían los discursos de la apertura hacia las nuevas tecnologías de la información de principios de siglo. Según Byung-Chul Han, dicha democracia es imposible dado el oligopolio de los datos, y sería reemplazada más bien por una “infocracia”.

 

Debemos tener siempre en mente estas cuestiones, no a manera de ‘conspiranoia’, sino de sana precaución, para que la ciencia de datos siga siendo una herramienta de empoderamiento científico, y no una causa de coacción y manipulación de nuestras preguntas y agendas de investigación. Ejemplos de esto se pueden observar en aquellas millonarias donaciones de las grandes empresas tecnológicas a universidades, las cuales superan los 45 mil millones de dólares al año para investigar solamente en uno o dos temas de interés para ellos. ¿Acaso esto no se está volviendo habitual en nuestras universidades, donde estamos obligados a hacer investigación en unos cuantos temas limitados y prefabricados para poder acceder a los recursos y no quedarnos sin proyecto? Los planes de desarrollo de las instituciones de educación superior han reducido la libertad de investigación al aceptar que sus académicos se restrinjan a unas pocas líneas llamadas prioritarias, que, sin demeritar su importancia (porque por supuesto la tienen), no deberían ser impuestas como únicas opciones.

 

Finalmente, quiero llamar la atención sobre la pérdida de protagonismo de la inteligencia natural frente al auge de la artificial. Esta última nunca superará a la natural, no en el sentido de la velocidad y precisión para hacer cálculos y predicciones, pues esto es evidente, sino por su carencia de faro moral para guiar las investigaciones, lo cual es un atributo único, espontáneo y autónomo de lo humano, que las máquinas nunca podrán emular. La labor de concebir, reflexionar, calibrar y aplicar nuestras preguntas y respuestas de investigación es nuestra, y para esto debemos seguir usando las herramientas clásicas y confiables de la inteligencia natural. Hay que tener cuidado, por lo tanto, con aquellos discursos que afirman que el trabajo humano debe ser reemplazado por las máquinas y los algoritmos. Hasta hace 20 años, esto era solo una fantasía de Hollywood, pero hoy en día es una realidad preocupante promovida por meta capitalistas “filántropos”, que ya cuentan con la tecnología para hacerlo realidad. Como académicos e investigadores es nuestro deber ser críticamente reflexivos ante esto, y no instrumentos útiles para su propaganda.

 

Por supuesto que la investigación científica generada en la universidad debe estar siempre abierta a la utilización de nuevas tecnologías que la potencien, para asimismo perfeccionar su función social, pero debe también alejarse de la tentación de entregar su soberanía intelectual por unos cuantos dólares, y velar para que la libertad y creatividad de sus investigadores sigan siendo valores inalienables, por el bien de la sociedad. La ciencia de datos es una herramienta poderosa que invito a explorar y aplicar para mejorar nuestras investigaciones, pero también a reflexionarla de forma crítica por las consideraciones aquí expuestas.

 

 

 

Felipe Benavides PhD.

Investigador grupo Agroforestería y Recursos Naturales – ARENA

Facultad de Ciencias Agrícolas, Universidad de Nariño

Correo: pipeben@gmail.com

 


 

Referencias

Alvarez. D, Arévalo. A, Salazar. C, Betancourth. C & I.F Beanavides (2022. En preparación). Training convolutional neural networds to evaluate the symptoms caused by Botrys fabae on Vicia faba leafs.

 

Felt, M. (2016). Social media and the social sciences: How researchers employ Big Data analytics. Big Data & Society, 3(1). https://doi.org/10.1177/2053951716645828

 

Hampton, S.E., Strasser, C.A., Tewksbury, J.J., Gram, W.K., Budden, A.E., Batcheller, A.L., Duke, C.S. and Porter, J.H. (2013), Big data and the future of ecology. Frontiers in Ecology and the Environment, 11: 156-162. https://doi.org/10.1890/120103

 

Han, B., & Steuer, D. (2022). Infocracy: Digitization and the Crisis of Democracy. Wiley.

 

Hey, T., Tansley, S. & Tolle, K. (eds.) (2009). The Fourth Paradigm: Data-Intensive Scientific Discovery. Redmond, Washington: Microsoft Research.

 

Klašnja-Milićević, A, Ivanović, M, Budimac, Z. Data science in education: Big data and learning analytics. Comput Appl Eng Educ. 2017; 25: 1066– 1078. https://doi.org/10.1002/cae.21844

 

Mercer S, (2009) Health and Wellbeing. En: Hey, T., Tansley, S. & Tolle, K. (eds.) (2009). The Fourth Paradigm: Data-Intensive Scientific Discovery. Redmond, Washington: Microsoft Research.

 

Michener WK, Jones MB. Ecoinformatics: supporting ecology as a data-intensive science. Trends Ecol Evol. 2012 Feb;27(2):85-93. doi: 10.1016/j.tree.2011.11.016. Epub 2012 Jan 10. PMID: 22240191.

 

Provost, F., & Fawcett, T. (2013). Data science for business: [what you need to know about data mining and data-analytic thinking]. Sebastopol, Calif., O’Reilly.

 

Wiedemann, Gregor. “Opening up to Big Data: Computer-Assisted Analysis of Textual Data in Social Sciences.” Historical Social Research / Historische Sozialforschung, vol. 38, no. 4 (146), 2013, pp. 332–57. JSTOR, http://www.jstor.org/stable/24142701. Accessed 1 Nov. 2022.

 

Comentarios de Facebook