Raúl Bonachía Castillo

Mi rincón en Internet

Módulo 1 – Educación basada en datos

data-3329993_960_720

Realizaré un ensayo mediante un  análisis sintético-analítico del artículo Six Provocations for Big Data. A Decade in Internet Time: Symposium on the Dynamics of the Internet and Society, de Danah Boyd y Kate Crawford.

Se nos propone una reflexión sobre el concepto actual de Big Data en base a seis ideas centrales, que iré desgranando a continuación a la par que referenciaré fuentes que refuerzan sus planteamientos en algunos casos, o que los contradicen en otros.

Como preámbulo se estable que la era de Big Data ha comenzado, como paradigma de acumulación y análisis de grandes datos y con ella el surgimiento de una colección de preguntas antagónicas y complementarias a su vez. Así, los autores se plantean:

¿El análisis masivo de ADN ayudará a resolver enfermedades o establecerá desigualdades médicas en función de los recursos de los pacientes? ¿La recogida del caudal de movimientos de las personas potenciará su seguridad o por el contrario se utilizará como herramienta de control del ser humano?

Aquí podemos hacer referencia al reciente caso de Cambridge Analytica, estudiado con mucho detenimiento en el artículo Ich habe nur gezeigt, dass es die Bombe gibt, del que podemos obtener una traducción en castellano en Leer artículo. En él, el autor detalla como el uso de la psicografía en el proceso electoral estadounidense pudo ser utilizado a favor de Donald Trump. Un ejemplo claro de utilización de Big Data para fines y ambiciones particulares. Lo cual nos induce a pensar que, si Donald Trump no era el candidato mejor preparado y el uso malintencionado de la psicografía orientó la balanza al elector para optar por él, podemos afirmar, como poco, que las preguntas planteadas como preámbulo en el artículo analizado son consistentes. El Big Data, como tal, puede ser un arma de peligroso alcance según quién maneje, coteje y analice la información obtenida.

En este punto el artículo analizado en este ensayo nos plantea la primera idea central:

  1. Automatizar la investigación cambia la definición del conocimiento

Se habla de Ford como ejemplo predominante de cómo la automatización de los procesos productivos supuso una nueva comprensión de la relación humana entre trabajo y sociedad. Es por ello que Big Data supone, paralelamente a lo que el fordismo consiguió en la revolución industrial del siglo XX, la irrupción de un sistema que está cambiando los objetos del conocimiento con el poder adicional de informar cómo entendemos las redes humanas y la comunidad. Podemos plantearnos si los autores hacen bien en afirmar esta idea.  Tal y como podemos leer en este post según Manel Castells (Sociedad en Red, 2006) la sociedad red está transformando el mundo educativo o está en ciernes de hacerlo, porque todas las acciones que ejecutamos cada día son susceptibles de ser medidas a partir de los datos. Esto es fácilmente  comprobable en cualquier entorno de e-learning, donde puede verse a través de estadísticas los temas que suscitan mayor interés para los alumnos, los horarios de estudio más frecuentes, las herramientas más o menos utilizadas. Todo ello permite amoldar un sistema educativo que se autoregule y se modifique en base al análisis de todos esos datos para ofrecer un mejor servicio educativo. Y todo ello gracias al learning analytics. Parece evidente, por tanto, que la automatización de la investigación sí puede cambiar el conocimiento en sí mismo y su propia definición. Por ejemplo, en estos entornos virtuales de autoaprendizaje automodificables el conocimiento puede circunscribirse a la comprensión de los datos extraídos de la interactividad de los propios alumnos, con lo que los objetivos y medios varían drásticamente del conocimiento adquirido en un entorno educativo clásico offline.

2. Las afirmaciones sobre objetividad y precisión son engañosas

Los autores se planten esta pregunta:

¿Pueden los datos representar una “verdad objetiva” o cualquier interpretación está necesariamente sesgada por algún filtro subjetivo o por la forma en que se “limpia” la información?

Es decir, el artículo estudiado nos induce a preguntarnos si los datos brutos o filtrados son por sí solos poseedores de la verdad sobre lo investigado. Porque, ineludiblemente, la obtención de la verdad exige una interpretación del caudal de información analizado, por lo que la subjetividad entra en juego como elemento interpretativo. Para ello, podemos consultar este post, que analiza la cuestión con detalle. Así, se argumenta en él,  tenemos una doble complicación, la primera es obtener datos útiles de seres imperfectos y la segunda es interpretar dichos datos sabiendo de ante mano que los analistas son en si, imperfectos también. Es en este punto donde la metodología gira en torno al dato y alrededor de este vemos un baile entre cliente y analista. Es una reflexión interesante que concluye, el gran problema es intentar convertir al sujeto en objeto. Describir la complejidad del ser humano en datos numéricos es una tarea, por llamarlo de alguna forma, contradictoria. Este análisis resume adecuadamente y apoya la afirmación de los autores. No puede haber objetividad exacta ni precisión absoluta cuando el estudio y análisis de los resultados exigen intervención humana y toma de decisiones personales que siempre serán subjetivas por definición.

  1. Los datos más grandes no son siempre mejores datos

En el artículo, los autores defienden que el volumen ingente de datos no tiene por qué representar una correcta representación del objeto estudiado. Así, en el caso de estudio de Twitter, la red social de microblogging más empleada en la actualidad, los usuarios no tienen por que representar una relación uno a uno con una persona física (una cuenta de usuario puede ser gestionada por varias personas o una persona puede tener varias cuentas de usuario), por lo que difícilmente puede extrapolarse conclusiones generales sin tener en cuenta esos detalles. Es por tanto necesario conocer los límites metodológicos a la hora de encarar datos para poder determinar límites en las preguntas que pueden aplicarse a dicha información. Y es ahí, según los autores, donde cobra mayor importancia el valor de los datos pequeños. Esto puede comprenderse si se entiende el valor añadido que pueda ofrecer el estudio de un caso aislado, un individuo físico o un conjunto reducido de sujetos en el objeto de estudio.

Así, si leemos a Ahmed Banafa en esta publicación  debemos referirnos al concepto de Small Data, que enlaza perfectamente con la tercera afirmación analizada. Se define Small Data como las bases de datos pequeñas que conectan a las personas con perspectivas oportunas y reveladoras (derivadas del Big Data o de fuentes “locales”), organizadas y empaquetadas, a menudo visualmente, de forma que son accesibles, entendibles y procesables en las tareas de cada día. Y es que, según Rufus Pollock, de la Open Knowledge Foundation, dice que el bombo que se le ha dado al Big Data está equivocado, son los pequeños conjuntos de datos, los datos vinculados los que realmente tienen valor. También se indica que la oportunidad real no está en el Big Data sino en el Small Data. No en el “gran sistema” centralizado, sino en la discusión de los datos descentralizados. Por último se indica que los pequeños conjuntos de datos son suficientes para resolver muchos problemas y responder a muchas preguntas. Los datos del consumo energético de mi hogar, los horarios de los autobuses locales, el gasto del gobierno: todos esos son pequeños conjuntos de datos. Todo lo que se procesa en Excel es un pequeño conjunto de datos. Y si queremos aumentar la escala, la forma de hacerlo es convertir en componentes los pequeños conjuntos de datos: creando e integrando “paquetes” pequeños de datos, no creando enormes monolitos de datos, dividiendo los problemas de forma que funcione entre las personas y las organizaciones, no creando enormes silos centralizados. La próxima década será la de los modelos distribuidos, no la de los modelos centralizados, la de la colaboración, no la del control, la del Small Data, no la del Big Data

Por tanto, podemos concluir que, en efecto, el futuro a medio plazo apunta a los datos pequeños frente a los datos grandes.

4. No todos los datos son equivalentes

En este ámbito, los autores defienden que los datos, tomados fuera de contexto, pierden su valor original. Este axioma deriva en que pese a que dos conjuntos de datos puedan modelarse de la misma manera no implica que sean equivalentes. Distinguen en el análisis redes articuladas de redes conductuales. Las primeras incluyen listados de contactos, amigos, amigos de amigos o seguidores. Las segundas se derivan de los patrones de comunicación, personas que se comunican entre sí mediante email, mensajería instantánea o gente que, por ejemplo, está etiquetada en Facebook. Aquí Big data puede llevar al equívoca de pensar que una conexión es equivalente a otra conexión, o que la frecuencia de contacto equivale a la fuerza de la relación (no por intercambiar muchos archivos con conocidos en Whatssapp tenemos mejor relación  con ellos que con nuestra pareja), o que la ausencia de conexión implica que debemos establecer una relación.

Aquí es casi obligatorio aportar al ensayo una realidad inherente al uso de redes sociales. No por tener muchos “amigos” o contactos puede extrapolarse que tienes muchos amigos en la vida real, ni por mucha actividad digital puede deducirse que eres un sujeto con proactividad en la vida real. Es decir, es cierto que si perdemos el contexto en el que bucean las redes sociales, los datos no son intercambiables cuando nos trasladamos al mundo real. Esto se pone de manifiesto en el siguiente artículo , donde queda claro el gran número de identidades ocultas, alrededor del 15%, que se establecer dentro de nuestra red de contactos, bien a través de bots, bien a través de personas físicas o jurídicas que buscan objetivos ajenos a nuestros intereses.

  1. Solo porque es accesible no lo hace ético

Tal cual se indica en el artículo, a raíz de un estudio académico se liberaron datos de 1700 perfiles de Facebook. Aunque se consiguió que los datos fueran anónimos y que distintos investigadores pudieran hacer uso de ellos se planteó la ética que suponía haber hecho públicos datos cuyos propietarios desconocían para qué se estaban utilizando. El hecho pudiera ser extrapolable a cualquier conjunto de datos obtenidos por distintos caminos para tratar con ellos.

Aquí aplica tratar el concepto de Open Data, que tal y como se define en la wikipedia es una práctica que persigue que determinados tipos de datos estén disponibles de forma libre para todo el mundo, sin restricciones de derechos de autor de patentes o de otros mecanismos de control. Tiene una ética similar a otros movimientos y comunidades abiertos, como el software libre,  el código abierto, (open source, en inglés) y el acceso libre. En este camino, actualmente existen defensores de esta modalidad, que permiten que los datos sean libres para consumir por cualquier entidad personal o jurídica, y por tanto también éticamente accesibles, dado que así lo permite el propietario de la información. Un ejemplo de aplicaciones prácticas de Open Data lo encontramos aquí , que nos permiten acceder a eventos culturales, información sobre las costas y playas vascas, información meteorológica, etc. Todo ellos gracias a un API ofrecida por el Gobierno Vasco.

Por el contrario, cuando los datos no son declarados como públicos, debemos hacer uso de la legislación vigente. En España, por ejemplo, debemos acudir a la Agencia Española de Protección de Datos. Con la ley en la mano, podemos y debemos proteger información sensible de manera que la ética quede definida en cuanto al marco jurídico establecido por la ley.

Podemos concluir, por tanto, que según establezcamos nuestros datos bajo la LOPD o bajo el paraguas del Open Data, podemos conseguir que los datos accesibles estén perfectamente cubiertos y tratados en base a la decisión establecida.

  1. El acceso limitado a Big Data crea nuevas divisiones digitales

Los autores del artículo exponen una realidad cotidiana. Los generadores de información y contenidos son los responsables de decidir quién, cómo y de qué manera exportar o permiten la consulta y estudio de sus datos. Esto sucede, por ejemplo, en las grandes compañías tecnológicas como Google, Facebook o Twitter. A través de sus API establecen permisos y niveles de acceso a la información para terceros. No obstante, es evidente que los protocolo de acceso serán más flexibles para desarrolladores o investigadores internos de las propias empresas. Por tanto, se produce una división digital que permite a un sector de la población disponer de más información y a otros sectores menos información provocando de facto situaciones o escenarios de mayores y menores oportunidades.

Podemos preguntarnos si surgen brechas digitales en el ámbito del uso del Big Data en entornos educativos. Así, Telefónica ha iniciado el proyecto Algoritmo de la Calidad Educativa , que permitirá entre otra aplicaciones detectar a diario si un niño se está quedando atrás y aplicar medidas para su recuperación, así como ofrecer más retos a los niños que vayan más adelantados. Podemos afirmar, por tanto, que el mero hecho de disponer de las herramientas que este proyecto pionero ofrece establece de por sí una brecha respecto a los centros de alumnos que no dispongan de acceso a dicha tecnología. Esta obviedad, sin embargo, nos permite generalizar que la existencia y uso de Big Data supone, por sí solo, una división o brecha digital como solución a la que no puede alcanzar el 100% de la población.

Conclusiones finales

A lo largo de este ensayo se ha establecido los elementos claves del artículo Six Provocations for Big Data. A Decade in Internet Time: Symposium on the Dynamics of the Internet and Society, de Danah Boyd y Kate Crawford.

Se ha facilitado, para cada uno de los elementos clave, una fuente o enlace de distintos autores que han permitido ampliar o profundizar en cada una de ellas.  Si bien cada una de las afirmaciones son válidas en general, se ha aportado reflexiones para matizar algunos aspectos y enriquecer el artículo.

 

Webgrafía:

http://www.resumenlatinoamericano.org/2017/04/11/informe-sobre-el-big-data-control-y-manipulacion-cibernetica/

https://techradar.worldgovernmentsummit.org/?o=0

https://ignasialcalde.es/aprendiendo-con-big-data-el-futuro-de-la-educacion/

https://comunidad.iebschool.com/bigdatamarkfans/2018/05/05/big-data-objetividad-vs-subjetividad/

https://www.bbvaopenmind.com/small-data-frente-a-big-data-de-vuelta-a-lo-basico/

https://www.larazon.es/economia/economia-digital/no-todos-tus-amigos-de-redes-sociales-existen-de-verdad-FP15383170

https://es.wikipedia.org/wiki/Datos_abiertos

http://opendata.euskadi.eus/ideas-ejemplos/

https://www.aepd.es/

https://es.wikipedia.org/wiki/Web_API

https://www.fundaciontelefonica.com/2018/05/16/analisis-big-data-aplicado-educacion/

 

 

 

 

 

 

 

 

Advertisements

Information

This entry was posted on July 16, 2018 by in Análitica del aprendizaje conectado and tagged , , .