Es más, aunque no fue un objetivo planteado al inicio de este trabajo, se logró identificar a lo largo del desarrollo del mismo casos concretos del uso del análisis de big data en favor de los derechos humanos. Así, una de las temáticas a profundizar, por ejemplo, es la planteada por Ureña, quien comenta que la regulación de la toma de decisiones basada en algoritmos y el machine learning puede violentar derechos humanos por medio de la segregación, dependiendo de la persona que lleve a cabo la programación del algoritmo (2019, p. 114). Como se mencionó al inicio de este trabajo, es común encontrar en la literatura relacionada Un curso de ciencia de datos con el que podrás enfrentarte al futuro al derecho internacional y el big data el tema recurrente de la protección de datos y la privacidad, ya que los análisis de grandes cúmulos de datos requieren de la materia prima que representan los datos generados por los individuos para recolectarlos y, posteriormente, tratarlos. Sin embargo, en esta contribución se quiso abrir el tema de la técnica de análisis de grandes cúmulos de datos en relación no solo a la protección de los datos personales y la privacidad de los individuos, sino también evidenciando que hay otros derechos humanos que pueden verse vulnerados con los análisis de grandes cúmulos de datos.
Este trabajo, de carácter teórico y descriptivo, debe ser continuado a partir de las incógnitas que hemos delimitado. De igual forma, tampoco se ha tratado la conexión con la analítica web, o con el periodismo ciudadano, y otro tema clave que son los propios riesgos que supone el fenómeno del big data. Los tópicos analizados muestran que hay una intersección de la temática Big
Data con otras materias, en un grado mayor se opta por aquellas
revistas académicas del tipo multi o interdisciplinar, y en mucho menor medida se
eligen las publicaciones de carácter especializado, por ejemplo, las ciencias
computacionales, la economía, la astronomía, la astrofísica y la óptica, por
mencionar algunas. La diferenciación, la concentración de ciertas publicaciones o la
ausencia de publicaciones en journals especializados nos permiten
valorar los vacíos y por lo tanto detectar las oportunidades investigativas o
destinos para publicar.
Seguros y datos con Ignasi Mañé de Cleverea, en Territorio Big Data
Las tecnologías asociadas al enfoque de Big Data ya han comenzado a tomar madurez y se vislumbran grandes oportunidades y retos en su utilización, optimización y adaptación a diferentes dominios de datos. Sin embargo, ya se encuentran resultados que muestran sus beneficios en aspectos como la reducción de tiempos, optimización de recursos y mayor flexibilidad. Existe una estrecha relación entre diferentes métodos y tecnologías para la construcción de soluciones que integren las capacidades de cada uno de estos y las potencien en nuevas propuestas. Este artículo se trazó como objetivo mostrar algunos trabajos desarrollados entorno a la temática y describir tecnologías y técnicas de Big Data, notándose que siguen siendo materia de investigación y discusión, generando la posibilidad de proponer alternativas y modelos basados en la táctica de divide y vencerás. También se ve la diversidad de planteamientos que presentan los autores en cuanto al concepto de Big Data y las características que este debe atender.
Existen varios problemas emergentes asociados a la IA y Big Data, en primer lugar, la naturaleza de algunos de los algoritmos de machine-learning son difícilmente usados en ambientes como MapReduce, por lo cual se requiere de su adaptación. En segundo lugar, Big Data trae consigo datos “sucios”, con errores potenciales, incompletos o de diferente precisión, la IA puede ser usada para identificar y limpiar estos datos sucios. En tercer lugar, la visualización de los datos, con la IA se puede lograr incluir la captura de capacidades de visualización de conocimiento para facilitar el análisis de datos, un enfoque es crear aplicaciones inteligentes de visualización para determinados tipos de datos. En cuarto lugar, ya que las tecnologías de almacenamiento evolucionan, es cada vez más factible proporcionar a los usuarios, casi en tiempo real, análisis de bases de datos más grandes, lo que acelera las capacidades de toma de decisiones. La aplicación de nuevos sistemas para la creación, almacenamiento y difusión de la información ha tenido como uno de los factores clave el exponencial desarrollo de la apertura de datos a través de mecanismos técnicos y computacionales.
Velocidad de procesamiento
Twitter, por ejemplo, ha desarrollado y puesto a disposición del público un código que sirve como vía de acceso a la información que se produce públicamente en la red, a través de lo que se conoce como “Application Programming Interface” o API. Esto explica por qué una parte importante de la investigación empírica en este campo se base en datos recogidos de dicha red (pues no es el caso de Facebook, que tiene políticas de privacidad que impiden extraer información de cuentas que no sean públicas). En este sentido, los investigadores quedan a merced de las empresas que sirven de intermediarios, en la medida en que estás deben poner la información a disposición, muchas veces de manera limitada. Adicionalmente, esto abre todo un campo de discusión sobre los dilemas éticos que plantea el uso de información privada. Si bien las plataformas de micro-blogging han ido acomodándose a las regulaciones existentes en distintos contextos institucionales -y viceversa-, cuestiones como el consentimiento del uso de la información quedan muchas veces en “zonas grises” de interpretación.
11 Es un nuevo enfoque educativo que tiene como principal objetivo el llevar a cabo el desarrollo integral de las personas en cada una de las dimensiones de su vida cotidiana, estableciendo como medios para alcanzar dicha meta el proyecto ético de vida y la reflexión constante sobre los diversos problemas de contexto que caracterizan a las tecnologías de la información y la sociedad del conocimiento. Una de las principales preocupaciones en el uso de estas nuevas formas de análisis es la privacidad de las personas, como lo advierten Paterson y McDonagh (2018, p. 1); no obstante, hay que considerar que la privacidad no es el único derecho que se puede vulnerar con el uso de la técnica de análisis de big data y sería una equivocación no considerar otras violaciones a los derechos humanos, como lo señala Nersessian (2018, p. 848). Un buen ejemplo de esto es el uso de cuentas falsas para incidir https://futuroelectrico.com/el-bootcamp-de-programacion/ en las opiniones y formas de pensar de las personas, la censura, la limitación de la libertad de expresión, y la segregación o promoción del racismo. Muchas de las leyes nacionales que han creado los Estados latinoamericanos en la materia de la protección de datos han seguido estándares internacionales que han dictado tanto la Unión Europea (Maqueo et al., 2017, p. 78) como los Estados Unidos, ambos sistemas jurídicos con una visión diametralmente opuesta en lo que respecta al tema. Así, en cuanto a la normatividad en torno a la protección de datos personales, intervienen una pluralidad de actores como son el dueño del dato, el responsable del tratamiento de los datos, el encargado de este tratamiento y, por supuesto, el destinatario de los datos personales, siendo cada uno de ellos pieza clave en el tema de los análisis de grandes cúmulos de datos (Cubillos, 2017, pp. 41-42).
Big data
El otro aspecto que define a los Big Data es la ve locidad, lo cual hace alusión al ritmo en que los datos se producen, pero también a la capacidad de respuesta en el análisis como para hacer de la información un producto que dé soluciones innovadoras y eficientes9. La mínima cantidad de información que puede ser procesada por un aparato tecnológico es el bit, el cual sólo puede ser expresado en ceros o unos, mientras que un byte es un conjunto de 8 bits. Así entonces, un Gi gabyte (Gb) corresponde a 109 byte, un Terabyte (Tb) a 1012, un Petabyte (Pb) a 1015 y un Exabyte (Eb) a 1018 bytes. Por tanto, cuando se habla de datos masivos, se está refiriendo a una generación de datos del orden de los Pb y Eb o superior. Lecuona y Villalobos (2018, p. 2) afirman que, al asignar a una persona o grupo características particulares, un individuo se convierte en un componente de un colectivo que genera preocupaciones sobre la discriminación consciente e inconsciente como resultado del uso de grandes datos en la toma de decisiones. La discriminación bajo este enfoque de las tecnologías disruptivas es un riesgo a tomar en cuenta, máxime cuando la toma de decisiones es cada vez más automatizada.
Otras aplicaciones puede filtrar noticias (Neatly), se pueden emplear como bloc de notas (Evernote), o bien generan diversas publicaciones gracias a los contactos y los medios en las redes (Glipboard). Con afán aclaratorio y organizador, traemos a colación la propuesta de Heravi y McGinnis (2013), que hace referencia a un marco de
trabajo con cuatro fases. En esta sección se presenta la exploración de algunos trabajos que presentan una visión general de las tendencias y enfoques en el desarrollo de investigaciones en el campo de Big Data. Varios trabajos donde se ha tomado Hadoop como base y se ha potencializado algunas de sus características o se ha fusionado con otra herramienta o tecnología.