DISRUPCIÓN TECNOLÓGICA Y SUS EFECTOS. Big Data, “machine learning” y control social

Introducción.

En el último artículo de esta sección hacíamos referencia a cómo la Revolución Científico-Tecnológica (RCT en lo sucesivo) estaba transformando la sociedad, gracias a la expansión de la inteligencia artificial (IA) y sus aplicaciones (perfeccionamiento continuo de los algoritmos utilizados, Machine Learning, tránsito empresarial masivo a la robotización y progresiva incorporación de la IA a los negocios, etc.) a la extensión generalizada del uso de internet y de unos smartphones con capacidades crecientes de captación, tratamiento y trasmisión de información, al uso de la información recopilada por sensores conectados a internet, o al poder de las multinacionales informáticas para el marketing y control social, entre otros aspectos. Y que aunque la innovación ha creado históricamente nuevos tipos de trabajos que iban sustituyendo a los que quedaban obsoletos –y ésta RCT también lo está haciendo-, este proceso creativo es escaso en la actualidad, generando una reducción global en la oferta de trabajo, y colaborando a la pérdida de cohesión social y de la legitimidad de la Política y de los políticos (crecimiento de las posiciones anti-establishment) ante la falta de respuesta satisfactoria a esa fuerte incidencia disruptiva de un cambio tecnológico que se está produciendo cada vez a mayor velocidad, y cuyo desarrollo simultáneo y exponencial en varios de sus procesos coadyuvantes, pueden llevar a una peligrosa explosión de sus efectos disruptivos sobre la sociedad en los próximos años.

En ese artículo nos introducíamos en el papel de la Inteligencia Artificial (IA), considerada como aplicación de sistemas computacionales en máquinas u ordenadores, que permiten replicar tareas diversas hasta ahora efectuadas por humanos, incluido el propio proceso de aprendizaje. Destacábamos cómo los ordenadores, las máquinas cibernéticas y los robots han ido alcanzando y superando el rendimiento humano en cada vez más tareas; y cómo un aspecto fundamental en la evolución de las consecuencias de esta dinámica imparable va a depender del papel que desarrollen los Estados en la recuperación social de los beneficios, y en la distribución y control de las cargas que esta disrupción tecnológica implica. O en el papel que se proporcione y facilite a las innovaciones abiertas –colaborativas y de libre acceso y uso (Creative Commons)- frente a las de empresa privada y uso patentado.

En este segundo artículo, vamos a introducir las principales consecuencias socioeconómicas, territoriales y ambientales que se están materializando, y las tendencias esperables de la disrupción tecnológica en el campo de los algoritmos aplicados a los Big Data, a la progresiva utilización de la Machine Learning en distintos campos profesionales y sociales, y a sus consecuencias en aspectos como la ciberseguridad o el control social.

Big Data.

Señalábamos en el artículo anterior que las variedades de IA comprenden desde la inducción y construcción de interrelaciones para la solución de problemas, a la representación/creación de conocimientos (Machine Learning), el procesamiento del lenguaje, la percepción (visión artificial), la robótica, la formalización y seguimiento de procesos de planificación (logística, rutas, etc.), la inteligencia y control social, o el progreso en la utilización de redes neuronales, además de campos mucho más amplios caracterizados por la aplicación de algoritmos más sencillos al marketing, la reproducción de procesos protocolizados, etc.

Una parte significativa de esta aplicación de la IA viene asociada a la disponibilidad masiva de datos que se está generando de la expansión explosiva de fuentes de información procedentes del uso de internet desde ordenadores y smartphones; o de la creciente multiplicación de distintos tipos de sensores captadores de información digital acumulable que funcionan en redes de tipo M2M (máquina a máquina). Sin embargo, la importancia que hoy en día se dan a los datos incorporados a Big Data se centra fundamentalmente en la variedad de los datos integrados (importancia valorada por encima de los 2/3 del total de factores) considerando que su utilidad fundamental está asociada a la integración en un todo de esa variedad de datos nuevos y antiguos, de grandes y pequeños volúmenes de información, de datos estructurados y no estructurados, de datos sociales, de datos de comportamiento o de datos legales; y ello por encima de la cantidad de datos de los que se dispone (una cuarta parte de la valoración) o de la velocidad de acceso/disposición a los mismos (del orden de un 5% de la valoración total).

Los procesos de utilización de los Big Data incorporan el conjunto de herramientas, metodologías y capacidades analíticas necesarias e imprescindibles para adquirir, administrar e interpretar la información acumulada. De hecho, sobre este conjunto variado e inmenso de datos digitalizados (Big Data) acumulados y acumulables en sistemas de almacenamiento masivos (en parte en la denominada nube) la IA es capaz de realizar análisis y procesamientos dirigidos a la consecución de objetivos diversos. Objetivos cuya definición es la primera tarea de todo proceso de utilización de los Big Data y de los que van a partir el conjunto de métodos y algoritmos que van a permitir trabajar sobre la información disponible. Métodos y algoritmos que se encuentran en permanente adaptación y perfeccionamiento para su adecuación eficiente a los Objetivos previstos, proceso en el que la Machine Learning, a la que nos referiremos posteriormente, tiene una utilidad creciente.

De una forma genérica, las metodologías de tratamiento de los Big Data algunos autores las integran en el Data Mining como proceso que intenta descubrir patrones en grandes volúmenes de conjuntos de datos. Su objetivo general es el de extraer información del conjunto de datos seleccionados para transformarla en una estructura comprensible y útil a los objetivos pretendidos con el análisis. En su formulación más general se incorporan técnicas estadísticas tradicionales -como el análisis multivariable, la regresión, el análisis cluster- o nuevos métodos asociados a la utilización de algoritmos más o menos complejos, característicos de la IA o del Machine Learning; o métodos asociados a técnicas básicas de homogeneización y discriminación asociadas al análisis de sistemas de bases de datos. En todo caso, se suele distinguir entre el análisis en bruto de los datos recopilados y su integración en los Big Data, y el procesamiento de estos datos para adecuarlos a los Objetivos perseguidos en cada caso, bien sea para establecer inferencias, realizar predicciones, determinar métricas, etc.

También de una forma genérica, se supone que la utilización de los Big Data permite conseguir mejoras en aspectos básicos cómo la reducción de los costes de producción, la mejora de la competitividad de la actividad, la ampliación de mercados o la adecuación de los productos y servicios a los gustos de los ciudadanos.

Manipulación y control social.

La digitalización de la vida de las personas permite establecer su “huella digital” que unida a la información M2M, a la proveniente de los sistemas y bancos de datos históricos, a la proveniente del uso de los servicios, a las derivadas de usos empresariales y comerciales, etc., proporciona a los Big Data una dimensión y variedad de información incorporada nunca alcanzada anteriormente. Lo que está permitiendo cambios radicales en el comportamiento de empresas, organismos públicos y la sociedad en su conjunto, pero también unas posibilidades crecientes de control y manipulación comercial y social

Una de las fuentes básicas de captación de información sobre los ciudadanos son las compañías telefónicas que, teóricamente, captan esa información “garantizando siempre la seguridad y privacidad de los clientes y el uso responsable de la información” pero que, en la práctica, disponen de una huella digital personalizada, que se ve ampliada radicalmente por las aplicaciones instaladas en los Smartphone, sobre la que los usuarios nos vemos obligados –si queremos su uso- a conceder amplias capacidades de recopilación de datos personales. Datos que, teóricamente se captan de manera no intrusiva y que, por tanto, no requieren de la participación de los usuarios, a la vez que se basan en comportamientos reales y dinámicos, lo que aporta veracidad y permite observar variaciones temporales en la información obtenida.

El Data Mining y los distintos tipos de IA aplicada sobre estos datos permite establecer patrones de comportamiento individuales y de grupos de población: dónde están en cada momento los ciudadanos, por dónde se mueven, dónde pernoctan, dónde trabajan, qué lugares visitan de manera recurrente, qué trayectos realizan, cuál es su motivación, qué perfil sociodemográfico tienen, etc. Y partiendo de esta realidad, lo que nos importa en este artículo son las consecuencias potenciales de todo este complejo sistema que va desde la captación de datos hasta su utilización para finalidades múltiples, para lo que quizás sea bueno partir de un ejemplo de lo que ya hoy se realiza de una forma sistemática.

Partiremos de la captación de datos por una cámara de video situada en un lugar público. Esta cámara, integrada en una red M2M[1], permite, mediante el tratamiento digital de imágenes y algoritmos de IA, la identificación de la persona basándose en las galerías de fotos disponibles en los Big Data. Atendiendo a la información de su tarjeta de compras, sabremos donde ha comprado, el importe de sus compras y la localización de los ámbitos y tipos de locales donde ha pagado, teniendo también sus comportamientos tradicionales de desplazamiento por la ciudad y sus ámbitos de relación. Información ampliada y ampliable a través de los datos proporcionados por el Smartphone que nos permite saber si se desplaza en transporte público o privado, con qué otros Smartphone/personas tiene pautas de coincidencia temporal/local, donde se relacionan y, en función de qué tipos de relaciones se producen en esas localizaciones, estimar sus hábitos, tendencias políticas,…

La privacidad de cualquier persona que, hoy por hoy quiera ser investigada, no existe. Su categorización comercial (el famoso “las personas que compraron este artículo también compraron…) y su inclusión en tipologías de marketing es día a día perfeccionada, lo que permite la publicidad dirigida y los condicionamientos de gustos de forma crecientemente eficiente. Pero también permite categorizar el tipo de información más adecuada a poner prioritariamente a disposición de cada cual según el interés del medio (selección de noticias destacadas dirigida,…). O agrupar a las personas según ideología y controlar “cédulas” o grupos culturales, de tendencias religiosas, sexuales, etc., con amplio peligro para la integridad de las personas en regímenes autoritarios.

Una situación crecientemente preocupante por la creciente asociación de cada ciudadano a sensores que permiten obtener información detallada de sus ideas, comportamientos, usos o relaciones productivas, sociales o de cualquier otro tipo, teóricamente siempre con autorización –no siempre consciente- del usuario. Información que va a para a grandes multinacionales que la venden convenientemente tratada, una vez aplicada la IA necesaria a los Big Data que incorporan toda la información de contexto, combinando el mayor número de fuentes relevantes posibles: perfil del usuarios del móvil; hábitos de navegación y aplicaciones instaladas; datos de geolocalización temporal; datos procedentes de wearables o de sensores instalados en establecimientos o cámaras ciudadanas; etc. Con ello se consigue un perfil detallado de cada ciudadano y su categorización en grupos homogéneos dentro de los Objetivos de los correspondientes análisis de la IA, que permite ofrecerle los productos o servicios que más se ajustan a sus necesidades o preferencias, lo desee o no. De hecho, hacerle sentir la necesidad de este producto o servicio es uno de los objetivos comerciales de estos procesos.

Las crecientes exigencias en ciberseguridad e inmunidad cibernética.

El aumento de la dependencia cibernética por el incremento de la hiperconectividad asociada al incremento de la interconexión digital de las personas y de las cosas, convierte en una necesidad creciente el aumento de la ciberseguridad en el ámbito de los distintos tipos de redes y de acceso a los sistemas de datos (Big Data) existentes. Por ello, la ciberseguridad se ha establecido como ámbito prioritario de intervención de los estados y de las empresas ante la necesidad de evitar caídas críticas en la infraestructura de los sistemas de información (internet, satélites de comunicación, etc.) que pueden producir muy graves consecuencias en los sistemas de producción, en los servicios, en las comunicaciones o en la seguridad personal.

Existen cinco tipos de actores (hackers) generadores de riesgo para la seguridad en Internet:

1)         Los activistas movidos por su lucha contra el sistema.

2)         Los motivados por la obtención de dinero por distintas vías: robo, engaño, timo, etc.

3)         Los topos internos de las organizaciones, venga su comportamiento motivado por aspectos lucrativos (clasificables en el tipo anterior, siendo los más frecuentes el espionaje industrial o el robo), o de otra índole (curiosidad irresponsable, espionaje ideológico, político o policiaco, etc.).

4)         Los hackers financiados o integrados en Organizaciones Gubernamentales, que son los que cuentan con más medios y recursos y son, por lo tanto, los más peligrosos. El ciberespacio es un ámbito de conflictos interestatales al convertirse en un nuevo campo de dominio geopolítico y lucha por el poder.

5)         Los terroristas, por ahora con un déficit de cualificación para su penetración en los sistemas, pero empeñados en su perfeccionamiento y con un potencial de riesgo tremendamente elevado por las consecuencias potenciales de sus acciones ante la fragilidad de la seguridad de las redes asociadas a muchos de los sistemas públicos, si no se cortocircuita su formación o capacidad de acción.

Los delitos en el ciberespacio se estima que cuestan a la economía global del orden de 445.000 millones de dólares anuales, superando el PIB de muchas economías nacionales. Karpersky Lab ha estimado, para España, un coste de 74.000€ para cada ataque cibernético con éxito a las Pymes españolas; y de 830.000€ para las grandes empresas.

Cara al futuro, se considera fundamental lograr que los sistemas de seguridad cibernética funcionen como el sistema inmunitario humano: sean capaces de generar una reacción conjunta del sistema atacado para combatir dicho ataque, de forma similar a como el cuerpo humano reacciona ante una infección o enfermedad. Para ello es fundamental que todos los componentes del sistema atacado funcionen integrados para lograr una detección y respuesta instantánea -o lo más rápida posible- bloqueando la amenaza y evitando sus efectos. Lo que exige que la ciberseguridad considere cuatro aspectos clave:

  • La colaboración simultánea y en tiempo real para la rápida reacción en todos los ámbitos interrelacionados del sistema atacado. Se estima que el coste medio de un ataque se puede disminuir en el entorno del 27% si se reduce el tiempo de identificación del mismo a la mitad.
  • La protección de la nube, en la medida en que los trabajos y los datos se mueven de forma creciente en entornos de nube híbrida.
  • La IA aplicada a los procesos de inmunidad cibernética, que debe ser capaz de integrar el conocimiento de las amenazas, su identificación instantánea y la capacidad de actuar con la mayor celeridad posible.
  • La aplicación de procesos de Machine Learning que permita intuir nuevas vías de ataque y adelantar situaciones de defensa integrada.

Machine Learning.

Como hemos señalado anteriormente, la IA esté íntimamente relacionada con la utilización de algoritmos que permitan el procesamiento de grandes cantidades de datos (Data Mining aplicada a sistemas de Big Data) para tomar decisiones, con la Robótica –a la que nos referiremos en un próximo artículo- y con desarrollos crecientes de una Machine Learning (ML) que, de alguna forma, como señalábamos en el artículo anterior, trata de reproducir y superar la inteligencia humana en la solución de problemas complejos, incluido el propio proceso de aprendizaje.

De hecho, la aplicación de sistemas de aprendizaje automático para evaluar y resolver problemas, que ahora se considera dentro de la ML, no es nueva y estaba integrada en los antiguamente denominados “sistemas expertos”, que “aprendían” con la reiteración de procesos. El sistema incorporaba nueva información asociada a los objetivos buscados, la contrastaba con la información disponible y con su adecuación a las reglas de análisis y decisión base de los algoritmos y programas de análisis establecidos en el sistema; y, en base a ello, establecía las probabilidades de producción de ciertas situaciones/conclusiones. Tras confirmar en la realidad los resultados proporcionados por el sistema, se incorporaba a la base de datos la nueva información y su grado de adecuación a los objetivos previstos, con lo que se mejoraba la capacidad de predicción del sistema experto.

La ML actúa de manera similar, extrayendo relaciones de las experiencias, o simulando ella misma esas experiencias, y derivando soluciones a nuevos problemas conocidos o a potenciales problemas todavía desconocidos, mediante el uso de distintos tipos de algoritmos específicos. Para hacer esto, la ML analiza procesos y en base a reglas predeterminadas, y usando algoritmos de autoaprendizaje, intenta reconocer ciertos patrones y regularidades en los datos, estableciendo nuevas conclusiones, reglas o algoritmos. El reconocimiento de voz es un proceso de aprendizaje perfeccionado por algoritmos, como también lo es el antes señalado reconocimiento facial de personas, por señalar ejemplos que se sitúan entre el campo de la IA y de la ML.

De hecho, la ML se suele asociar a procesos de generación de capacidades de aprendizaje para los propios ordenadores/máquinas. Autocapacidad de aprendizaje que viene muy bien reflejada en ML como la nueva versión desarrollada para DeepMind, denominada AlphaGo Zero, que cuenta con un nuevo algoritmo que le permite aprender a ganar de la nada, a solas con el tablero, las fichas y las reglas y objetivos del juego. Reglas y objetivos del juego sencillas que permiten establecer algoritmos apoyados en una red neuronal que permiten el aprendizaje inductivo por iteración de jugadas que el sistema realiza practicando consigo misma. La nueva versión completa el proceso de las anteriores, que habían sido capaces de ganar a jugadores humanos después de acumular y analizar un Big Data constituido por miles de partidas jugadas entre humanos.

El proceso de ML ejemplarizado por DeepMind, denominado de aprendizaje por refuerzo, es capaz de superar las capacidades humanas en campos con reglas básicas sencillas, simplemente por la vía de generar sus propios análisis y conocimientos por iteración de procesos. La capacidad de almacenamiento en un Big Data de la “propia experiencia” del sistema, y su capacidad de -por inducción iterativa- ir descubriendo tácticas, posiciones y movimientos adecuados a las reglas y objetivos establecidos, gracias a su capacidad de realizar millones de jugadas en poco tiempo, le permite generar estrategias innovadoras desconocidas más eficientes, que le conducen al triunfo frente a humanos. Esa capacidad de “crear” nuevas estrategias y soluciones más eficientes de los sistemas que incorporan algoritmos de ML es el elemento más valorable del sistema.

Y desde esa perspectiva, hay que mencionar la importancia de la experiencia de la ML sobre la que Google está experimentando -programa AutoML- en su capacidad para generar por ella misma nuevos algoritmos de IA. Las últimas informaciones facilitadas por esta empresa hacen referencia a que en el proceso de creación de estos algoritmos la ML es más eficiente (43% de éxito) que sus propios expertos (39% de éxito) gracias al proceso de “aprendizaje por refuerzo”. Auto ML es un algoritmo de aprendizaje automático que aprende a construir otros algoritmos de aprendizaje automático para fines determinados, facilitando extraordinariamente la ampliación de la IA a distintos campos de la actividad humana.

Se trataría no sólo de incorporar la IA a campos específicos de planificación, gestión y producción, sino de conseguir que los algoritmos asociados incorporen capacidad de aprendizaje en los campos específicos de actividad de las empresas o instituciones, para generar nuevos algoritmos que optimicen los objetivos perseguidos por éstas, con nuevas estrategias, métodos o acciones, que hagan crecer exponencialmente nuevas oportunidades en áreas como la salud, la educación, la energía, la economía, el bienestar social o el medio ambiente. Lo que, por otra parte, facilitará la ampliación de la sustitución del trabajo de las personas en tareas asociadas a campos crecientes de la actividad y de la producción.

Las fuertes implicaciones sociales, territoriales y ambientales de estos procesos quedan fuera de toda duda. Su integración con el resto de fenómenos que analizaremos en artículos sucesivos nos permitirán apreciar la magnitud de los retos a que nos enfrentamos en un futuro mucho más próximo de lo que nos podemos imaginar.

[1] Es importante hacer referencia al importante crecimiento de las conexiones M2M que, en España alcanzaron, en agosto de 2017, los 4,8 millones de líneas según la CNMC. Estas conexiones M2M (máquina a máquina) se refieren al intercambio de información o comunicación en formato de datos entre dos máquinas remotas. Actualmente la captación de datos asociada al M2M está presente en todas las ciudades y en el campo: cámaras urbanas de seguridad, alarmas domésticas, cámaras de control de tráfico, semáforos, parkings, terminales bancarias de pago, los terminales de punto de venta, los contadores de agua/gas/ electricidad, los paneles informativos en carreteras, las máquinas vending, el telemantenimiento de ascensores, las estaciones meteorológicas, los sensores en vehículos para la gestión de flotas, aerogeneradores, robots agrícolas para el control del riego o de plagas, etc.