Privacy Enhancing Technologies en el entorno IoT

La minimización de datos es un principio marco dentro del ecosistema del Internet de las Cosas (IoT), en tanto que este presenta desafíos únicos, como es la complejidad de actuadores y sensores que intervienen ya desde la capa 0 a la hora de recopilar información del interesado.

Por hacerlo más visual, imaginemos un dispositivo cuya finalidad principal es la de monitorear la frecuencia cardíaca del usuario en tiempo real y notificarle cuando esta supere ciertos umbrales predefinidos para advertirle de posibles problemas de salud, como una taquicardia o una arritmia.

Esto implica que, bajo el principio de minimización, los datos a recopilar necesariamente son la frecuencia cardíaca actual y las configuraciones de notificación de umbral establecidas por el usuario, pero no así la información detallada sobre otros aspectos del comportamiento, como los patrones de sueño, la cantidad de pasos diarios, o el historial completo de las frecuencias cardíacas anteriores, pues esta información pertenece a finalidades ulteriores que no son estrictamente necesarias para cumplir con la funcionalidad principal del dispositivo, si bien eso no quiere decir que no puedan llegar a suministrarse.

Pero, además, debemos tener en cuenta cómo se mueve esta información, no sólo en el dispositivo, sino en la aplicación en la que estos se muestran y configuran, y en el resto de sistemas del fabricante y terceros relacionados. 

Siguiendo el ejemplo, en la capa física encontramos un sensor de frecuencia cardíaca óptico que captura en tiempo real los latidos del corazón, pero también podemos contar con acelerómetros y giroscopios que detecten la actividad física, o sensores de temperatura u oxígeno. Estos recopilan datos que son comunicados con otros dispositivos, ir a la nube o ser preprocesados en local (Edge computing) antes de ser enviados, donde podríamos realizar un “filtro” de aquello que se va a comunicar.

Tomando lo anterior en consideración, así como la obligación de realizar el ejercicio de preservar la protección de datos desde el diseño y por defecto, y la sensibilidad del tratamiento, debemos hacer alusión al papel que juegan las Privacy Enhancing Technologies (PETs).

Las PETs son soluciones o métodos para lograr una funcionalidad específica dentro del ámbito de la protección de datos para proteger contra los riesgos a la privacidad a los que se enfrenta una entidad a la hora de realizar un tratamiento de datos, bien de una persona individual o bien de un grupo de estas. 

De las múltiples opciones a la hora de clasificar estas PETs, podemos realizar una clasificación a muy alto nivel entre aquellas que dependen de la confiabilidad de un tercero para proteger los datos, lo que supone que una vez que el usuario comparte sus datos con el tercero, el control de esos datos se delega al proveedor, de las que reducen esta dependencia, asumiendo que los usuarios juegan un papel activo en la protección de sus datos en lugar de depender de este.

Ejemplos de ello los encontramos en la ofuscación, la privacidad diferencial, la encriptación homomórfica, el aprendizaje federado, las pruebas de conocimiento cero o la generación de datos sintéticos.

Ahora bien, no siempre pueden aplicarse todas las tecnologías a todos los tratamientos, por lo que es recomendable utilizar metodologías de comparación sobre aplicación y análisis de beneficios. En este sentido, una opción es hacer uso de la metodología PRISMA con la finalidad de estructurar las evidencias durante el proceso a través de las siguientes preguntas:

  • ¿Cuáles son los aportes teóricos acerca de la técnica en el contexto de protección de los datos personales?
  • ¿Cuáles son los procedimientos de aplicación para la protección de estos datos?
  • ¿Cuáles son los beneficios y limitaciones a la hora de implementarlos?

En este caso, debemos tener en cuenta que la precisión de la finalidad principal impide utilizar ciertas técnicas, como la inclusión de ruido, dado que el paciente requiere de información precisa, pues de lo contrario su salud podría verse seriamente afectada. Sin embargo, para todos aquellos tratamientos ulteriores, como el uso de los datos para mejorar el producto o recomendaciones nutricionales en base a su estado, sí son útiles.

En este sentido, dentro de las PETs encontramos el uso de la K-Anonimidad, L- Diversidad y T-Proximidad como estrategias para proteger la privacidad de los individuos en un conjunto de datos.

  • K-Anonimidad

Este principio garantiza que la información contenida en un conjunto de datos no pueda ser utilizada para identificar a una persona específica, asegurando que cada dato sea indistinguible entre un grupo de al menos K individuos. En otras palabras, para cada registro en una base de datos debe haber al menos k registros diferentes con los mismos atributos. 

En el contexto del dispositivo, este principio se aplicaría asegurando que cualquier combinación de estas métricas no pueda ser vinculada a menos de, por ejemplo, K=5 individuos, lo que significa que cada combinación de estos datos debe aparecer en al menos cinco usuarios diferentes.

  • L-Diversidad

Esta asegura que cada grupo de datos tenga al menos L valores distintos para una característica específica. Siguiendo el ejemplo anterior, esto podría significar que, a la hora de recopilar datos sobre la actividad física, cada grupo de datos debería incluir al menos L tipos distintos (como caminar, correr, y bicicleta).

Por ejemplo, si aplicamos la diversidad-L con L=3 a un monitor de actividad física, significa que cada grupo de usuarios con similares frecuencias cardíacas y pasos diarios debe realizar al menos tres tipos de actividades diferentes, evitando deducir información precisa sobre un individuo basándose en la homogeneidad de los datos.

  • T-Proximidad

La Proximidad-T se refiere a la propiedad en la cual la distancia entre los datos originales y los datos anonimizados no debe exceder un umbral específico T. En otras palabras, esta técnica busca que las modificaciones realizadas en los datos originales para anonimizarlos sean mínimas y controladas dentro de un rango aceptable.

Por ejemplo, si la frecuencia cardíaca original es de 75 bpm, la proximidad-T podría requerir que la frecuencia cardíaca anonimizada esté dentro de un rango de 70 a 80 bpm.

En conclusión, la idea es que los datos estén lo suficientemente cerca de los datos originales para que sigan siendo útiles para esos otros tratamientos, pero lo suficientemente alejados para proteger la privacidad del individuo, por lo que el uso de las PETs, aun cuando pueden incrementar el nivel de inversión y complejidad, revierten en beneficios a la hora de proteger los datos en un mundo cada vez más conectado.