Le Big Data a constitué une tendance cruciale dans l'informatique au cours de la dernière décennie, et à mesure que de plus en plus de données sont créées, la question pour les entreprises est de savoir où elles sont stockées, qui y a accès et comment y accéder. Dan Raywood se penche sur ces questions.

Au cours de la dernière décennie, le concept de Big Data est devenu plus répandu à mesure que davantage de données sont créées et que des technologies sont nécessaires pour les analyser et les traiter.

Pour déterminer les enjeux, il est d’abord important de comprendre d’où vient le Big Data. Selon un livre blanc publié en 2001 par Doug Laney, le Big Data est créé par : Le volume, dans le sens où il est constitué d'énormes quantités de données ; La vitesse, telle qu'elle est créée en temps réel ; et Variété, car il existe des types structurés, semi-structurés et non structurés.

Un blog de SAS a en outre souligné l'augmentation du volume des organisations collectant des données provenant de diverses sources, notamment les transactions, les appareils intelligents (IoT), les équipements industriels, les vidéos, les images, l'audio, les médias sociaux et bien plus encore. En outre, la quantité de données créées par ces sources a augmenté la vitesse, car « les données circulent dans les entreprises à une vitesse sans précédent et doivent être traitées en temps opportun ».

SAS a également souligné deux autres éléments : la variabilité, car les flux de données sont imprévisibles et les entreprises doivent gérer des pics de charge de données quotidiens, saisonniers et déclenchés par des événements ; et Veracity, faisant référence à la qualité des données. « Étant donné que les données proviennent de nombreuses sources différentes, il est difficile de relier, faire correspondre, nettoyer et transformer les données entre les systèmes. »

Le Big Data est donc constitué d'un grand nombre d'instances, ce qui a créé ces « lacs de données » qui s'avèrent difficiles à gérer.

Plus tôt cette année, j'ai assisté à une conférence à Londres où l'un des intervenants, Tim Ayling, vice-président des spécialistes de la sécurité des données EMEA chez Imperva, a parlé des défis du Big Data, affirmant que nous « ne passons pas assez de temps à examiner les données en raison de la simple complexité » et a demandé au public s’il pouvait identifier où se trouvent leurs données, qui y a accès et comment ils y accèdent. 

Lors d'une conversation avec ISMS après l'événement, nous lui avons demandé pourquoi, selon lui, la gestion et le contrôle des accès constituent un défi majeur pour les entreprises. Il affirme que la quantité de données est l’une des raisons du problème. Il y a « une prise de conscience pour les gens que les données sont désormais partout, et il y en a tellement et certaines d'entre elles sont connues, certaines d'entre elles sont des données fantômes qui pourraient être n'importe où et elles ont simplement été créées sans aucun processus derrière elles ». Cela est à l’origine de la grande variété de données auxquelles les entreprises doivent désormais faire face.

Il affirme qu'avant que le Big Data ne devienne la norme, les données se trouvaient souvent dans des bases de données Oracle ou SQL, mais qu'elles sont désormais structurées et non structurées et dans des bases de données dont les entreprises ne connaissent même pas l'existence. 

Du côté de l’accès, le défi réside dans l’accès de plusieurs parties prenantes, et c’est là que le contrôle est perdu. Ayling est d'accord, affirmant que les humains veulent se rendre les choses aussi faciles que possible et que, malgré la politique de l'entreprise, les employés continueront d'utiliser des outils grand public pour transférer des fichiers dans un souci d'efficacité.

Rowenna Fielding, directrice de Miss IG Geek Ltd, affirme que l'accès au « Big Data » n'est pas différent des contrôles d'accès à tout autre actif informationnel : il doit être basé sur le besoin de savoir et le moindre privilège.

"Le défi avec la mode des "lacs de données" est que les objectifs sont souvent spéculatifs, c'est-à-dire "faire passer tout cela par un algorithme et voir si quelque chose d'utile apparaît", ce qui rend difficile la vérification et la limitation de l'accès par objectif", dit-elle. .

« Idéalement, une organisation « Big Data » devrait disposer d'une équipe d'analystes de données soucieux de l'éthique et du droit, capables de travailler avec les parties prenantes pour transformer les demandes de renseignements en requêtes de données (et être en mesure de donner des conseils sur les limites ou les biais au sein de l'ensemble) plutôt que de accordant un accès direct, mais la prolifération des plates-formes cloud est conçue pour rendre l'exploration de données facile et accessible, [et cela] dissuade les organisations d'imposer – ou même d'envisager – de mettre en place des contrôles restrictifs.

Une option pour l'accès géré pourrait être une politique basée sur les rôles. Spectral affirme que cela peut aider à contrôler l’accès aux nombreuses couches de pipelines Big Data. « Le principe des moindres privilèges est une bonne référence pour le contrôle d'accès en limitant l'accès aux seuls outils et données strictement nécessaires à l'exécution des tâches d'un utilisateur. »

Le concept de moindre privilège, voire de Zero Trust, et d'accès par nécessité de connaître est-il possible ? Ayling dit que la réponse évidente est « oui », car cela signifie que tout le monde a les privilèges appropriés, « mais en rêver et le faire sont des choses très différentes ». 

L'utilisateur moyen a accès aux fichiers et aux applications, mais à quelle fréquence appelle-t-il le service d'assistance ou un administrateur pour lui dire qu'il n'a plus besoin d'y accéder ? Ayling déclare : « Nous avons tous été dans des endroits où vous avez besoin d'un niveau d'accès pour quelque chose pour une tâche particulière, et le plus simple est de vous donner un accès global, et vous y êtes, et vous avez littéralement tout parce que c'est le chose facile à faire. Ce n’est pas inhabituel du tout.

Concernant le contrôle de l'accès au Big Data, Fielding affirme que c'est « une erreur d'être trop prescriptif sur les méthodes et mécanismes de contrôle, car il n'y a pas de réponse universelle ».

Elle affirme que les mêmes principes de confidentialité, d’intégrité et de disponibilité s’appliquent tout autant aux données à grande échelle structurées de manière informelle qu’aux feuilles de calcul, aux courriers électroniques ou aux ordinateurs portables ; cependant, le processus consistant à déterminer qui a besoin de quoi, quand et où devient plus compliqué.

La gestion des accès ne se limite pas à savoir qui a accès et à garantir que les attaquants ne pénètrent pas dans votre réseau. Il s'agit de limiter l'accès aux données et de garantir que les employés ne puissent consulter que les informations pertinentes pour leur travail. Il s'agit d'un facteur critique de l'annexe A.27001 de la norme ISO 9, et à mesure que le Big Data est devenu plus évident dans le fonctionnement du monde, en limiter l'accès doit également être pris en compte et doit faire partie de votre stratégie de risque. 

Le Big Data est une tendance millénaire de l'informatique globale, et nous, en cybersécurité, nous nous sommes concentrés sur leur analyse, leur stockage et leur accès. Ce dernier point est le plus critique pour la sécurité des données et des informations : des contrôles d'accès doivent être mis en place le plus tôt possible sur le Big Data, car le volume, la vitesse et la variété augmentent constamment et il ne faut pas qu'il soit trop tard pour agir. .