Les techniques statistiques pour l’analyse de Big Data
Les structures de données
On distinguera des données structurées et des données non structurées :
données structurées : ce sont des données qui peuvent être organisées sous formes de tableau. Ces données peuvent être affichées par un tableur et contiennent des lignes et des colonnes de variables, variables dont l’ensemble des valeurs possibles peuvent être déterminés. Exemple : les âges d’une population. De plus, les bases de données structurées peuvent être aisément manipulés.
données non structurées : les textes issus de PDF, documents textes, des fichiers audio, des images, des messages issus de discussions instantanées… Ce sont des données qui semblent plus difficiles à catégoriser. Un exemple pour illustrer ce concept de données structurés et non structurés : Dans un mail, l’adresse mail du destinataire, la date sont des données structurées, tandis que le corps du message est une donnée non structurée. « Le monde numérique contiendrait seulement 5% de données structurées pour 95% de données non structurées ».
L’intérêt du recours au Big Data est d’analyser les données non structurées car celles-ci sont de plus en plus produites par le développement des échanges sur internet. En effet, de plus en plus de données liées aux sites web, aux mails, aux réseaux sociaux sont créés. C’est dans ce type de données qu’on peut identifier des informations pertinentes pour la sécurité, l’usage commercial, ou pour la recherche scientifique.
Secteur de la santé
L’analyse efficace et en temps réel des Big Data a déjà fait ses preuves dans le domaine de la santé. En effet, plusieurs modèles ont été testés pour améliorer le service médical privé et public, de même que la qualité de vie des patients, et ce, dans différents pays. Big Data peut encore révolutionner le domaine de la santé, non seulement en soutenant l’optimisation des services opérationnels, mais aussi en offrant des outils d’aide à la décision plus efficaces et en diminuant les coûts importants de ce secteur.
En bref, l’exploitation et l’intégration adéquate de larges sources de données médicales apportent plusieurs opportunités notables, en particulier :
– L’optimisation des services et des dépenses médicaux : L’analyse du Big Data aide les organismes oeuvrant dans le secteur de la santé à mieux détecter les services nécessitant une réorganisation et à suivre en temps réel la qualité des services rendus et la performance des unités médicales, de même que leurs besoins en approvisionnement humain et matériel.
– La personnalisation des services médicaux : A titre d’exemple, en exploitant l’analyse des données en temps réel, des modèles médicaux permettent de suivre à distance l’état des patients pour ajuster les doses ou faire des recommandations selon les symptômes relevés.
– Une meilleure prévention : Grâce à l’analyse avancée des flux de données cliniques collectés dans le secteur public et privé, les modèles prédictifs du Big Data peuvent aider à mieux planifier les moyens de prévention et à soutenir la gestion des épidémies, en particulier la détection précoce des signes alarmants touchant la santé de la population. Cela aide les décideurs à élaborer des plans de réponses optimisés selon le besoin de chaque région et selon la gravité des symptômes des individus.
– L’intégration de plusieurs sources médicales distribuées et hétérogènes constitue un défi de taille, afin de réussir ce pari et de mieux exploiter les opportunités du Big Data dans le secteur de la santé.
Secteur d’agriculture
L’accès aux flux de données reliées à l’agriculture provenant de plusieurs sources (capteurs intelligents, caméras, agriculteurs, données sur le climat, etc.) permettrait d’améliorer la productivité des terres agricoles, de planifier des stratégies efficaces de protection ou d’approvisionnement et de mieux suivre la demande du marché par région et par type de clients. Par exemple, un projet japonais vise à développer un system avancé d’analyse afin de recommander aux utilisateurs finaux, selon leurs préférences ou symptômes, la meilleure combinaison de produits alimentaires, les restaurants offrant le menu répondant aux exigences, et les producteurs offrant les produits désirés (tels que les produits bio). Le système vise à interconnecter les parties prenantes à travers une plateforme commune intégrant les données provenant de plusieurs acteurs (utilisateurs, restaurants, producteurs agricoles). Ce système permettrait d’accéder aux informations utiles par profil et une interaction entre ces acteurs.
|
Introduction
I. Présentation générale de Big Data
1. Qui ce que le Big Data ?
1.1 Définition
1.2 Les caractéristiques de Big Data
1.3 Les structures de données
1.4 Big Data en chiffre
1.5 Quand est ce qu’on peut Parler de Big Data ?
2. Les secteurs d’utilisation de Big Data
2.1 Secteur de la santé
2.2 Secteur de l’agriculture
2.3 Secteur du tourisme
2.4 Secteur du transport
2.5 Secteur des technologies
2.6 Secteur de marketing
2.7 secteur de commerce
2.8 secteur industriel
3. Enjeux de Big Data
3.1 Enjeux techniques
3.2 Enjeux économiques
3.3 Enjeux juridiques
II. Les techniques statistiques pour l’analyse de Big Data
1. Le statisticien et le Big Data
2. La classification
2.1 Algorithme de classification hiérarchique (CAH)
2.2 Algorithme des centres mobiles (K-means)
3. La régression linéaire
3.1 La régression linéaire simple
3.1.1 Estimation des paramètres β0 et β1
3.1.2 Estimation du paramètre σ2
3.1.3 Inférence concernant la moyenne de la distribution conditionnelle Y à X = Xh
3.1.4 Analyse de la variance
3.2 La régression linéaire multiple
3.2.1 Estimation des paramètres βi
3.2.2 Analyse de la variance en régression multiple
3.2.3 Estimation du paramètre σ2
3.2.4 Test de signification de la régression dans son ensemble
3.2.5 Contribution marginal et estimation par intervalle
3.2.6 Estimation de E(Yh) par intervalle de confiance
3.3 La Régression linéaire divisée
III. Résultats expérimentaux de l’exemple 1
IV. Résultats expérimentaux de l’exemple 2
V. Conclusion et discussion
Références
Télécharger le rapport complet
