images 2020 04 05T101901.657
mars 6, 2020 Par bourse 0

5 méthodes d'analyse statistique qui font passer les données au niveau supérieur

L'entreprise moyenne a radicalement changé au cours de la dernière décennie.

Que ce soit l'équipement utilisé au bureau ou le logiciel utilisé pour communiquer, très peu de choses se ressemblent comme avant.

Une autre chose qui est complètement différente est la quantité de données que nous avons à portée de main. Ce qui était rare maintenant, c'est une quantité apparemment écrasante de données. Mais, ce n'est écrasant que si vous ne savez pas comment analyser les données de votre entreprise pour trouver un sens perspicace et vrai.

Alors, comment passez-vous du point A, qui contient une grande quantité de données, au point B, et est capable d'interpréter ces données avec précision? Tout se résume à utiliser les bonnes méthodes d'analyse statistique, c'est-à-dire comment nous traitons et collectons des échantillons de données pour découvrir les modèles et les tendances.

Pour cette analyse, il y a cinq choix: moyenne, écart-type, régression, test d'hypothèse et détermination de la taille de l'échantillon.

Les 5 méthodes pour effectuer une analyse statistique

Il est indéniable que le monde devient obsédé par les mégadonnées, que vous soyez ou non scientifique des données. Pour cette raison, vous devez savoir par où commencer. Ces cinq méthodes sont fondamentales, mais efficaces, pour parvenir à des conclusions précises sur la base des données.

1. Moyenne

La première méthode utilisée pour effectuer une analyse statistique est la moyenne, communément appelée moyenne. Lorsque vous cherchez à calculer la moyenne, additionnez une liste de nombres, puis divisez ce nombre par les éléments de la liste.

Lorsque cette méthode est utilisée, elle permet de déterminer la tendance globale d'un ensemble de données, ainsi que la possibilité d'obtenir une vue rapide et concise des données. Les utilisateurs de cette méthode bénéficient également d'un calcul simple et rapide.

La moyenne statistique atteint le point central des données en cours de traitement. Le résultat est connu comme la moyenne des données fournies. Dans la vraie vie, les gens utilisent souvent la méchanceté en matière de recherche, d'universitaires et de sports. Pensez au nombre de fois où la moyenne au bâton d'un joueur au baseball est discutée; c'est votre moyenne.

Comment trouver la moyenne

Pour trouver la moyenne de vos données, vous devez d'abord ajouter les nombres, puis diviser la somme par le nombre de nombres dans l'ensemble de données ou la liste.

Par exemple, pour trouver la moyenne de 6, 18 et 24, vous devez d'abord les additionner.

6 + 18 + 24 = 48

Divisez ensuite par le nombre de nombres dans la liste (3).48/3 = 16La moyenne est de 16.

La baisse

Lorsque l'utilisation de la moyenne est excellente, elle n'est pas recommandée comme méthode d'analyse statistique indépendante. En effet, cela peut ruiner l'ensemble des efforts derrière le calcul, car il est également lié au mode (la valeur la plus fréquente) et à la médiane (la moyenne) dans certains ensembles de données.

Lorsqu'il s'agit d'un grand nombre de points de données avec un grand nombre de valeurs aberrantes (un point de données qui diffère considérablement des autres) ou d'une distribution inexacte des données, la moyenne ne fournit pas les résultats les plus précis de l'analyse statistique pour Une décision précise.

2. Écart type

L'écart type est une méthode d'analyse statistique qui mesure la dispersion des données autour de la moyenne.

Lorsqu'il s'agit d'un écart-type élevé, cela indique des données largement étendues par rapport à la moyenne. De même, un faible écart montre que la plupart des données sont conformes à la moyenne et peuvent également être appelées la valeur attendue d'un ensemble.

L'écart type est principalement utilisé lorsqu'il est nécessaire de déterminer la dispersion des points de données (qu'ils soient groupés ou non).

Supposons que vous êtes un vendeur qui a récemment mené une enquête auprès des clients. Une fois que vous aurez obtenu les résultats de l'enquête, vous souhaiterez mesurer la fiabilité des réponses pour prédire si un plus grand groupe de clients pourrait avoir les mêmes réponses. Si un faible écart-type se produit, cela montrerait que les réponses peuvent être projetées à un plus grand groupe de clients.

En savoir plus: Le clustering est une technique d'exploration de données qui regroupe de grandes quantités de données en fonction de leurs similitudes.

Comment trouver l'écart-type

La formule pour calculer l'écart type est:

Dans cette formule:

  • Le symbole de l'écart type est σ
  • Σ représente la somme des données
  • x représente la valeur de l'ensemble de données
  • μ représente la moyenne des données
  • σ2 représente la variance
  • n représente le nombre de points de données dans la population

Pour trouver l'écart type:

  1. Trouver la moyenne des nombres dans l'ensemble de données
  2. Pour chaque nombre dans l'ensemble de données, soustrayez la moyenne et le carré du résultat (qui est cette partie de la formule (x – μ) 2).
  3. Trouvez la moyenne de ces différences au carré
  4. Prenez la racine carrée de la réponse finale.

Si vous avez utilisé les trois mêmes nombres dans notre exemple moyen, 6, 18 et 24, l'écart-type, ou σ, serait de 7,4833147735479.

La baisse

Sur une note similaire à l'inconvénient de l'utilisation de la moyenne, l'écart-type peut être trompeur lorsqu'il est utilisé comme seule méthode dans votre analyse statistique.

Par exemple, si les données avec lesquelles vous travaillez ont trop de valeurs aberrantes ou un motif impair comme une courbe non normale, l'écart-type ne fournira pas les informations nécessaires pour prendre une décision éclairée.

3. Régression

En matière de statistiques, la régression est la relation entre une variable dépendante (les données que vous cherchez à mesurer) et une variable indépendante (les données utilisées pour prédire la variable dépendante).

Cela peut également s'expliquer par la manière dont une variable affecte une autre, ou par des changements dans une variable qui déclenchent des changements dans une autre, essentiellement de cause à effet. Cela implique que le résultat dépend d'une ou plusieurs variables.

La ligne utilisée dans les tableaux et graphiques d'analyse de régression indique si les relations entre les variables sont fortes ou faibles, en plus de montrer les tendances sur une période de temps spécifique.

Tableau d'analyse de régression

Ces études sont utilisées dans l'analyse statistique pour faire des prévisions et prévoir les tendances. Par exemple, vous pouvez utiliser la régression pour prédire comment un produit ou un service spécifique peut se vendre à vos clients. Ou, ici au G2, nous utilisons la régression pour prédire à quoi ressemblera notre trafic organique dans 6 mois.

Formule de régression

La formule de régression utilisée pour voir à quoi pourraient ressembler les données à l'avenir est la suivante:

Dans cette formule:

  • A fait référence à l'intersection y, la valeur de y lorsque x = 0
  • X est la variable dépendante
  • Y est la variable indépendante
  • B se réfère à la pente ou à la montée sur la piste

La baisse

Un inconvénient de l'utilisation de la régression dans le cadre de votre analyse statistique est que la régression n'est pas très distinctive, ce qui signifie que si les valeurs aberrantes dans un nuage de points (ou un graphique d'analyse de régression) sont importantes, les raisons le sont également pourquoi ils sont aberrants. Cette raison peut être une erreur d'analyse ou des données mal mises à l'échelle.

Un point de données marqué comme une valeur aberrante peut représenter de nombreuses choses, comme votre produit le plus vendu. La ligne de régression vous invite à ignorer ces valeurs aberrantes et à simplement regarder les tendances dans les données.

4. Test d'hypothèse

En analyse statistique, le test d'hypothèse, également connu sous le nom de «T-Test», est une clé pour tester les deux ensembles de variables aléatoires dans l'ensemble de données.

Cette méthode consiste à tester si un certain argument ou conclusion est vrai pour l'ensemble de données. Il permet de comparer les données avec diverses hypothèses et hypothèses. Il peut également aider à prévoir comment les décisions prises peuvent affecter les affaires.

En statistique, un test d'hypothèse détermine une certaine quantité sous une hypothèse donnée. Le résultat du test interprète si l'hypothèse est vraie ou si l'hypothèse a été violée. Cette hypothèse est connue sous le nom de hypothèse nulle, ou hypothèse 0. Toute autre hypothèse qui serait en violation de l'hypothèse 0 est appelée première hypothèse, ou hypothèse 1.

Lorsque vous effectuez un test d'hypothèse, les résultats du test sont statistiquement significatifs si les résultats prouvent que cela n'aurait pas pu se produire par hasard ou par hasard.

À titre d'exemple, vous pouvez supposer que plus il faudra de temps pour développer un produit, plus il réussira, ce qui se traduira par des ventes plus élevées que jamais. Avant de mettre en œuvre plus d'heures de travail pour développer un produit, le test d'hypothèse garantit qu'il existe un lien réel entre les deux.

Formule de test d'hypothèse

Les résultats d'un test d'hypothèse statistique doivent être interprétés pour faire une déclaration spécifique, connue sous le nom de valeur p.

Disons que ce que vous cherchez à déterminer a 50% de chances d'être correct.

La formule de ce test d'hypothèse est:

H0: P = 0,5

H1: P ≠ 0,5

La baisse

Les tests d'hypothèse peuvent parfois être obscurcis et biaisés par des erreurs courantes, telles que l'effet placebo. Cela se produit lorsque les analystes statistiques qui effectuent le test s'attendent à tort à un certain résultat, puis voient ce résultat, quelles que soient les circonstances.

Il existe également la possibilité d'être biaisé par l'effet Hawthorne, également appelé effet observateur. Cela se produit lorsque les participants analysés faussent les résultats parce qu'ils savent qu'ils sont à l'étude.

Connexes: En savoir plus sur les tests d'hypothèse précis avec une plongée profonde dans l'analyse inférentielle.

5. Détermination de la taille de l'échantillon

Lorsqu'il s'agit d'analyser des données pour une analyse statistique, parfois l'ensemble de données est tout simplement trop volumineux, ce qui rend difficile la collecte de données précises pour chaque élément de l'ensemble de données. Lorsque c'est le cas, la plupart empruntent la voie de l'analyse d'une taille d'échantillon, ou d'une taille plus petite, de données, ce qui s'appelle déterminer la taille de l'échantillon.

Pour le faire correctement, vous devrez déterminer la taille d'échantillon correcte pour être précis. Si la taille de l'échantillon est trop petite, vous n'aurez pas de résultats valides à la fin de votre analyse.

Pour parvenir à cette conclusion, vous utiliserez l'une des nombreuses méthodes d'échantillonnage des données. Vous pouvez le faire en envoyant une enquête à vos clients, puis en utilisant la méthode d'échantillonnage aléatoire simple pour choisir les données client à analyser au hasard.

D'un autre côté, une taille d'échantillon trop grande peut entraîner une perte de temps et d'argent. Pour déterminer la taille de l'échantillon, vous pouvez examiner des aspects tels que le coût, le temps ou la commodité de la collecte de données.

Trouver une taille d'échantillon

Contrairement aux quatre autres méthodes d'analyse statistique, il n'y a pas de formule robuste et rapide à utiliser pour trouver la taille de l'échantillon.

Cependant, il y a quelques conseils généraux à garder à l'esprit lors de la détermination d'une taille d'échantillon:

  1. Lorsque vous envisagez un échantillon plus petit, faites un recensement
  2. Utilisez une taille d'échantillon provenant d'une étude similaire à la vôtre. Pour cela, vous pouvez envisager de consulter les bases de données académiques pour trouver une étude similaire.
  3. Si vous menez une étude générique, il peut déjà y avoir un tableau que vous pouvez utiliser à votre avantage
  4. Utilisez un calculateur de taille d'échantillon
  5. Tout simplement parce qu'il n'y a pas un La formule spécifique ne signifie pas que vous ne pourrez pas trouver une formule qui fonctionne. Il y en a beaucoup que vous pourriez utiliser, et cela dépend de ce que vous savez ou ne savez pas sur l'échantillon proposé. Certains de ceux que vous pourriez envisager d'utiliser sont la formule de Slovin et la formule de Cochran

La baisse

Lorsque vous analysez une variable de données nouvelle et non testée dans cette méthode, vous devrez vous baser sur certaines hypothèses. Cela pourrait entraîner une hypothèse complètement incorrecte. Si cette erreur se produit pendant cette méthode d'analyse statistique, elle peut affecter négativement le reste de votre analyse de données.

Ces erreurs sont appelées erreurs d'échantillonnage et sont mesurées par un intervalle de confiance. Par exemple, si vous déclarez que vos résultats sont à un niveau de confiance de 90%, cela signifie que si vous effectuez la même analyse encore et encore, 90% du temps, vos résultats seront les mêmes.

Une méthode pour la folie

Quelle que soit la méthode d'analyse statistique que vous choisissez, veillez à prendre particulièrement en compte tous les inconvénients possibles, ainsi que sa formule unique.

Bien sûr, il n'y a pas d'étalon or ni de méthode correcte ou incorrecte à utiliser. Cela dépendra du type de données que vous avez collectées, ainsi que des connaissances que vous souhaitez obtenir comme résultat final.

Êtes-vous intéressé à trouver le bon outil pour analyser davantage les données? Découvrez notre tour d'horizon des meilleurs logiciel d'analyse statistique même pour les analyses les plus complexes.