Il y a deux grandes stratégies d’études quantitatives qui sont le recensement qui consiste à interroger individuellement toute une population, et le sondage qui est une enquête effectuée sur un sous ensemble ou échantillon de la population.
I. Les 2 grandes stratégies d’études quantitatives
1. Le recensement qui a pour but de dénombrer
Il nécessite des moyens matériels, humains et financiers d’autant plus important que la population est grande
Les résultats sont longs à exploiter et à publier
Le recensement n’est donc utilisé que lorsque la population est de taille réduite (exemple : étude des acheteurs très profilés, études internes primaires, etc.).
2. Le sondage qui a pour but d’estimer
C’est une enquête d’un échantillon de la population dont on veut connaître les caractéristiques, les opinions, les attitudes, les comportements passés et ou les intentions d’achat.
La validité de l’estimation dépend d’un grand nombre de facteur.
II. Les méthodes d’échantillonnage
Elles permettent de constituer un échantillon d’une population mère également appelée population de référence ou univers. Il existe 2 grandes méthodes d’échantillonnage :
Les méthodes probabilistes qui consistent à tirer au sort l’échantillon dans la population à étudier, donnant à chacun des éléments de celle-ci une probabilité connue non nulle, d’être sélectionnée.
Les méthodes non probabiliste : qui reposent sur un choix raisonné d’individus de la population en respectant les règles fixées à l’avance, concernant les caractéristiques individuelles (quotas) et/ou les lieux d’enquête et/ou le moment d’enquête, etc.
A. Les méthodes probabilistes
Ce sont les règles qui permettent de calculer la marge d’erreur de destination à certains seuils de conscience. Il existe plusieurs méthodes probabilistes :
le sondage aléatoire simple
le sondage en grappes
le sondage aréolaire
le sondage a plusieurs degrés
le sondage stratifié, proportionnel ou non
Elles nécessitent une base de sondage, c’est-à-dire une liste exhaustive des éléments constituant la population : individu, éléments ou unité de sondages (grappe, zone géographique, etc.
a. Les sondages aléatoires simples ou sondages au hasard
À partir de la base de sondage de la population, un tirage au sort est organisé donnant à chaque individu de la population une probabilité égale non nulle, d’être interrogé.
Il existe de nombreuses méthodes du tirage au sort. Les deux plus utilisées actuellement sont :
l’utilisation de logiciels de nombre au hasard
le tirage systématique
Méthodes
Avantages
Inconvénients
Utilisation d’un logiciel de nombre ou hasard
La société détentrice du fichier le fait généralement
- La nécessité de numéroter tous les individus du fichier
En cas de taux de réponse faible
Tirage systématique
La simplicité : une suite arithmétique dans la raison est égale à N/n
- le biais éventuel en cas de classement des individus dans le fichier : zone PCS etc.
Exemple d’un tirage systématique :
On retient chacun N/ième individus de la base de sondage. La population est de 100 000 individus. On souhaite interroger sans individus, le taux de sondage n/N est à 1/1000e.
Quand il ressort à nombre entre un et 1000 : supposons 465. On interroge les individus dont le numéro d’identifier en sont 465, 1465, 2465, 3465, 4465,...,99 465.
b. Le sondage en grappes
Cette méthode d’échantillonnage probabiliste consiste à tirer au sort, dans une base de sondages d’unités de sondage, un certain nombre (au moins 30) de grappes d’éléments statistiques, appelés grappes et interroger tous les individus.
Exemple de gras :
un ménage est une grappe de personnes physiques
une entreprise est une grappe de salariés
une association est une grappe de membres
Le sondage en grappes est utilisé dans deux cas :
lorsqu’il existe pas de base de sondage d’individus éléments mais qu’il existe une base de sondage de grappes (unités de sondage) : annuaire des entreprises, annuaire de téléphone, annuaire des associations, etc.
lorsqu’on veut réduire nos coûts d’administration des questionnaires induits par la dispersion des personnes interrogées
Exemple : en interrogeant quatre personnes par ménage, en moyenne et il n’y aura que 250 points d’enquête pour interroger un échantillon de 1000 individus, au lieu de 1000 lieux d’enquêtes dans un sondage aléatoire simple.
Avantages
Inconvénients
- le grand nombre de bases de sondages de grappes disponibles
la moindre contrainte légale relative à l’informatique, aux fichiers, et aux libertés
la réduction des coûts de dispersion géographique
- en cas d’effet de grappes, l’effet psychologique de ressemblance des individus appartenant à une même grappe pousse soit à choisir une autre méthode d’échantillonnage, soit à n’interroger qu’un individu par grappe (date anniversaire)
c. Le sondage aréolaire
Cette méthode probabiliste consiste :
A découper le territoire de l’enquête en zones géographiques (bâtiments, quartiers, rues, communes, rues, zones rurales, etc.)
A tirer au sort au moins 30 de ces zones
Puis à interroger tous les individus de la population à étudier, vivants dans chacune des zones sélectionnées.
Avantages
Inconvénients
- la possession d’un véritable fichier nominatif n’est pas nécessaire
la facilité d’utilisation y compris dans des pays ayant peu de statistiques démographique (âge, sexe, etc, ...)
- la difficulté d’interroger tous les individus d’une même zone : absences, refus de répondre, trop grand nombre, etc,...
le découpage des zones dont la densité démographique est comparable pour éviter des sur représentation de certaines zones.
Le sondage aréolaire est souvent combiné avec une méthode d’échantillonnage empirique, notamment avec la méthode des quotas.
d. Le sondage à plusieurs degrés
Cette méthode probabiliste consiste à effectuer à différents niveaux successifs, un tirage au sort. On tire au sort dans une base de sondage centralisatrice des unités de sondage primaires, dans celle si on tire des unités de sondage secondaires et ainsi de suite, jusqu’au tirage au sort des individus éléments (personnes physiques ou morales) à interviewer. Pour respecter la loi des grands nombres, à chaque nouveau tirage, il faut tirer au sort au minimum 30 unités ou éléments.
Exemple : on tire au sort 30 départements sur les 95 que compte la France métropolitaine, sur les 30 départements tirés, on tire au sort 35 communes, et dans les 1050 communes tirées (30x35) on interroge le maire ou son représentant délégué au sport.
Avantages
Inconvénients
- facilité de l’organisation des tirages successifs
utilisation des découpages administratifs ou géographiques ou autres (escaliers, etc.)
réduction des coûts de dispersion
- le nombre de tirages est généralement limité à 2 pour ne pas interroger trop d’individus (30x30=900)
le risque de choisir des niveaux qui biaisent les résultats (ex : les zones rurales, plus nombreuses que les urbaines ont plus de chance d’être tirées au sort)
La fixation de la taille minimale d’un échantillon probabiliste :
Dans le domaine probabiliste, la taille de la population mère n’a pas d’incidence sur la taille de l’échantillon, sauf lorsque le taux de sondage n/N est > ou égal à 1/7 (soit 14.3%)
Plus la taille de l’échantillon augmente plus la précision de k’estimation croît, donc plus le tirage d’erreur diminue.
Plus la taille augmente, plus le coût du sondage est élevé plus le budget d’enquête nécessaire augmente.
Donc la fixation de la taille d’un échantillon dépend :
du budget de l’étude (voir les méthodes budgétaires et les coûts unitaires des questionnaires remplies)
de la marge d’erreur que le chargé de l’étude accepte de commettre dans son estimation, à un certain seuil de confiance qu’il a lui-même choisi.
Le taux de sondage n/N auquel on arrive et qui nous place soit dans le cas d’un sondage non exhaustif soit dans celui d’un sondage dit exhaustif.
La variable à estimer : une proportion (%) ou une moyenne (variance).
La fixation de la taille minimale d’un sondage probabiliste, non exhaustif dont le but est d’estimer un %.
Les conditions de calcul :
un échantillon probabiliste de préférence un sondage aléatoire simple
un échantillon probabiliste d’au moins 30 individus
une population de grande taille, donc avec à priori un taux de sondage n/N < 1/7e
Taille minimale : n = (t²pq)/e²
e = marge d’erreur que j’accepte de commettre dans mon seuil de confiance.
Où : t est un coefficient dont la valeur dépend du seuil de confiance choisi par le chargé d’études.
Extrait du tableau de la loi normale
|Seuil de confiance|Valeur t|
|68%|Souvent arrondi à 1|
|90%|1.645 arrondis à 1.65|
|95%|1.96 souvent arrondi à 2|
|98%|2.33|
|99%|2.567 parfois arrondi à 2.7|
p est la fréquence observée du caractère dans l’échantillon, cela peut paraître paradoxal, p étant à estimer grâce au sondage.
q = 1 - p
2 exemples de fixation de la taille minimale d’un échantillon en vue d’estimer une proportion (%).
1er cas
Un gérant de salles de cinémas souhaite estimer le % de spectateurs achetant des boissons et autre produits alimentaires (pop corn, glaces, bonbons, ...) dans l’enceinte de son multiplexe.
1e cas : il fait une pré enquête, ou enquête pilote, auprès de 50 spectateurs et a trouvé que
p= 34%.
Il choisit un seuil de confiance de 95% d’où t = 1.96. Il accepte une marge d’erreur e, dans son estimation de p, de 5%.
n = (1.96²x0.34x.66)/0.05² d’où n=345
2e cas
Il n’a pas fait une pré enquête avec sa place donc dans la situation la plus défavorable
n = (1.96²x0.5x0.5)/0.05² d’où n = 385
Question : a-t-il fait reconnaître en réalisant avec une enquête pilote auprès de 50 spectateurs ? L’enquête pilote lui a-t-il permis d’améliorer sa méthodologie d’enquête ?
2 exemples de fixation de la taille minimale d’un échantillon en vue d’estimer une moyenne
Le gérant de salles de cinéma souhaite cette fois estimer le montant moyen des achats de boissons et autres produits alimentaires (pop-corn, glace...) dans l’enceinte de son multiplex.
Il accepte de commettre une erreur e 1€. Il réalise une enquête pilote auprès de 50 visiteurs qui lui permet de constater que :
les achats vont de zéro à 60€, d’où une étendue de la distribution de 60 €
les achats suivent une loi normale
Une propriété de cette loi permet d’estimer l’écart type :
Estimation de l’écart type égal à l’étendue de la distribution/6
Ecart type = 60/6 soit 10 d’où la variance V(x) = 10² V(x) = 100
Taille minimale de l’échantillon = (t² V(x))/e²
n= (1.96² x 100)/1² soit une taille minimale de 384.16 individus
La détermination de la taille minimale d’un échantillon d’un sondage dit « exhaustif »
Les conditions de calcul :
un échantillon probabiliste : de préférence, un sondage aléatoire simple
un échantillon de moins de 30 individus
un échantillon relativement grand par rapport à la petitesse de la taille de la population mère donc avec à priori un taux de sondage n/N > ou égal à 1/7 (soit 14.3%).
Une méthode de calcul en 3 étapes
Etape 1 : la détermination de la taille minimale sans tenir compte de l’incidence de la taille de la population mère.
Exemple : un coiffeur veut estimer le taux de satisfaction de ses 1500 clients. Il souhaite une précision de 3% pour un seuil de confiance de 95% (avec t=2).
Taille minimale : n = (2x0.5x0.5)/0.03² soit n=1 111
Etape 2 : calcul du taux de sondage
Taux de sondage n/N = 1111/1500 le taux de sondage est égal à 74% donc supérieur à 1/7
Etape 3 : nouveau calcul de la taille minimale en tenant compte de l’incidence de la petitesse de N.
n’ = (n x N)/(n + N) soit n’ = (1 111 x 1 500)/(1 111 + 1 500) d’où n’ = 639
Exemple :
Sondage probabiliste : oui 46% non 54%. Dépend du seuil de confiance
e= +- 1.96√(0.54x.46/800 ) = e = +- 3.45 I = [54 ;3.45]
I = [p-e ;p+e] I=[50.55 ;57.45]
e’ = 1.4 x e e’ = 4.83 I
quotat 3.45 x 1.4 = 4.83
B. Les méthodes empiriques
Elles reposent sur le choix raisonné d’individus de la population en respectant les règles fixées à l’avance, concernant les caractéristiques des individus (quotas) et/ou lieux d’enquête et/ou les moments d’enquête, etc. Echantillon profilé, qualifié (caractéristique).
Avantages
Inconvénients
- pas de tirage au sort donc pas de base de sondage nécessaire
pas de risque de dispersion géographique trop important
un moindre coût de mise en place = gain de temps
- la représentation de l’échantillon est toujours contestable
validité de l’estimation dépend du respect des règles donc du sérieux des enquêteurs
pas de possibilité de calculer la marge d’erreur de l’estimation (à moins d’utiliser les formules probabilistes avec ou sans correction)
Les méthodes empiriques les plus utilisées sont :
Méthodes
Règles à respecter concernant :
La méthode des quotas
Le profil, les caractéristiques des sondés
La méthode des itinéraires
L’itinéraire que le sondeur doit suivre : chemin, voie, heure et point d’enquête
Echantillonnage sur place
Les lieux et heures d’enquêtes
Exemple de combinaison de plusieurs méthodes d’échantillon.
Pour une enquête auprès des automobilistes dans l’agglomération de Montpellier :
1 - on recense les stations d’essence
2 - on tire au sort celles qui seront des points d’enquêtes (achat sur place)
3 - on impose aux enquêteurs de suivre un itinéraire précis : commencer le lundi à 9h ; aller à telle autre à 11h ; le mardi après midi aller dans telle station service puis en soirées à telle autre des 21h à 24h.
On fixe à chaque point d’enquête, le nombre de personnes à interroger (méthode des itinéraires).
4 - on donne à chaque enquêteur un plan de travail qui correspond au plan de sondage par quotas (méthode par quotas).
Répartition de la population par sexe
Répartition des automobiles par types de moteur
Nombre de sondages précis
n = 1000
Plan de travail pour chacun des 10 enquêteurs de l’équipe contrôlé par un inspecteur
Homme 46%
Diesel 73%
460 hommes 340 femmes
46 hommes 54 femmes
Femmes 54%
Essence 27%
730 voitures de moteur diesel
270 d’essence
73 conducteurs de voitures à diesel
27 conducteurs à essence
La fixation de la taille d’un échantillon d’un sondage empirique.
Plusieurs méthodes de détermination de la taille réelle selon la méthode d’échantillon empirique utilisée dans le cas d’un échantillon par quotas sont souvent utilisées :
la méthode par croisements souhaités
la méthode de Kish
a. Par croissements souhaités
Soit elle repose sur la nécessité d’interroger un certain nombre d’individus d’un certain profil,
Soit elle d’impose en raison du but à atteindre par le sondage : l’existence d’une dépendance entre 2 caractères dans un tableau croisé (par exemple le sexe et l’équipement en tel matériel).
Lors d’une 1ère étape, la méthode consiste à anticiper le(s) tableau(x) croisé(s) que l’on souhaite établir et analyser grâce au sondage, puis à définir l’effectif minimum d’une des cases d’un tableau croisé :
Exemple d’une étude sur les comptes bancaires dans les couples dans laquelle nous voulons au moins 30 femmes ayant un compte séparé.
Sexe/compte
Compte joint
Compte séparé
Hommes
Femmes
30 (cases la + difficile à obtenir)
Dans une 2ème étape, grâce à une étude documentaire ou interne, le % de chacune des modalités souhaitées est recherché : détenteur d’un compte séparé 20%, femme 50%.
Dans une 3ème étape, il suffit de calculer la taille nécessaire
n = (taille de la case) / (% lignes x % colonnes) = 30/(0.2 x 0.5) = 300
Dans une 4e étape facultative on construit le tableau des effectifs théoriques
Sexe/compte
Compte joint
Compte séparé
Total
hommes
120
30
150(50%)
femmes
120
30
150(50%)
Total
240 (80%)
60 (20%)
300
Cela permet éventuellement d’améliorer le plan de sondage par quotas. On vérifie que les effectifs théoriques sont > à 5 (au mieux à 10) pour pouvoir utiliser ultérieurement le test du Khi2.
b. La méthode de Kish
Appliquée à la fixation de la taille d’un sondage par quotas. On part du principe de la marge d’erreur d’un sondage par quotas est plus forte que celle d’un sondage probabiliste. Certains la calculent en utilisant le coefficient de Kish de 1.4
Marge d’erreur véritable e’ = marge d’erreur acceptée x 1.4
Donc dans le cadre d’un sondage par quotas, si le chargé d’étude se fixe une marge d’erreur de e’, elle serait dans le domaine probabiliste de e = e’/1.4
Il peut alors s’arranger le droit d’utiliser la formule de calcul de la taille minimale d’un échantillon d’un sondage aléatoire :
N = (t²pq)/e² ou n = (t² V(x))/e²
Exemple. Un chargé d’étude opte pour la méthode par quotas mais souhaite une estimation avec une marge d’erreur de 3ù pour un seuil de confiance de 95%.
Pour utiliser la formule probabiliste il recalcule e en tenant compte de la correction de Kish.
e = 0.03/1.4 soit d’où e = 2.14% n=1/0.0214² soit n= 2184 p= ½ q= 1-1/2
95% seuil de confiance avec t=1.96=2 n = (2² x 0.5 x 0.5)/e² n= 1/e²
C. Les méthodes d’administration des questionnaires
A domicile sur RDV ou sur le lieu de travail -questionnaire long (1 à 2h)
questions délicates sur le fond et la forme
informations nombreuses et riches
échantillon nominatif, souvent probabiliste voir aléatoire simple
prise de RDV difficile
nécessité de posséder un fichier nominatif
coût très élevé du questionnaire
60 à 150 euros le questionnaire rempli, saisi, traité et analysé.
Coût variable selon le profit de la population
A domicile sans RDV -questionnaire assez long (moins d’1 heure) et riche
échantillon aréolaire ou à plusieurs degrés Taux de non réponses assez élevé : refus, absence etc.
risque de biais (selon les heures de passage etc).
30 à 60 euros HT
Dans la rue ou dans les lieux publics : sorties de métro, d’un point de vent, d’un spectacle etc. -rapidité
économique
réponse à chaud
échantillon aréolaire à plusieurs degrés ou sur place avec ou sans quotas -questionnaire court et simple
représentativité non garantie
bidonnage possible
contrôle des enquêteurs
20 à 30 euros HT
Parfois moins.
10 euros dans un mobile home 30 à 45 euros
En salle -rapidité
économique
possibilité de test après diffusion ou démonstration en publique
garantie d’obtenir des réponses
questionnaires en plusieurs longueurs -se greffer sur un évènement
ou le créer
représentativité non garantie : population présente non
conforme à la population à étudier
15 à 45 euros HT voire plus en cas de création d’un évènement
Par voie postale
Avantages :
coût en cas de dispersion géographique de l’échantillon
échantillon nominatif, probabiliste
questions précises
Inconvénients :
faiblesse du taux de réponse : 5% en moyenne
représentativité de l’échantillon d’arrivée non garantie
Coûts :
30 à 60 euros HT le questionnaire rempli et traité.
Par téléphone
Avantages :
échantillon nominatif, probabiliste ou quotas (quand on le souhaite)
possibilité de rappels successifs : qualité de l’échantillon
taux de réponse assez élevé : 30 à 40%
rapidité selon le nombre de télé enquêteurs
Inconvénients :
questionnaire court et simple à moins de prendre RDV
filtrage des appels : secrétaires ou répondeurs
Coût :
De 35 à 75 euros selon le profil. Moins avec les centres d’appel dans les pays à bas salaires.
Variante : sondage automatique 1 à 5 euros.
Par Internet
Questionnaire adressé par courrier
Avantages :
échantillon nominatif donc probabiliste
possibilité de relance successives : qualité de l’échantillon
taux de réponse assez élevé (panel)
rapidité
saisie et résultats instantanés
faible coût y compris à l’international
Inconvénients
peu de question
des questions simples
bien rédigées et ordonnées
toute la population à étudier n’est pas forcément équipée
Coût
De 50 centimes à 3 euros voir des exemples sur www.etude-enquete.com avec des tarifs en fonction du nombre de questions posées et de la taille de l’échantillon
D. Les méthodes budgétaires de détermination de la taille d’un échantillon
2 cas de figure :
1. En cas de sous-traitance de l’enquête pas sondage
Taille de l’échantillon = (budget de l’enquête)/(coût au questionnaire)
Exemple : 1 commanditaire a un budget de 5 000 euros. Selon le mode d’administration qu’il choisira, la taille de l’échantillon sera :
Mode
Coût unitaire
Taille de l’échantillon
A domicile sur RDV
100€
20
Dans la rue
25€
200
Par voie postale
40€
125
Par téléphone
50€
100
Par Internet -courriel
1€
5000
2. En cas de réalisation du sondage en interne
Il suffit de prévoir tous les outils fixes et variables correspondant a toutes les tâches nécessaires à la réalisation d’un sondage de la préparation à la rédaction du rapport d’études.
Taille = (budget - coûts fixes)/ (coût variable par questionnaire)
Exemple pour un budget de 20 000€ HT
Tâche
Nature du coût
Montant HT
-préparation de l’étude ; objectif, infos utilisables, population, période d’enquête
rédaction du projet d’enquête : méthode d’échantillonnage, taille minimale de l’échantillon
Fixe
Fixe
1000€
1000€
-préparation du plan de sondage
rédaction et test de questionnaire
formation des enquêteurs
coût d’administration
coût de contrôle des enquêteurs
Fixe
Fixe
Fixe
Variable
Variable
1000€
1000€
750€
15€
1.5€
Saisie informatique
Traitement de stock
Evolution des résultats
Variable
Fixe
fixe
3.5€
750€
250€|
|Interprétation des résultats, rédaction du rapport final| fixe| 2 000€|
|Préparation orale| fixe |250€|
La vérification de la validité de l’échantillon d’arrivée par le test d’ajustement du Khi2 :
1 - Vérifier la conformité d’un échantillon par quotas. Il s’agit de comparer la distribution observée avec la distribution théorique en utilisant le test d’ajustement du Khi2
Khi2 calculé = (∑(Oi-Ti)² / Ti
Oi est l’effectif observé
Ti est l’effectif théorique ou attendu (n x pi > S)
Exemple : un échantillon d’arrivée de 391 personnes est-il conforme aux quotas de PCS de la population mère du département de l’Hérault
ddl = m-1 ddl : degré de liberté m = modalités d’où ddl = 3
Khi2 critique = 7.81 au seuil de risque de 5% (seuil de confiance de 95%, Khi2 calculé qui suit la loi de Pearson). Donc Khi2 calculé > Khi2 critique (ou calculé) :
Ajustement rejeté
L’échantillon d’arrivée mériterait un redressement