File Download

There are no files associated with this item.

  Links for fulltext
     (May Require Subscription)
Supplementary

Article: Relative efficiency of the Fuzzy p-value approach to hypothesis testing

TitleRelative efficiency of the Fuzzy p-value approach to hypothesis testing
Authors
KeywordsComplete Data
Data Cloning
Imputation
Latent Variables
Locally Most Powerful Test
Missing Data
Pitman Efficiency
Randomized Test
Données Complètes
Variables Latentes
Test Localement Le Plus Puissant
Données Manquantes
Efficacité De Pitman
Tests Randomisés
Issue Date2009
PublisherInternational Statistical Institute. The Journal's web site is located at http://www.cbs.nl/isi/isr.htm
Citation
International Statistical Review, 2009, v. 77, p. 395-404 How to Cite?
AbstractIn missing data problems, it is often the case that there is a natural test statistic for testing a statistical hypothesis had all the data been observed. A fuzzy p‐value approach to hypothesis testing has recently been proposed which is implemented by imputing the missing values in the “complete data” test statistic by values simulated from the conditional null distribution given the observed data. We argue that imputing data in this way will inevitably lead to loss in power. For the case of scalar parameter, we show that the asymptotic efficiency of the score test based on the imputed “complete data” relative to the score test based on the observed data is given by the ratio of the observed data information to the complete data information. Three examples involving probit regression, normal random effects model, and unidentified paired data are used for illustration. For testing linkage disequilibrium based on pooled genotype data, simulation results show that the imputed Neyman Pearson and Fisher exact tests are less powerful than a Wald‐type test based on the observed data maximum likelihood estimator. In conclusion, we caution against the routine use of the fuzzy p‐value approach in latent variable or missing data problems and suggest some viable alternatives. Dans les problèmes de données manquantes, il existe souvent une statistique de test qui serait naturelle pour le problème de test considéré si toutes les données étaient disponibles. Une approche du type «‐valeur floue» a récemment été proposée pour cette situation. Dans cette approche, les valeurs manquantes sont remplacées, dans la statistique de test, par des valeurs simulées à partir de la distribution nulle de celle‐ci conditionnellement aux données observées. L’inconvénient d’une telle imputation est qu’elle conduit inévitablement à des pertes de puissance. Pour le cas d’un paramètre scalaire, nous montrons que l’efficacité asymptotique du test du score fondé sur les «données complétées par imputation» relativement au test du score fondé sur les seules données observées est donnée par le rapport de l’information relative aux données observées et de l’information relative aux données complètes. Trois exemples incluant la régression probit, le modèle à effets aléatoires gaussien et des données appariées non identifiables sont utilisés comme illustration. Pour tester la présence d’un déséquilibre de liaison à partir d’un ensemble de données de génotypage groupées, les résultats de simulation montrent que les tests de Neyman, Pearson et Fisher imputés exacts sont moins puissants qu’un test de type Wald basé sur l’estimateur du maximum de vraisemblance des données observées. En conclusion, nous mettons en garde contre l’usage routinier de l’approche «‐valeur floue» dans les problèmes à variables latentes ou données manquantes, et suggérons des solutions de rechange approriées.
Persistent Identifierhttp://hdl.handle.net/10722/221689
ISSN
2015 Impact Factor: 1.789
2015 SCImago Journal Rankings: 1.216
ISI Accession Number ID

 

DC FieldValueLanguage
dc.contributor.authorKuk, AYC-
dc.contributor.authorXu, J-
dc.date.accessioned2015-12-04T15:29:08Z-
dc.date.available2015-12-04T15:29:08Z-
dc.date.issued2009-
dc.identifier.citationInternational Statistical Review, 2009, v. 77, p. 395-404-
dc.identifier.issn0306-7734-
dc.identifier.urihttp://hdl.handle.net/10722/221689-
dc.description.abstractIn missing data problems, it is often the case that there is a natural test statistic for testing a statistical hypothesis had all the data been observed. A fuzzy p‐value approach to hypothesis testing has recently been proposed which is implemented by imputing the missing values in the “complete data” test statistic by values simulated from the conditional null distribution given the observed data. We argue that imputing data in this way will inevitably lead to loss in power. For the case of scalar parameter, we show that the asymptotic efficiency of the score test based on the imputed “complete data” relative to the score test based on the observed data is given by the ratio of the observed data information to the complete data information. Three examples involving probit regression, normal random effects model, and unidentified paired data are used for illustration. For testing linkage disequilibrium based on pooled genotype data, simulation results show that the imputed Neyman Pearson and Fisher exact tests are less powerful than a Wald‐type test based on the observed data maximum likelihood estimator. In conclusion, we caution against the routine use of the fuzzy p‐value approach in latent variable or missing data problems and suggest some viable alternatives. Dans les problèmes de données manquantes, il existe souvent une statistique de test qui serait naturelle pour le problème de test considéré si toutes les données étaient disponibles. Une approche du type «‐valeur floue» a récemment été proposée pour cette situation. Dans cette approche, les valeurs manquantes sont remplacées, dans la statistique de test, par des valeurs simulées à partir de la distribution nulle de celle‐ci conditionnellement aux données observées. L’inconvénient d’une telle imputation est qu’elle conduit inévitablement à des pertes de puissance. Pour le cas d’un paramètre scalaire, nous montrons que l’efficacité asymptotique du test du score fondé sur les «données complétées par imputation» relativement au test du score fondé sur les seules données observées est donnée par le rapport de l’information relative aux données observées et de l’information relative aux données complètes. Trois exemples incluant la régression probit, le modèle à effets aléatoires gaussien et des données appariées non identifiables sont utilisés comme illustration. Pour tester la présence d’un déséquilibre de liaison à partir d’un ensemble de données de génotypage groupées, les résultats de simulation montrent que les tests de Neyman, Pearson et Fisher imputés exacts sont moins puissants qu’un test de type Wald basé sur l’estimateur du maximum de vraisemblance des données observées. En conclusion, nous mettons en garde contre l’usage routinier de l’approche «‐valeur floue» dans les problèmes à variables latentes ou données manquantes, et suggérons des solutions de rechange approriées.-
dc.languageeng-
dc.publisherInternational Statistical Institute. The Journal's web site is located at http://www.cbs.nl/isi/isr.htm-
dc.relation.ispartofInternational Statistical Review-
dc.subjectComplete Data-
dc.subjectData Cloning-
dc.subjectImputation-
dc.subjectLatent Variables-
dc.subjectLocally Most Powerful Test-
dc.subjectMissing Data-
dc.subjectPitman Efficiency-
dc.subjectRandomized Test-
dc.subjectDonnées Complètes-
dc.subjectVariables Latentes-
dc.subjectTest Localement Le Plus Puissant-
dc.subjectDonnées Manquantes-
dc.subjectEfficacité De Pitman-
dc.subjectTests Randomisés-
dc.titleRelative efficiency of the Fuzzy p-value approach to hypothesis testing-
dc.typeArticle-
dc.identifier.emailXu, J: xujf@hku.hk-
dc.identifier.authorityXu, J=rp02086-
dc.identifier.doi10.1111/j.1751-5823.2009.00082.x-
dc.identifier.scopuseid_2-s2.0-77349120520-
dc.identifier.volume77-
dc.identifier.spage395-
dc.identifier.epage404-
dc.identifier.isiWOS:000271313900005-

Export via OAI-PMH Interface in XML Formats


OR


Export to Other Non-XML Formats