A Paradigm for Masking (Camouflaging) Information

This is an expository paper. Here we propose a decision-theoretic framework for addressing aspects of the confidentiality of information problems in publicly released data. Our basic premise is that the problem needs to be conceptualized by looking at the actions of three agents: a data collector, a...

Ausführliche Beschreibung

Bibliographische Detailangaben
Veröffentlicht in:International Statistical Review / Revue Internationale de Statistique. - Blackwell Publishing Ltd. - 73(2005), 3, Seite 331-349
1. Verfasser: Keller-McNulty, Sallie (VerfasserIn)
Weitere Verfasser: Nakhleh, Charles W., Singpurwalla, Nozer D.
Format: Online-Aufsatz
Sprache:English
Veröffentlicht: 2005
Zugriff auf das übergeordnete Werk:International Statistical Review / Revue Internationale de Statistique
Schlagworte:Decision-theory Entropy Intrusion Shannon information Statistical disclosure limitation Utility Physical sciences Information science Health sciences Mathematics mehr... Economics Behavioral sciences
Beschreibung
Zusammenfassung:This is an expository paper. Here we propose a decision-theoretic framework for addressing aspects of the confidentiality of information problems in publicly released data. Our basic premise is that the problem needs to be conceptualized by looking at the actions of three agents: a data collector, a legitimate data user, and an intruder. Here we aim to prescribe the actions of the first agent who desires to provide useful information to the second agent, but must protect against possible misuse by the third. The first agent is under the constraint that the released data has to be public to all; this in some societies may not be the case. A novel aspect of our paper is that all utilities-fundamental to decision making-are in terms of Shannon's information entropy. Thus what gets released is a distribution whose entropy maximizes the expected utility of the first agent. This means that the distribution that gets released will be different from that which generates the collected data. The discrepancy between the two distributions can be assessed via the Kullback-Leibler cross-entropy function. Our proposed strategy therefore boils down to the notion that it is the information content of the data, not the actual data, that gets masked. Current practice of "statistical disclosure limitation" masks the observed data via transformations or cell suppression. These transformations are guided by balancing what are known as "disclosure risks" and "data utility". The entropy indexed utility functions we propose are isomorphic to the above two entities. Thus our approach provides a formal link to that which is currently practiced in statistical disclosure limitation. /// Ceci est un article exploratoire. Nous proposons ici un cadre théorique de décision pour traiter d'aspects des problèmes de confidentialité de l'information dans les données diffusées au public. Notre hypothèse de base est que le problème doit être conceptualisé en observant les actions de trois agents: un collecteur de données, un utilisateur légitime d'informations et un intrus. Nous cherchons ici à prescrire les actions du premier agent qui désire fournir des informations utiles au second mais doit se protéger contre une possible mauvaise utilisation par le troisième. La contrainte pour le premier agent est que les données diffusées doivent être entièrement publiques; ce n'est pas forcément le cas dans certaines sociétés. Un aspect original de l'article est que toutes les utilités-fondamentales pour la prise de décision-sont en terme d'entropie d'informations de Shannon. Aussi ce qui va être diffusé est une distribution dont l'entropie maximise l'utilité attendue du premier agent. Cela signifie que la distribution qui va être diffusée sera différente de ce que génèrent les données collectées. Les divergences entre les deux distributions peuvent être mesurées avec la fonction d'entropie de Kullback-Leibler. Par conséquent la stratégie que nous proposons revient à considérer que c'est le contenu en informations des données, et non les données elles-mêmes, qui reste masqué. La pratique actuelle de "limitation de divulgation statistique" masque les données observées via des transformations ou suppressions de cellules. Ces transformations résultent d'un équilibre entre ce qui est connu comme "risques de divulgation" et "utilité des données". Les fonctions d'utilité indexée d'entropie que nous proposons sont isomorphes des deux entités mentionnées ci-dessus. Aussi notre approche fournit un lien formel avec la pratique courante dans la limitation de divulgation statistique.
ISSN:17515823