Le couplage (dit aussi appariement ou chaînage) de bases de données est un enjeu important en santé publique, particulièrement en cette période de multiplication des initiatives autour des bases de données administratives et de cohortes (l'exploitation de ces données, la création de nouvelles bases et la mise en place d'infrastructure).
Cette procédure consiste à retrouver des informations issues de différentes bases de données sur un individu sans nécessairement passer par des identifiants directs. Le besoin de méthodologies spécifiques provient du fait que les bases de données n’ont pas systématiquement un identifiant direct commun permettant de faire un chaînage. Par ailleurs quand cet identifiant existe les procédures permettant de l'utiliser sont souvent longues et complexes. En France, dans le cas des données médico-administratives, le numéro d'identification au Répertoire (NIR) joue souvent le rôle d'identifiant susceptible d'être utilisé pour servir de clé de couplage. Depuis la loi de santé du 26 janvier 2016 de modernisation de notre système de santé, une évolution notable en terme d'appariement est la création du système national des données de santé (SNDS) qui rassemble au sein d'un même entrepôt les données de remboursement de soin et les causes médicales de décès. Même si cette avancée est importante, le SNDS n'épuise pas tous les cas d'usage et la question de l'appariement de données reste un sujet crucial.
Dans ce cadre, l'Inserm-CépiDc propose une revue de la littérature sur les couplages indirects pour présenter ces méthodes qui sont finalement assez peu connues et souvent mal comprises et pour mettre en regard ces méthodes vis-à-vis de la réglementation.
On trouvera par ailleurs ci-dessous une note sur l'appariement probabiliste de Fellegi et Sunter.