Méthodologie de la cartographie de proximité

Version 1.0 — 18 avril 2026. Applicable après phase de calibration.

LexRadar calcule, à la demande d'un client, un indicateur de proximité documentaire entre les positions publiques dudit client sur un sujet donné et les prises de position publiques documentées d'un acteur politique (député, sénateur, député européen, ministre) sur ce même sujet. Cette page décrit l'algorithme employé, de façon à satisfaire l'exigence de transparence substantielle posée par la CJUE (arrêt Dun & Bradstreet Austria, 27 février 2025, C-203/22).

1. Principe général

La proximité est une similarité cosinusentre deux vecteurs d'embedding :

le premier représente le corpus de positions que le client a déclarées au moment de son onboarding (position sur le sujet, arguments défendus, orientations stratégiques) ;
le second représente le corpus d'interventions publiques documentées de l'acteur politique sur le même sujet et dans une fenêtre temporelle donnée.

Le score est une mesure symétriquede cohérence documentaire. Il ne constitue ni une évaluation comportementale de l'acteur, ni une prédiction de ses positions futures, ni un indicateur d'influençabilité.

2. Sources

Seules les sources officielles sont utilisées, sur la base de l'article 9, 2, e du RGPD (données manifestement rendues publiques par la personne concernée) :

votes nominatifs publiés par l'Assemblée nationale, le Sénat et le Parlement européen ;
interventions en hémicycle ou en commission, via les comptes rendus officiels ;
amendements et propositions de loi signés ou co-signés, via les bases officielles ;
questions écrites et orales publiées au Journal officiel ;
rapports parlementaires ;
déclarations officielles de groupe et communiqués de cabinet.

Sont exclus : les comptes sur réseaux sociaux personnels, les agendas privés, les rapports et signatures non publics, tout recoupement avec des données tierces non institutionnelles. Les collaborateurs parlementaires sont exclus du modèle.

3. Modèle d'embedding

Les corpus sont encodés par les modèles mistral-embed de Mistral AI (France). Cette dépendance est matérialisée par une contrainte CHECK en base de données (extracted_by_model LIKE 'mistral-%') qui interdit toute extraction par un autre fournisseur. La dimension de l'espace vectoriel est 1 024.

4. Fenêtre temporelle

La fenêtre par défaut couvre la législature en cours (5 ans pour l'AN et le PE, 6 ans pour le Sénat). Si l'acteur a changé de formation politique en cours de mandat, la fenêtre est re-bornée à la date du changement. Les interventions antérieures à une fonction officielle en cours (par exemple, les votes d'un député aujourd'hui devenu ministre) ne sont jamais agrégées avec les interventions de la fonction actuelle — elles sont présentées comme un historique distinct sur la fiche de l'acteur.

5. Agrégation et seuils

Chaque intervention capture une position exprimée dans le document (pour, contre, abstention, nuance_exprimee, non_exprimee) — jamais une inférence sur la personne. Un indicateur de cohésion(proportion d'interventions allant dans le même sens dans la fenêtre) accompagne la position agrégée sur un sujet.

Les seuils permettant de qualifier une position de « proche », « distincte » ou « mixte » ne sont pas figés a priori. Ils sont calibrés empiriquement par une phase shadow modesur au moins 50 dossiers et 100 acteurs, avant toute exposition aux clients. Les percentiles 25 et 75 de la distribution observée servent de bornes. Les valeurs applicables à la version courante sont exposées via l'API publique GET /api/v1/transparence/methodology.

6. Exposition au client

Le score de proximité n'est jamais affiché seul. Il est systématiquement accompagné du nombre d'interventions ayant servi au calcul (evidence_count) et de liens directs vers les documents sources. En l'absence d'interventions sur le sujet, aucun score n'est calculé : la fiche indique simplement que l'acteur ne s'est pas publiquement exprimé.

Aucun tri par défaut n'est effectué sur le score : les listes d'acteurs sont présentées par ordre alphabétique ou par volume d'activité publique. Les exports groupés de scores sont systématiquement accompagnés du corpus documentaire sous-jacent.

7. Audit et registre

Chaque calcul de score est archivé de façon inaltérable dans un registre append-only (proximity_score_history), matérialisation opérationnelle de l'article 30 du RGPD pour les traitements automatisés. Toute consultation de fiche par un utilisateur est journalisée et peut être communiquée à la personne concernée sur demande d'accès.

8. Contrôle humain

Les extractions de position sont soumises à un cycle de rectification humaine. En cas de contestation (article 16 du RGPD), un membre de l'équipe examine la donnée, procède à une correction ou maintient l'extraction avec une motivation écrite. Le statut (extracted, disputed, under_review, corrected, maintained_with_justification) est conservé et visible sur la fiche publique de l'acteur.

9. Limites et non-prétentions

Le score est un indicateur d'aide à la lecture, non un jugement. Il ne remplace pas l'analyse par un professionnel des interventions-sources.
Le score n'est pas une prédiction. Il mesure ce qui a été exprimé dans le passé, sur des sources explicitement publiques.
Le score n'est pas un score d'influence. LexRadar ne produit ni ciblage stratégique ni recommandation d'action vis-à-vis d'une personne nommée.
Toute décision prise par un client sur la base de ces indicateurs reste de sa seule responsabilité.

Contact

Questions méthodologiques : dpo@lexradar.io.