ENYTICS

AML – Défis – Dérivation des informations nationales à partir des données financières

Les données financières manquent souvent d’informations explicites sur les pays, ce qui complique l’évaluation des risques transfrontaliers. Ce problème devient encore plus complexe lorsque les informations provenant de différentes sources varient ou se contredisent. Pour résoudre ce problème, nous devons adopter une approche structurée pour extraire et normaliser efficacement les données relatives aux pays. J’ai présenté des stratégies clés pour relever ce défi.

Considérations clés dans la dérivation des informations sur les pays

  1. Identifier les tendances et les formats de données
    Les transactions financières contiennent des informations provenant de diverses sources, telles que l’émetteur, l’expéditeur, l’intermédiaire et le bénéficiaire. Selon le type de transaction (par exemple SEPA, SWIFT ou systèmes de paiement locaux), les champs et les formats utilisés pour capturer ces informations peuvent varier considérablement. Par conséquent, la récupération des informations sur les pays nécessite des méthodes adaptées à chaque format. Il est essentiel de reconnaître et de s’adapter à ces variations pour une dérivation précise des pays.
  2. Approche à deux niveaux
    Pour tenir compte de la diversité des formats de données et garantir des résultats fiables, une combinaison de méthodologies basées sur des règles et automatisées est recommandée :
    • Techniques basées sur des règles
      • Recherche de modèles et expressions régulières : en analysant les données de transaction, nous pouvons souvent extraire des informations sur les pays à l’aide de techniques de recherche de regex ou de recherche de chaînes. Par exemple, les codes postaux, les noms de villes, les codes de pays et les identifiants tels que les numéros BIC/IBAN peuvent servir d’indicateurs fiables d’un pays. Ces modèles fournissent une couche fondamentale pour l’extraction de données structurées.
      • Approches automatisées
        • Services de géocodage : les services de géocodage externes, tels que Google Geocoding API, QGIS ou Azure Maps Geocoding Services, peuvent mapper des éléments d’adresse partiels à des pays spécifiques. Ces services améliorent la précision en exploitant de grands ensembles de données et des algorithmes établis.
        • Traitement du langage naturel (NLP) : les modèles NLP avancés, tels que SpaCy ou d’autres outils pré-entraînés, peuvent identifier des entités géographiques dans un texte non structuré. Ces modèles sont particulièrement efficaces pour traiter les adresses écrites en langage naturel.
        • Bases de données externes et cartographie floue : il est essentiel de maintenir des bases de données externes qui associent des éléments partiels (par exemple, les noms de villes, les provinces, les codes de pays ISO non standard) à leurs pays correspondants. Les techniques de cartographie floue peuvent aligner davantage les données incomplètes ou ambiguës avec la correspondance de pays la plus probable.
        • Modèle de langage étendu (LLM) : Le modèle de langage étendu actuellement populaire peut également s’attaquer à cette tâche en utilisant une invite simple telle que « Normaliser l’adresse donnée et indiquer le pays »
  3. Intégration et validation
    Aucune solution unique ne suffit à déduire une base de données exhaustive sur les pays. Au lieu de cela, ces méthodes sont souvent utilisées en combinaison pour produire des modèles d’ensemble. Par exemple, les résultats des méthodes basées sur des règles, du géocodage et du traitement du langage naturel peuvent être pondérés en fonction de leur fiabilité ou combinés pour mettre en évidence les pays à haut risque dans les scénarios de lutte contre le blanchiment d’argent (AML).
  4. Relever les défis multilingues
    Un autre défi dans le secteur bancaire international est que les données ne sont pas toujours présentées en anglais, ni même dans la langue locale d’origine de la transaction. Les modèles doivent être peaufinés et testés dans différentes langues pour garantir leur validité. Cela implique d’adapter les algorithmes pour gérer différentes structures linguistiques et de garantir la couverture des formats non standardisés.

L’obtention d’informations sur les pays à partir de données financières nécessite un mélange précis de techniques automatisées et basées sur des règles. Cette approche est essentielle dans le domaine de la lutte contre le blanchiment d’argent, où même les détections à faible probabilité et à haut risque doivent être prises en compte. En intégrant des méthodes robustes et en s’adaptant à divers formats et langues, les organisations peuvent garantir une identification précise des pays et une gestion efficace des risques transfrontaliers.

Écrit par : Juiyun HSU