Agritime
Image default
Electronica en Computers

Tekstverwerking Python

Vandaag zal ik het hebben over de toepassing van methoden van data-analyse en machine learning met praktische voorbeelden. In het laatste artikel hebben we het probleem van credit scoring behandeld. Hieronder zal ik proberen de oplossing te demonstreren voor een ander probleem uit hetzelfde toernooi, namelijk “Problemen met paspoorten” (taak nummer 2).
De oplossing toont de basisprincipes van het analyseren van tekstuele informatie, evenals het coderen ervan voor het bouwen van een model met Python en modules voor data-analyse (panda’s, scikit-learn, pymorphy).

Formulering van het probleem

Als u met grote hoeveelheden gegevens werkt, is het belangrijk om deze schoon te houden. En bij het invullen van een aanvraag voor een bankproduct, is het noodzakelijk om volledige paspoortgegevens aan te geven, inclusief het veld “wie heeft het paspoort uitgegeven”, het aantal verschillende schrijfwijzen van hetzelfde filiaal door potentiële klanten kan enkele honderden bedragen. Het is belangrijk om te weten of de klant zich niet vergist heeft bij het invullen van andere velden: “afdelingscode”, “paspoortreeks / nummer”. Om dit te doen, is het noodzakelijk om de “onderverdelingscode” en “wie het paspoort heeft afgegeven” te verifiëren.
De taak is om op basis van het trainingsvoorbeeld de divisiecodes voor records uit het testexemplaar vast te leggen.

 

Meer informatie over Spacy

text processing

https://www.webdeveloper.today/2020/12/tekstverwerking-python-text-processing.html

Gerelateerde artikelen

Kies voor een nauwkeurige afstandssensor voor precieze metingen

Voor al uw technische vragen moet u bij deze IT-expert uit Antwerpen zijn

Procesautomatisering via een echte expert