<ul> <li>Design and implement entity resolution and record linkage pipelines across multiple data sources </li> <li>Build and evaluate matching algorithms using classical ML, statistical scoring, and fuzzy string-matching techniques</li> <li>Develop attribute fusion logic to construct canonical golden records from conflicting multi-source data</li> <li>Analyze data quality issues, document findings, and propose remediation strategies</li> <li>Data Source Evaluation</li> <li>Assess new external data sources (open and commercial) for coverage, quality, and applicability to Customer Master use cases</li> <li>Apply existing evaluation criteria and contribute additional quality metrics where relevant</li> <li>Produce structured evaluation reports with recommendations for adoption or rejection</li> <li>Analytics & Reporting</li> <li>Profile source datasets and track match quality metrics (precision, recall, F1, coverage)</li> <li>Build dashboards and analytical summaries to communicate pipeline performance to stakeholders</li> <li>Document data lineage, matching logic, and provenance for audit and reproducibility</li> </ul> <ul> <li>Design and implement entity resolution and record linkage pipelines across multiple data sources </li> <li>Build and evaluate matching algorithms using classical ML, statistical scoring, and fuzzy string-matching techniques</li> <li>Develop attribute fusion logic to construct canonical golden records from conflicting multi-source data</li> <li>Analyze data quality issues, document findings, and propose remediation strategies</li> <li>Data Source Evaluation</li> <li>Assess new external data sources (open and commercial) for coverage, quality, and applicability to Customer Master use cases</li> <li>Apply existing evaluation criteria and contribute additional quality metrics where relevant</li> <li>Produce structured evaluation reports with recommendations for adoption or rejection</li> <li>Analytics & Reporting</li> <li>Profile source datasets and track match quality metrics (precision, recall, F1, coverage)</li> <li>Build dashboards and analytical summaries to communicate pipeline performance to stakeholders</li> <li>Document data lineage, matching logic, and provenance for audit and reproducibility</li> </ul> <ul> <li>Python - Pandas, NumPy, scikit-learn, rapidfuzz / jellyfish</li> <li>SQL - Complex queries, window functions, aggregations; Hadoop/Hive or Presto/Trino</li> <li>Classical ML & Statistics - Supervised/unsupervised models, probabilistic scoring, clustering, feature engineering</li> <li>String matching & NLP - Fuzzy matching (Jaro-Winkler, Levenshtein, TF-IDF), text normalization, tokenization</li> <li>Entity Resolution - Record linkage concepts: blocking, scoring, deduplication, cluster evaluation</li> <li>Data Quality Assessment - Completeness, consistency, coverage metrics; source profiling</li> <li>Data Analysis - Exploratory analysis, hypothesis testing, statistical reasoning</li> </ul>

Data Scientist

Tailor & apply in AIApply