任务:

该任务有3个数据集,分别是 basic_info, history_name, partner。对于每一个数据集,我们根据一些键定位我们的数据和跳板机中的数据,然后对其他键进行对比。比如说,在basic_info数据集中,我们用credit_no和数据库中某个表的UNISCID进行匹配,得到entid,然后根据entid去查询其他数据,最后对比了capital,company_type,company_address等数据。

basic_info:

该数据包含6722个数据,我们首先使用该数据集的credit_no从数据库中查找对应的数据,其中有6701个值可以被查询到,有21个空值。由于数据量很小,我们选择只对比能查询到的数据。

Untitled

然后,我们发现credit_no与数据库中的数据存在部分一对多的情况,有174行存在重复对应现象,对于这种情况,我们选择只保留对应中最新的数据。比如说,credit_no同时对应以下两条数据,我们只保留2024-05-26日的数据

Untitled

Untitled

在根据entid进行完数据聚合操作后,我们按照basic_info字段对应进行了对应匹配,在对应过程中,发生对应错误的情况主要有以下几种,我们进行了修正:

1、establish列与ESDATE列日期类型不一致

我们将establish列中类似20060508的数据统一修正为了2006-05-08的格式,以便于与ESDATE列数据进行对应匹配

Untitled

2、跳板机表字段名问题

在pingan数据文件中,capital数据类型为xxxxx万人民币,该类型实际上应当与数据库中REGCAP_CN对应,而在字段对应sheet中标注的是REGCAP,我们将其修改为了REGCAP_CN以进行修正

Untitled

3、中英文括号问题

在对应错误的情况中,绝大部分错误存在于带有中文或英文的字段数据中,目前还在寻找修正方案

Untitled

目前对应效果大致如下图所示,我们记录了所有匹配过程中相同字段与不同字段的数量,并将所有未能成功对应的字段进行了打印输出: