商铺选址方法和装置与流程-半岛BOB·(中国)官方网站

文档序号:34131600发布日期:2023-11-28阅读:624来源:国知局


1.本发明涉及人工智能技术领域,商铺尤其涉及一种商铺选址方法和装置。选址


背景技术:

2.选铺选址是和装在租建商铺之前对商铺的地址进行论证和决策的过程,商铺选址的置流意义重大且是一项长期性收入,具有长期性和固定性,商铺店址一经确定就难以在短期内变动,选址店址选择得好,和装企业可以长期受益。置流因此,商铺实现对商铺选址的选址精准推荐,为商家选址决策提供科学依据从而指导商铺经营发展具有重要的和装意义。
3.相关技术中,置流采用人工方式进行商铺选址,商铺人工调研目标区域内人群信息、选址地理设施信息和交通信息,和装确定目标区域后寻找目标区域内可租赁的店面,实地考察店面从而实现商铺选址。现有商铺选址方法主要依据个人的主观经验,主观性较强,准确性较低。


技术实现要素:

4.针对现有技术中的问题,本发明实施例提供一种商铺选址方法和装置。
5.具体地,本发明实施例提供了以下技术方案:
6.第一方面,本发明实施例提供了一种商铺选址方法,包括:
7.获取商铺选址信息和商铺类型信息;
8.将所述商铺选址信息和商铺类型信息输入至商铺选址模型中,得到商铺选址评估结果;所述商铺选址模型的训练样本包括样本商铺类型信息、样本商铺经营相关的特征信息;所述样本商铺的标签信息包括样本商铺的经营状况信息;所述样本商铺的标签信息是基于最小编辑距离levenshtein distance方式计算出的第一时刻的样本商铺名称与第二时刻的样本商铺名称的相似度确定的。
9.进一步地,所述商铺选址模型基于如下方式训练:
10.获取样本商铺类型信息和样本商铺经营相关的特征信息;
11.将所述样本商铺类型信息和样本商铺经营相关的特征信息输入至商铺选址模型中,得到样本商铺选址评估结果;所述商铺选址模型是基于lightgbm模型构建的;
12.根据所述样本商铺选址评估结果和所述样本商铺的标签信息,对所述商铺选址模型进行训练,得到训练后的商铺选址模型。
13.进一步地,所述获取样本商铺类型信息和样本商铺经营相关的特征信息;将所述样本商铺类型信息和样本商铺经营相关的特征信息输入至商铺选址模型中,得到样本商铺选址评估结果;所述商铺选址模型是基于lightgbm模型构建的;根据所述样本商铺选址评估结果和所述样本商铺的标签信息,对所述商铺选址模型进行训练,得到训练后的商铺选址模型,包括:
14.获取目标类型的样本商铺经营相关的特征信息;
15.将所述目标类型的样本商铺经营相关的特征信息输入至商铺选址模型中,得到所述目标类型的样本商铺选址评估结果;
16.根据所述目标类型的样本商铺选址评估结果和所述目标类型的样本商铺的标签信息,对所述商铺选址模型进行训练,得到训练后的目标类型的商铺选址模型。
17.进一步地,所述样本商铺经营相关的特征信息,包括:
18.人群聚集度信息、交通便利度信息、商铺种类多样性信息、同类商铺聚集性信息、人群画像信息、住宅小区类别信息和城市类别信息;所述人群画像信息用于表征距离商铺小于预设距离的用户的特征信息;所述住宅小区类别信息用于表征距离商铺小于预设距离的住宅小区的特征信息;所述城市类别信息用于表征商铺所在城市的特征信息。
19.进一步地,,获取样本商铺经营相关的特征信息之后,还包括:
20.确定样本商铺经营相关的特征信息中的各个特征信息对商铺选址评估结果的贡献程度;
21.将贡献程度满足条件的特征信息作为商铺选址模型的训练样本。
22.进一步地,所述确定样本商铺经营相关的特征信息中的各个特征信息对商铺选址评估结果的贡献程度,包括:
23.利用如下公式确定各个特征信息对商铺选址评估结果的贡献程度:
[0024][0025]
其中,ig(ti)表示特征信息ti对商铺选址评估结果的贡献程度;p(k)表示第k类店铺出现的概率;k取值0和1,其中,1类表示商铺倒闭,0类表示商铺正常营业;p(ti)表示包含特征信息ti的商铺出现的概率;p(k|ti)表示包含特征信息ti的条件下且属于第k类商铺的概率;表示不包含特征信息ti的商铺出现的概率;表示不包含特征信息ti的条件下且属于第k类店铺的概率。
[0026]
进一步地,在第一时刻的样本商铺名称与第二时刻的样本商铺名称的相似度大于等于0.8的情况下,确定样本商铺对应的标签信息为正常营业状态;
[0027]
在第一时刻的样本商铺名称与第二时刻的样本商铺名称的相似度小于0.8的情况下,确定样本商铺对应的标签信息为倒闭状态。
[0028]
第二方面,本发明实施例还提供了一种商铺选址装置,包括:
[0029]
获取模块,用于获取商铺选址信息和商铺类型信息;
[0030]
选址模块,用于将所述商铺选址信息和商铺类型信息输入至商铺选址模型中,得到商铺选址评估结果;所述商铺选址模型的训练样本包括样本商铺类型信息、样本商铺经营相关的特征信息;所述样本商铺的标签信息包括样本商铺的经营状况信息;所述样本商铺的标签信息是基于最小编辑距离levenshtein distance方式计算出的第一时刻的样本商铺名称与第二时刻的样本商铺名称的相似度确定的。
[0031]
第三方面,本发明实施例还提供了一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现如第一方面所述商铺选址方法。
[0032]
第四方面,本发明实施例还提供了一种非暂态计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面所述商铺选址方法。
[0033]
第五方面,本发明实施例还提供了一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如第一方面所述商铺选址方法。
[0034]
本发明实施例提供的商铺选址方法和装置,通过商铺选址模型客观量化的对商铺选址的合理性进行评估;相较于现有技术中直接将商铺选址的因素线性相加无法准确客观的对选址结果进行量化的问题,本技术的商铺选址方法一方面通过样本商铺的标签信息在商铺选址模型的训练过程中对商铺选址的结果实现了可量化的评价,使得训练后的商铺选址模型可以量化并客观的对选址结果进行评估,提升了商铺选址的客观性;第二方面,在进行商铺选址模型的训练过程中和商铺选址的预测过程中,不仅仅考虑商铺的选址信息,同时也考虑商铺的类型对于商铺选址的影响,从而使得训练出的商铺选址模型可以更加准确客观的进行商铺的选址;第三方面,基于最小编辑距离levenshtein distance方式计算出的第一时刻的样本商铺名称与第二时刻的样本商铺名称的相似度确定样本商铺的标签信息的方法,可以方便快捷的得到海量的样本商铺是否正常营业的标签信息,实现了对海量样本商铺的快速准确的标注,降低了海量标签标注的人力成本和工作量,从而也就提高了商铺选址预测的效率和准确性。
附图说明
[0035]
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0036]
图1是本发明实施例提供的商铺选址方法的流程示意图;
[0037]
图2是本发明实施例提供的商铺选址方法的另一流程示意图;
[0038]
图3是本发明实施例提供的商铺选址装置的结构示意图;
[0039]
图4是本发明实施例提供的电子设备的结构示意图。
具体实施方式
[0040]
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0041]
本发明实施例的方法可以应用于商铺选址场景中,可以量化并客观的对选址结果进行评估,提升了商铺选址的客观性和准确性。
[0042]
相关技术中,采用人工方式进行商铺选址,人工调研目标区域内人群信息、地理设施信息和交通信息,确定目标区域后寻找目标区域内可租赁的店面,实地考察店面从而实现商铺选址。现有商铺选址方法主要依据个人的主观经验,主观性较强,准确性较低。
[0043]
本发明实施例的商铺选址方法,通过商铺选址模型客观量化的对商铺选址的合理性进行评估;相较于现有技术中直接将商铺选址的因素线性相加无法准确客观的对选址结
果进行量化的问题,本技术的商铺选址方法一方面通过样本商铺的标签信息在商铺选址模型的训练过程中对商铺选址的结果实现了可量化的评价,使得训练后的商铺选址模型可以量化并客观的对选址结果进行评估,提升了商铺选址的客观性;第二方面,在进行商铺选址模型的训练过程中和商铺选址的预测过程中,不仅仅考虑商铺的选址信息,同时也考虑商铺的类型对于商铺选址的影响,从而使得训练出的商铺选址模型可以更加准确客观的进行商铺的选址;第三方面,基于最小编辑距离levenshtein distance方式计算出的第一时刻的样本商铺名称与第二时刻的样本商铺名称的相似度确定样本商铺的标签信息的方法,可以方便快捷的得到海量的样本商铺是否正常营业的标签信息,实现了对海量样本商铺的快速准确的标注,降低了海量标签标注的人力成本和工作量,从而也就提高了商铺选址预测的效率和准确性。
[0044]
下面结合图1-图4以具体的实施例对本发明的技术方案进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例不再赘述。
[0045]
图1是本发明实施例提供的商铺选址方法一实施例的流程示意图。如图1所示,本实施例提供的方法,包括:
[0046]
步骤101、获取商铺选址信息和商铺类型信息;
[0047]
具体地,现有的商铺选址过程中,采用人工方式进行商铺选址,人工调研目标区域内人群信息、地理设施信息和交通信息,确定目标区域后寻找目标区域内可租赁的店面,实地考察店面从而实现商铺选址。现有商铺选址方法主要依据个人的主观经验,主观性较强,准确性较低。
[0048]
另外,相关技术中,也可以基于商业地理数据以及移动信令数据,衍生多个影响因素,通过线性相加的方式将多个因素进行融合,从而得出每个目标子区域的最终推荐值。通过线性相加的方式将多个因素进行融合得出商铺选址得分,选择影响因素的标准和影响因素的权重也多基于业务经验,主观性较强,对商铺选址缺少切实的可量化的方法。
[0049]
为了解决上述问题,本发明实施例中首先获取商铺选址信息和商铺类型信息;可选地,商铺选址信息可以为待建设或待租赁的商铺;商铺类型信息可以包括:餐饮、娱乐、服装等多种类型,本发明实施例中不做限制。也就是本技术在进行商铺选址的过程中,不仅需要考虑商铺选址的地址信息,还考虑了商铺选址后所要经营的商业活动,从而使得选择的商铺可以有效地满足营业需求。
[0050]
步骤102、将商铺选址信息和商铺类型信息输入至商铺选址模型中,得到商铺选址评估结果;商铺选址模型的训练样本包括样本商铺类型信息、样本商铺经营相关的特征信息;样本商铺的标签信息包括样本商铺的经营状况信息;样本商铺的标签信息是基于最小编辑距离levenshtein distance方式计算出的第一时刻的样本商铺名称与第二时刻的样本商铺名称的相似度确定的。
[0051]
具体地,在获取商铺选址信息和商铺类型信息后,本技术实施例中将商铺选址信息和商铺类型信息输入至商铺选址模型中,得到商铺选址评估结果;其中,商铺选址模型用于客观量化的对商铺选址的合理性进行评估,从而使得选址后的商铺可以正常满足商业经营的需求。可选地,商铺选址模型在训练过程中的训练样本包括样本商铺类型信息、样本商铺经营相关的特征信息;其中,样本商铺经营相关的特征信息包括与商铺经营相关的影响
因素,如商铺周边的人员信息、地理设施信息和交通信息;样本商铺的标签信息包括样本商铺的经营状况信息,如样本商铺近期的经营状态,例如最近半年或一年内是否正常营业,是否出现倒闭的情况等。可选地,本技术实施例中的样本商铺的标签信息是基于最小编辑距离levenshtein distance方式计算出的第一时刻的样本商铺名称与第二时刻的样本商铺名称的相似度确定的;其中,最小编辑距离算法,是指两个字符串之间,由一个转成另一个所需要的最小编辑操作次数。许可的编辑操作包括将一个字符替换成另一个字符,插入一个字符,删除一个字符。一般来说,编辑距离越小,两个串的相似度越大。
[0052][0053]
当其中某个字符串长度等于0时,此时返回最长字符串长度;
[0054]
当字符串长度不为0时,分三种情况,分别对应删除、插入、替换操作,注意替换操作末尾为指标参数,如果ai不等于bj则加1,否则为0;计算两个字符串的相似度:取两个字符串长度的最大值为maxlen;相似度=1-两个字符串转换所需的最小编辑操作次数/maxlen。
[0055]
也就是通过最小编辑距离方式确定出第一时刻的样本商铺名称与第二时刻的样本商铺的名称的距离,从而根据两个时刻之间商铺名称的距离准确的判定样本商铺是否正常营业或者样本商铺处于倒闭状态。可选地,第一时刻和第二时刻可以根据实际需求进行选择,例如第一时刻的样本商铺名称为1月份的样本商铺名称,第二时刻的样本商铺名称为12月份的样本商铺名称;可选地,在第一时刻的样本商铺的名称与第二时刻的样本商铺的名称的距离大于预设的阈值的情况下,也就是基于最小编辑距离方式判断样本商铺的名称已经发生变化的情况下,则可以确定该地址的样本商铺倒闭或进行了转让。
[0056]
因此,现有技术中,通过线性相加的方式将多个因素(如人口集聚度、交通通达性、人口收入水平、商铺种类多样性、同类商铺聚集度)进行融合得出商铺选址得分,其选择影响因素的标准和影响因素的权重主要基于业务经验,主观性较强,对商铺选址缺少切实的可量化的方法。因此,对于现有技术中,直接将商铺选址的因素线性相加无法准确客观地对选址结果进行量化的问题,本技术实施例中一方面通过样本商铺的标签信息在商铺选址模型的训练过程中对商铺选址的结果实现了可量化的评价,使得训练后的商铺选址模型可以量化并客观的对选址结果进行评估,提升了商铺选址的客观性;第二方面,本技术在商铺的选择过程中,不仅考虑了商铺的选址对于商业经营的影响,而且考虑到不同类型的商业对于商铺的选址的要求也各不相同,因而在进行商铺选址模型的训练过程中和商铺选址的预测过程中,不仅仅考虑商铺的选址信息,同时也考虑商铺的类型对于商铺选址的影响,从而使得训练出的商铺选址模型可以更加准确客观的进行商铺的选址;第三方面,本技术实施例中基于最小编辑距离levenshtein distance方式计算出的第一时刻的样本商铺名称与第二时刻的样本商铺名称的相似度确定样本商铺的标签信息的方法,效率较高、易于操作,可以方便快捷的得到海量的样本商铺是否正常营业的标签信息,实现了对海量样本商铺的快速准确的标注,降低了海量标签标注的人力成本和工作量,从而也就提高了商铺选址预测的效率和准确性。
[0057]
上述实施例的方法,通过商铺选址模型客观量化的对商铺选址的合理性进行评估;相较于现有技术中直接将商铺选址的因素线性相加无法准确客观的对选址结果进行量化的问题,本技术的商铺选址方法一方面通过样本商铺的标签信息在商铺选址模型的训练过程中对商铺选址的结果实现了可量化的评价,使得训练后的商铺选址模型可以量化并客观的对选址结果进行评估,提升了商铺选址的客观性;第二方面,在进行商铺选址模型的训练过程中和商铺选址的预测过程中,不仅仅考虑商铺的选址信息,同时也考虑商铺的类型对于商铺选址的影响,从而使得训练出的商铺选址模型可以更加准确客观的进行商铺的选址;第三方面,基于最小编辑距离levenshtein distance方式计算出的第一时刻的样本商铺名称与第二时刻的样本商铺名称的相似度确定样本商铺的标签信息的方法,可以方便快捷的得到海量的样本商铺是否正常营业的标签信息,实现了对海量样本商铺的快速准确的标注,降低了海量标签标注的人力成本和工作量,从而也就提高了商铺选址预测的效率和准确性。
[0058]
在一实施例中,商铺选址模型基于如下方式训练:
[0059]
获取样本商铺类型信息和样本商铺经营相关的特征信息;
[0060]
将样本商铺类型信息和样本商铺经营相关的特征信息输入至商铺选址模型中,得到样本商铺选址评估结果;商铺选址模型是基于lightgbm模型构建的;
[0061]
根据样本商铺选址评估结果和样本商铺的标签信息,对商铺选址模型进行训练,得到训练后的商铺选址模型。
[0062]
具体地,本技术实施例中商铺选址模型用于客观量化的对商铺的选址的合理性进行评估,为了达到上述效果,一方面,本技术实施例中通过获取样本商铺类型信息和样本商铺经营相关的特征信息,并将样本商铺类型信息和样本商铺经营相关的特征信息输入至商铺选址模型中,从而使得商铺选址模型在训练过程中不仅考虑商铺的选址信息,同时也考虑商铺的类型对于商铺选址的影响,也就使得训练出的商铺选址模型可以更加准确客观的进行商铺的选址;第二方面,商铺选址模型在根据样本商铺类型信息和样本商铺经营相关的特征信息得到样本商铺选址评估结果后,通过将样本商铺选址评估结果和样本商铺的标签信息进行比对,也就可以实现对商铺选址模型的选址结果的可量化的客观的评价,进一步通过比对结果迭代的对商铺选址模型进行训练,也就可以提升商铺选址模型选址的客观性和准确性。第三方面,通过最小编辑距离levenshtein distance方式达到了快速准确地确定第一时刻的样本商铺名称与第二时刻的样本商铺名称的相似度,从而可以准确快速地确定海量样本商铺的标签信息;可选地,在第一时刻的样本商铺名称与第二时刻的样本商铺名称的相似度大于等于0.8的情况下,确定样本商铺对应的标签信息为正常营业状态;在第一时刻的样本商铺名称与第二时刻的样本商铺名称的相似度小于0.8的情况下,确定样本商铺对应的标签信息为倒闭状态;进而基于样本商铺的标签信息也就可以快速准确的对海量的样本商铺的预测结果进行量化并客观地对选址结果进行评估,提升了商铺选址的客观性和准确性。
[0063]
上述实施例的方法,商铺选址模型在根据样本商铺类型信息和样本商铺经营相关的特征信息得到样本商铺选址评估结果后,通过将样本商铺选址评估结果和样本商铺的标签信息进行比对,也就可以基于有监督的训练方式实现对商铺选址模型的选址结果的可量化的客观的评价,进一步通过比对结果迭代的对商铺选址模型进行训练,也就可以提升商
铺选址模型选址的客观性和准确性。
[0064]
在一实施例中,获取样本商铺类型信息和样本商铺经营相关的特征信息;将样本商铺类型信息和样本商铺经营相关的特征信息输入至商铺选址模型中,得到样本商铺选址评估结果;商铺选址模型是基于lightgbm模型构建的;根据样本商铺选址评估结果和样本商铺的标签信息,对商铺选址模型进行训练,得到训练后的商铺选址模型,包括:
[0065]
获取目标类型的样本商铺经营相关的特征信息;
[0066]
将目标类型的样本商铺经营相关的特征信息输入至商铺选址模型中,得到目标类型的样本商铺选址评估结果;
[0067]
根据目标类型的样本商铺选址评估结果和目标类型的样本商铺的标签信息,对商铺选址模型进行训练,得到训练后的目标类型的商铺选址模型。
[0068]
具体地,在商铺选址的过程中,不仅商铺的选址对商铺的经营结果产生影响,商铺的类型也会对商铺的经营结果也会产生关键性的影响。例如商铺选址a后,若经营餐饮可能由于人群分布等原因倒闭,但若经营服装则可能经营良好,也就是不同商铺类型对商铺选址有不同的需求,不同商铺类型对周边人群画像、小区类型、城市类型等因素偏好和需求也不同。可选地,目标类型可以为餐饮类型、服装等类型中任意一种。因而本技术在进行商铺选址模型的训练过程中,对于同一类型的样本商铺进行单独训练,对于不同类型的样本商铺进行分别训练,通过考虑不同影响因素与商铺类型的匹配度,从而在满足不同类型的样本商铺选址的同时,也可以提升不同类型商铺选址的针对性和准确性,实现对不同类型商铺的准确选址及评估。
[0069]
例如,本技术中针对不同商家类型(例如餐饮、服装)分别计算选址得分,根据不同商铺类型(例如餐饮、服装)分别建立目标变量(商铺是否倒闭)和影响因素(例如人口聚集度、交通通达性、用户画像因素、周边小区类型、城市类型)的分类模型,针对不同商铺类型得到对应商铺类型的选址得分。也就是同样的影响因素可能对不同商铺类型的影响程度是不一样的,本技术中考虑了不同影响因素与商铺类型的匹配度,从而也就可以提高商铺选址结果的准确度和可信度。
[0070]
上述实施例的方法,考虑到同样的影响因素可能对不同商铺类型的影响程度是不一样的,因而本技术在进行商铺选址模型的训练过程中,对于同一类型的样本商铺进行单独训练,对于不同类型的样本商铺进行分别训练,从而在满足不同类型的样本商铺选址的同时,也可以提升不同类型商铺选址的针对性和准确性,实现了对不同类型商铺的准确选址。
[0071]
在一实施例中,样本商铺经营相关的特征信息,包括:
[0072]
人群聚集度信息、交通便利度信息、商铺种类多样性信息、同类商铺聚集性信息、人群画像信息、住宅小区类别信息和城市类别信息;人群画像信息用于表征距离商铺小于预设距离的用户的特征信息;住宅小区类别信息用于表征距离商铺小于预设距离的住宅小区的特征信息;城市类别信息用于表征商铺所在城市的特征信息。
[0073]
具体地,相关技术中,商铺选址考虑的影响因素单一,仅考虑人口集聚度、交通通达性、人口收入水平、商铺种类多样性、同类商铺聚集度等数据。本技术在商铺选址模型训练和商铺选址的过程中,不仅考虑到样本商铺经营相关的特征信息中的常用的人群聚集度信息、交通便利度信息、商铺种类多样性信息、同类商铺聚集性信息;还创造性的引入了人
群画像信息(例如周边1km、5km到访人口的年龄分布、性别分布、旅游app偏好分布)、住宅小区类别信息(例如选址周边1km小区的房价分布)和城市类别信息(例如所处城市人口、gdp),从而使得商铺选址过程中的信息更加的全面准确,从而也就使得商铺选址的结果更加的准确合理,提高商铺选址的准确度和可信度。
[0074]
可选地,人群画像信息用于表征距离商铺小于预设距离的用户的特征信息;住宅小区类别信息用于表征距离商铺小于预设距离的住宅小区的特征信息;城市类别信息用于表征商铺所在城市的特征信息;具体如表1所示:
[0075]
表1
[0076]
[0077][0078]
可选地,可以通过如下方式获取样本商铺经营相关的特征信息:
[0079]
步骤1.1数据采集:爬虫获取外部数据,并通过移动数据平台获取内部数据。
[0080]
一、外部数据
[0081]
通过智能数据采集工具自动化采集以及外部合作等手段获取高德地图、大众点评等平台的商铺数据。采集维度包括归属省、归属地市、归属区、归属街道、归属商圈、详细地址、经纬度、联系电话、一二三级分类等。
[0082]
通过智能采集百度地图、腾讯地图、高德地图等地理数据服务商网站采集城市的兴趣点数据。poi(point of interest,兴趣点)是地理信息系统的某个地标、例如交通设施如公交车站、地铁站点、停车场、立交桥等。采集维度包括poi名称,poi类别、经纬度、归属省市等。
[0083]
通过智能采集链家、贝壳网站小区数据,采集维度包括小区名称、房价、房屋栋数、住户总数、建筑类型、物业费、小区建筑年代、小区经纬度及归属省市等。
[0084]
通过智能采集国家统计局数据,城市类别数据采集维度包括城市id、居民消费价格指数、财政收入及支出、人口数、国内生产总值、社会商铺零售总额、货物运输量、旅客运输量、房地产开发投资额、商品房销售面积、归属省市。
[0085]
二、内部数据
[0086]
移动手机用户信令数据,可以知道用户连接基站的开始和结束时间,包含手机号码、基站的lac,cellid级联、基站经纬度、归属省市、基站进入时间及离开时间。
[0087]
基于移动手机宽带各业务,获取移动用户画像数据,包含手机号码、月消费额、年龄、性别、月访问各类目app及网站(例如旅游、移动购物、美食外卖、游戏、育儿、体育运动)的次数和时长、归属省市等。
[0088]
步骤1.2自变量获取:对上述内外部数据进行加工处理,按月进行更新,生成月粒度的数据。以沿街商铺id为主键,基于商铺经纬度信息衍生出该经纬度周边相关影响因素指标,例如人口聚集性、用户画像、交通便利度等。
[0089]
基于步骤1.1中的数据,衍生出商铺的相关指标:
[0090]
(1)人群聚集度、用户画像、人口收入水平;
[0091]
通过该商铺的经纬度与基站的经纬度的距离计算,从而知道该商铺周边(例如1公里范围内)的移动基站。通过移动用户里连接基站的行为,从而知道该基站下面包含哪些移动用户。从而知道该商铺周边有多少移动用户数,并基于移动用户画像数据从而知道周边用户的年龄分布、性别分布等等,从而知道人群聚集度及用户画像相关指标、基于移动用户月消费额分布情况可以知道人口收入水平指标。
[0092]
(2)交通便利度;
[0093]
通过该商铺的经纬度与交通设施的poi兴趣点数据,兴趣点数据包含经纬度信息,从而通过经纬度距离计算知道该商铺周边(例如1公里范围内)有哪些公交车站、地铁站,从而知道交通便利度相关指标
[0094]
(3)商铺种类多样性、同类商铺聚集性;
[0095]
通过该商铺的经纬度与全量商铺中其他商铺数据进行匹配,其他商铺数据中包含经纬度及商铺类别信息,从而通过经纬度距离计算知道该商铺周边(例如1公里范围内)有哪些同类商铺,各类型商铺的数量情况。
[0096]
(4)小区类别统计;
[0097]
通过该商铺的经纬度与爬取的小区数据进行匹配,小区数据中包含小区的经纬度信息,从而通过经纬度距离计算知道该商铺周边(例如1公里范围内)有哪些小区。爬取的小区中有小区的房价信息、建筑年代信息、小区的房屋栋数及住户总数、小区物业费。从而知道周边小区的房价分布,老旧小区分布(建筑年份为2000年前),大户型小区分布(物业费在区域内排名前50%且每栋户数在区域中排名为末20%)。
[0098]
(5)城市类别统计;
[0099]
通过该商铺的经纬度利用地图api接口,得到该商铺归属的省市,通过国家统计局数据获得该经纬度所处城市的信息,例如居民消费价格指数、财政收入等指标。
[0100]
上述实施例的方法,在商铺选址模型训练和商铺选址的过程中,不仅考虑到样本商铺经营相关的特征信息中的常用的人群聚集度信息、交通便利度信息、商铺种类多样性信息、同类商铺聚集性信息;还创造性的引入了人群画像信息、住宅小区类别信息和城市类别信息,从而使得商铺选址过程中的信息更加的全面准确,从而也就使得商铺选址的结果更加的准确合理,提高商铺选址的准确度和可信度。
[0101]
在一实施例中,获取样本商铺经营相关的特征信息之后,还包括:
[0102]
确定样本商铺经营相关的特征信息中的各个特征信息对商铺选址评估结果的贡
献程度;
[0103]
将贡献程度满足条件的特征信息作为商铺选址模型的训练样本。
[0104]
具体地,相关技术中,通过将商铺选址的影响因素线性相加进行商铺选址结果的评估,存在影响因素维数灾难、问题不可解等问题;另外,选择影响因素的标准也多基于业务经验,主观性较强,导致商铺预测结果的准确性较差;第三方面,不同商铺类型对于不同影响因素的依赖性各不相同。
[0105]
为了解决上述影响因素维数灾难、问题不可解的问题、基于业务经验选择影响因素导致主观性较强的问题,以及不同商铺类型对于不同影响因素的依赖性各不相同的问题,本技术实施例中首先确定样本商铺经营相关的特征信息中的各个特征信息对商铺选址评估结果的贡献程度,进而将贡献程度满足条件的特征信息作为商铺选址模型的训练样本,从而也就挑选出对各个类型商铺选址预测结果产生关键影响的特征,实现了切实的可量化的对商铺选址的多个影响因素的准确选择,达到了剔除无关特征和冗余特征,实现指标精简,提高模型训练和模型预测的效率和精确度的效果。
[0106]
可选地,本技术实施例中通过如下方式确定样本商铺经营相关的特征信息中的各个特征信息对商铺选址评估结果的贡献程度:
[0107][0108]
其中,ig(ti)表示特征信息ti对商铺选址评估结果的贡献程度;p(k)表示第k类店铺出现的概率;k取值0和1,其中,1类表示商铺倒闭,0类表示商铺正常营业;p(ti)表示包含特征信息ti的商铺出现的概率;p(k|ti)表示包含特征信息ti的条件下且属于第k类商铺的概率;表示不包含特征信息ti的商铺出现的概率;表示不包含特征信息ti的条件下且属于第k类店铺的概率。
[0109]
通过上述方法,可以准确评估样本商铺经营相关的特征信息中的各个特征信息对商铺选址评估结果的贡献程度,可选地,基于上述方式统计出的对某类商铺选址的贡献程度超过阈值的特征信息则进行保留,对于商铺选址的贡献程度小于阈值的特征信息则进行丢弃;可选地,不同类型的商铺选址模型对应的各个特征信息的贡献程度也各不相同,因而不同类型的商铺选址模型在训练过程中使用的训练样本中所包含的样本商铺经营相关的特征信息也各不相同,从而也就可以实现对不同类型商铺的快速准确地有针对性的评估。
[0110]
上述实施例的方法,通过确定样本商铺经营相关的特征信息中的各个特征信息对商铺选址评估结果的贡献程度,并将贡献程度满足条件的特征信息作为商铺选址模型的训练样本,从而也就可以实现对不同类型商铺的快速准确地有针对性的训练,并且也解决了现有技术中商铺选址过程中影响因素维数灾难、问题不可解的问题,也克服了现有技术中基于业务经验选择影响因素导致主观性较强的问题,提升了不同类型商铺选址的高效性、准确性和针对性,达到了从多个影响商铺经营相关的特征信息中挑选出对商铺选址预测结果产生关键影响的特征,实现了切实可量化的对商铺选址的多个影响因素的准确选择,提
升了商铺选择的针对性、高效性和准确性。
[0111]
示例性的,本技术中商铺选址方法的流程如图2所示,基于移动手机信令数据、移动用户画像数据等内部影响因素,沿街商铺、交通设施、小区、城市类型等外部因素,实现对某个经纬度下的各个商铺类型的选址得分进行科学精准的预测。
[0112]
本技术实施例中采用爬虫等方法搜集外部影响因素数据,同时整合梳理相关内部影响因素数据。基于levenshtein distance算法获得目标变量数据(商铺是否倒闭),之后通过确定变量的重要性,从而也就挑选出对各个类型商铺选址预测结果产生关键影响的特征,最终对不同商铺类型分别建立基于lightgbm有监督学习算法,对商铺选址在某经纬度且某商铺类别的情况下的选址得分实现预测。也就是在预测建模阶段的模型训练过程中,以商铺是否倒闭作为因变量,根据不同商铺类型分别构建有监督学习中的lightgbm模型,求解相应的模型参数,对商铺选址得分实现预测。相较于目前通过无监督学习方式,可以评估效果各个指标的权重且具有客观性。
[0113]
需要说明的是,在商铺选址模型的训练过程中,可以基于如下方式进行商铺选择模型的训练:
[0114]
本发明中,以商铺是否倒闭作为目标变量(标签信息),将商铺所处经纬度周边人口聚集度、交通便利度等因素作为自变量。对各个商铺类型分别基于lightgbm分别进行预测建模。此处以其中的餐饮类别商铺为例。
[0115]
首先基于不同商铺类别分别构建数据集,进行缺失值处理,然后利用信息增益算法挖掘出目标变量的关键影响因素。切分数据集合及采样后,基于lightgbm构建分类模型,实现对目标变量的预测。
[0116]
(1)构建数据集:基于不同商铺类别对各个商铺类别分别构建数据集;可选地,可以采用商铺大类作为商铺类目,可以根据需要使用中类或者小类分别建立数据集。此处以其中的餐饮类别商铺为例,所有的样本商铺数据都是餐厅类别的商铺数据。
[0117]
(2)缺失值处理
[0118]
结合商铺选址的数据特点及特征含义,对数值型变量采取直接删除、均值填充、中位数填充等方法。
[0119]
(3)特征选择
[0120]
由于对预测目标的影响因素选择,缺少确实可量化的方法,并会衍生出维数灾难、问题不可解等问题。因此,基于目标变量(商铺是否倒闭)与自变量(商铺周边的人口聚集度、交通便利度、用户画像、周边小区类型、城市类型),进行特征选择。
[0121]
本技术实施例中依据某特征项ti对整个分类所能提供的信息量的多少来衡量此特征项的重要程度的方法,其中信息量的多少用熵来表示。某特征项ti的信息增益对于商铺选址问题来说指的就是出现该特征或未出现该特征条件下熵与不考虑任何特征时的熵的差异值,计算公式如下所示:
[0122][0123]
其中p(k)表示第k类店铺出现的概率,k的值为0和1总共2个商铺类别,1类别表示商铺倒闭,0代表商铺处于正常营业。p(ti)表示包含特征项ti的商铺出现的概率;p(k|ti)表示包含特征项ti的条件下属于第k类商铺的概率;表示不包含特征项ti的商铺出现的概率;表示不包含特征项ti的条件下属于第k类店铺的概率,即以某个特征的商铺类别出现频率为基础,考察该特征对整个分类系统的贡献度。
[0124]
(4)切分数据集合及采样
[0125]
本技术实施例中将数据集进行分割,测试集占总体样本的20%。考虑到倒闭商户在总体商铺中占比较低,属于重度不平衡情况。本技术中通过对错分样本的不断迭代,提高预测的准确性,但重度失衡的样本分布还是会影响lightgbm算法的预测性能,故采用不同采样技术改变样本的分布,对样本的失衡情况进行处理,解决因为数据不平衡造成的模型倾向性问题。
[0126]
(5)模型训练:lightgbm参数设置及训练
[0127]
由于对影响因素的权重设计偏主观,缺少确实可量化的方法,无法衡量效果。
[0128]
将步骤3确定的m个影响因素作为自变量,商铺是否倒闭作为因变量,完成lightgbm模型的构建。
[0129]
lightgbm算法是基于gbdt算法改进的梯度提升算法,可以应用于分类问题。
[0130]
根据经验法和网络搜索对lightgbm算法进行参数设置:learning_rate使用系统的默认值0.1,num_leaves叶子数量调整为38,min_data_in_leaf表示叶子节点最少叶子树,调整为170,使用该参数可以避免模型生长出过深的树,以避免模型产生过拟合情况,objective即为学习器任务类型设为binary,其余参数使用系统默认参数。
[0131]
(6)测试集效果评估
[0132]
通过计算模型的f1值和auc值来筛选出最优模型,由于商铺目标变量占比偏低,属于不平衡数据,所以通过计算auc值能更合理的评估模型的效果情况。
[0133]
可选地,商铺选址可以通过如下方式进行:
[0134]
(1)用户输入经纬度信息及商铺类别,例如餐饮类。
[0135]
(2)基于内部数据(手机信令数据、移动用户画像数据)及外部数据(商铺数据、兴趣点数据、小区类别数据、城市类别数据)进行特征工程,衍生出该经纬度周边(例如1公里范围内)的影响因素(例如人群聚集度、交通便利度、商铺种类多样性、同类商铺聚集性、画像匹配度、小区类型、城市类别)。
[0136]
(3)对第2步的特征进行缺失值处理,并基于商铺类别为餐饮类已训练好的的lightgbm模型进行预测,得到p(k=0)即该选址在该经纬度且商铺类别为餐饮的正常营业
的概率值作为最终的商铺选址得分。
[0137]
综上可知,本技术综合内外部的影响因素,对商铺选址在某经纬度且某商铺类别的情况下的选址得分实现预测,实现了商铺选址的准确客观及针对性的预测。
[0138]
也就是相关技术中,一方面,在商铺选址模型模型训练过程中,对于商铺选址影响因素权重设计偏主观,无监督学习方法导致缺少切实可量化的方法,无法准确衡量选址效果。另一方面,现有的商铺选址方法对影响因素权重设计的过程中,通过计算各个影响因素对商业选址的影响值并进行标准化,基于专家经验来得到各影响因素权重,通过线性相加的方式将各个因素进行融合,从而得到每个选址的最终得分。现有的方法是从未标记的数据中学习属于无监督学习方式,无法准确客观衡量商铺选址效果且需要对各项指标的最优值进行现行确定,主观性过强。
[0139]
本技术采用lightgbm有监督学习算法对商铺选址进行预测,根据不同商铺类型(例如餐饮)分别建立目标变量(商铺是否倒闭)和影响因素(例如商铺周边人口聚集度、交通通达性、用户画像因素、小区类型、城市类型)的分类模型,得到对应商铺类型的选址得分,具有如下优势:
[0140]
(1)本技术通过获取内外部数据,综合考虑人群画像、周边小区类型、城市类型等影响因素,通过数据预处理方法,获得内外部影响因素数据。相较于现有的商铺选址预测方法所依赖的数据源单一的特点,有效提高商铺选址预测结果的准确度和可信度。
[0141]
(2)本技术在目标变量(标签信息)获取阶段基于levenshtein distance算法计算本月商铺名称与下月商铺名称相似度得到目标变量(商铺是否倒闭),而现有的商铺选址预测方法缺乏目标变量信息,从而可以有效地提高商铺选址预测结果的客观性。
[0142]
(3)本技术在预测建模阶段的构建数据集过程中,针对不同商家类型分别建立目标变量(商铺是否倒闭)和影响因素(例如人群画像)的分类模型。针对不同商铺类型得到对应类型的商铺选址得分,由于同样的影响因素可能对不同商铺类型的影响程度是不一样的,因而本技术的方法将提高商铺选址预测结果的准确度和可信度。
[0143]
(4)本技术在预测建模阶段的特征选择过程中,以商铺是否倒闭作为目标变量,并筛选出商铺选址的关键变量。一方面通过采用有监督学习方式替换掉无监督学习方式,提拱了切实可量化的方法。另一方面通过将冗余特征和无关特征的剔除,实现了指标的精简,提高后续算法的效率和精确度。最后挖掘出对商铺选址产生关键影响的因素,对于商铺选址的准确预测具有重大意义。
[0144]
(5)本技术在预测建模阶段的模型训练过程中,以商铺是否倒闭作为因变量,通过筛选关键的影响因素作为自变量,根据不同商铺类型分别构建有监督学习中的lightgbm模型,求解相应的模型参数,对商铺选址得分实现预测。相较于目前的无监督学习方式,可以有效提高商铺选址预测结果的准确度且各个指标的权重具有客观性。
[0145]
下面对本发明提供的商铺选址装置进行描述,下文描述的商铺选址装置与上文描述的商铺选址方法可相互对应参照。
[0146]
图3是本发明提供的商铺选址装置的结构示意图。本实施例提供的商铺选址装置,包括:
[0147]
获取模块310,用于获取商铺选址信息和商铺类型信息;
[0148]
选址模块320,用于将商铺选址信息和商铺类型信息输入至商铺选址模型中,得到
商铺选址评估结果;商铺选址模型的训练样本包括样本商铺类型信息、样本商铺经营相关的特征信息;样本商铺的标签信息包括样本商铺的经营状况信息;样本商铺的标签信息是基于最小编辑距离levenshtein distance方式计算出的第一时刻的样本商铺名称与第二时刻的样本商铺名称的相似度确定的。
[0149]
可选地,商铺选址模型基于如下方式训练:
[0150]
获取样本商铺类型信息和样本商铺经营相关的特征信息;
[0151]
将样本商铺类型信息和样本商铺经营相关的特征信息输入至商铺选址模型中,得到样本商铺选址评估结果;商铺选址模型是基于lightgbm模型构建的;
[0152]
根据样本商铺选址评估结果和样本商铺的标签信息,对商铺选址模型进行训练,得到训练后的商铺选址模型。
[0153]
可选地,获取目标类型的样本商铺经营相关的特征信息;
[0154]
将目标类型的样本商铺经营相关的特征信息输入至商铺选址模型中,得到目标类型的样本商铺选址评估结果;
[0155]
根据目标类型的样本商铺选址评估结果和目标类型的样本商铺的标签信息,对商铺选址模型进行训练,得到训练后的目标类型的商铺选址模型。
[0156]
可选地,样本商铺经营相关的特征信息,包括:
[0157]
人群聚集度信息、交通便利度信息、商铺种类多样性信息、同类商铺聚集性信息、人群画像信息、住宅小区类别信息和城市类别信息;人群画像信息用于表征距离商铺小于预设距离的用户的特征信息;住宅小区类别信息用于表征距离商铺小于预设距离的住宅小区的特征信息;城市类别信息用于表征商铺所在城市的特征信息。
[0158]
可选地,所述选址模块320,具体用于:确定样本商铺经营相关的特征信息中的各个特征信息对商铺选址评估结果的贡献程度;
[0159]
将贡献程度满足条件的特征信息作为商铺选址模型的训练样本。
[0160]
可选地,所述选址模块320,具体用于:利用如下公式确定各个特征信息对商铺选址评估结果的贡献程度:
[0161][0162]
其中,ig(ti)表示特征信息ti对商铺选址评估结果的贡献程度;p(k)表示第k类店铺出现的概率;k取值0和1,其中,1类表示商铺倒闭,0类表示商铺正常营业;p(ti)表示包含特征信息ti的商铺出现的概率;p(k|ti)表示包含特征信息ti的条件下且属于第k类商铺的概率;表示不包含特征信息ti的商铺出现的概率;表示不包含特征信息ti的条件下且属于第k类店铺的概率。
[0163]
可选地,所述选址模块320,具体用于:在第一时刻的样本商铺名称与第二时刻的样本商铺名称的相似度大于等于0.8的情况下,确定样本商铺对应的标签信息为正常营业状态;
[0164]
在第一时刻的样本商铺名称与第二时刻的样本商铺名称的相似度小于0.8的情况下,确定样本商铺对应的标签信息为倒闭状态。
[0165]
本发明实施例的装置,其用于执行前述任一方法实施例中的方法,其实现原理和技术效果类似,此次不再赘述。
[0166]
图4示例了一种电子设备的实体结构示意图,该电子设备可以包括:处理器(processor)410、通信接口(communications interface)420、存储器(memory)430和通信总线440,其中,处理器410,通信接口420,存储器430通过通信总线440完成相互间的通信。处理器410可以调用存储器430中的逻辑指令,以执行商铺选址方法,该方法包括:获取商铺选址信息和商铺类型信息;将商铺选址信息和商铺类型信息输入至商铺选址模型中,得到商铺选址评估结果;商铺选址模型的训练样本包括样本商铺类型信息、样本商铺经营相关的特征信息;样本商铺的标签信息包括样本商铺的经营状况信息;样本商铺的标签信息是基于最小编辑距离levenshtein distance方式计算出的第一时刻的样本商铺名称与第二时刻的样本商铺名称的相似度确定的。
[0167]
此外,上述的存储器430中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0168]
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法所提供的商铺选址方法,该方法包括:获取商铺选址信息和商铺类型信息;将商铺选址信息和商铺类型信息输入至商铺选址模型中,得到商铺选址评估结果;商铺选址模型的训练样本包括样本商铺类型信息、样本商铺经营相关的特征信息;样本商铺的标签信息包括样本商铺的经营状况信息;样本商铺的标签信息是基于最小编辑距离levenshtein distance方式计算出的第一时刻的样本商铺名称与第二时刻的样本商铺名称的相似度确定的。
[0169]
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各提供的商铺选址方法,该方法包括:获取商铺选址信息和商铺类型信息;将商铺选址信息和商铺类型信息输入至商铺选址模型中,得到商铺选址评估结果;商铺选址模型的训练样本包括样本商铺类型信息、样本商铺经营相关的特征信息;样本商铺的标签信息包括样本商铺的经营状况信息;样本商铺的标签信息是基于最小编辑距离levenshtein distance方式计算出的第一时刻的样本商铺名称与第二时刻的样本商铺名称的相似度确定的。
[0170]
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其
中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
[0171]
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如rom/ram、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
[0172]
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
网友询问留言已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
技术分类