使用点评数据探测城市商业服务设施的发展规律
 二维码 117
发表时间:2017-09-30 00:00

  蒋波涛1, 2,王艳东1,叶信岳3 1.武汉大学测绘遥感信息工程国家重点实验室,湖北 武汉430079;2.宁波市规划与地理信息中心,浙江 宁波315041;3.肯特州立大学地理系,俄亥俄 肯特44242


  摘 要:大众点评网提供的商业设施及其满意度评价数据为城市商业设施的时空分布与发展规律研究 提供了一个重要的信息源,它们来源于分布在道路两侧的商业设施。根据此特征,本文设计了一种基于 道路网约束的反映商业服务设施与交通网络关系的密度计算方法,对点评数据中蕴含的设施空间分布、 设施数量与其满意度之间关系进行了分析。它将商业设施在空间上的二维分布映射至一维的道路网 上,更真实地反映了商业服务设施与所处交通环境的影响,揭示了商业服务设施位置、数量及其满意度 之间的关系,为城市规划的定量化研究提供了数值依据。 关键词:商业服务设施;道路网约束分析;城市规划定量评价;社交网络服务 中图分类号:P208    文献标识码: A    文章编号:1001- 1595(2015)09- 1022- 07 基金项目:国家自然科学基金(41271399);国家科技支撑计划(2012BAH35B03);高等学校博士学科点 专项科研基金(20120141110036);测绘地理信息公益性行业科研专项经费(201512015)


   1 引 言 城市是具有商品交换功能的人类生活聚居区 域[ 1],对城市居民而言,其居住区除了要提供良好 的工作生活空间外,还需具备完善的商业及交通 等服务设施。其中商业服务设施除受到城市规划 布局的影响外,更多以满足居民工作生活要求为 主要目标,具有很强的属地性[ 2 -4]。商业服务设施 的出现与消失过程,直接反映了城市区域变化与 更新趋势,因此,对特定区域中商业服务设施的考 察可为其规划实施成果的合理性评价提供量化依 据,并分析不同因素对其产生的影响。 商业设施信息采集可通过工商部门或商业采 集等方式获得,但在城市发展较快的地方,激烈竞 争会造成商业设施生存期较短,而周期较长的传 统调研方法往往导致样本量不足、时效性差和附 加属性少等问题[ 5 -6],许多过期信息点( point   of interest,POI)无法及时更新,很难有效反映出商 业设施的时空及服务满意度变化,影响了评价的 可靠性。人类社会正进入“大数据”时代,大数据 使得社会信息传播方式发生了重大改变,如 Fa- cebook、Twitter、微博和点评等社交网络服务 ( social   network service,SNS)应用又被称为“社 会传感器(social   sensor)” [ 7 -8],它们可产生涉及社 交用户日常生活的海量数据,扩展了社会信息生 产及获取的深度与广度[ 9]。SNS数据中也包含 了大量含有位置的信息,成为一种众包地理数据 源,受到城市规划与城市计算领域的广泛重视,如 利用位置签到数据研究城市热点与商圈变化的规 律[10],使用社交用户关系推测用户个体的位 置[11],使用 Twitter数据探测流感传播路径及趋 势[12]等。以点评服务为例,它提供的商业设施评 价信息包含了时间、空间和服务满意度等属性,且 更新频率远高于工商业登记和实地调研,能够有 效地反映某个商业服务设施的历史变化过程。 本文以大众点评网(www.dianping.com)中 采集的北京大上地区域点评类数据为基础,结合 该区域规划方案及问卷调研情况,使用 GeoDa-Net [ 13]在基于道路网络约束条件下运用核密度估 计法检测了不同类型服务设施的空间分布特征。 本文提出了一种基于道路网约束的核密度计算方 法,对点评数据中蕴含的空间分布、时空演变特征 和设施数量与设施满意度等规律进行了分析,这 对城市商业布局的引导及规划具有重要的参考价值。


  2 点评数据预处理与分析 大众点评网提供的点评数据以文本形式存 在,对其的量化分析必须进行预处理,即将一个商 业服务设施所有的点评文本转换为对应的数值形 式的满意度,从而生成以商业服务设施为核心的 POI。此外,对处理获得的POI还需与原始调查 问卷成果进行比较以确定其可靠性,只有两者无 显著差异,通过点评数据获得的POI才有被分析 的价值。 2.1 点评数据获取与满意度处理 大众点评网是目前国内最大的点评类 SNS 网站,它以商户(商业服务设施)为核心提供社交 类点评[14],这些点评数据包括美食、休闲娱乐、购 物、美容核运动健身等类别,数量已超过3600万 条。本文对点评数据获取与满意度处理包括3个 步骤:首先获取研究区域内所需类型包含的商业 服务设施,其获取结果包括每个设施的设施名称 及对应的标识码;再根据该标识码从“大众点评 网”获取地址进行地理编码以取得设施的地理坐 标;最后计算点评文本对应的满意度,其过程如图 1所示。


  大上地区域位置如图2框内所示,它位于北 京海淀区中东部,是北京软件与信息产业聚集地, 同时也是城中村较集中的区域。目前产业发展参 差不齐、新旧社区混杂,生活品质差别较大。东部 核心区是大量高新企业所在地,其余区域为待改 造区域。图中的字母显示了大上地区域的道路网 分级,即高架路(A)、主干道( B)和次干道( C)。 本文选择此区域为研究对象是因为它具备明显的 新、旧城对比,利于分析城市发展的不同影响因 素,同时可以对相关传统调查材料进行对比分析。


   本文共获得该区域13类商业服务设施共计 2038个及各自对应的点评文本,总数为35 394条, 时间跨度从2004年5月至2014年6月,2009年 后通过移动设备发出的点评数据剧增,具体情况 如表1所示。

  点评信息是使用自然语言来描述的,将点评 文本转换为满意度实质上是进行文本分类。文本 分类方法有多种,如支持向量机(support   vector machine,SVM)、贝叶斯网络和主题模型(topic model) [ 15 -16]分类等。本文使用基于潜在语义索 引(latent   semantic   indexing,LSI) [ 17 -18]的主题模 型技术对文本进行处理,LSI通过向 TF- IDF中 引入一个主题维度,将 TF- IDF矩阵分解为“文 本—主题—特征项”矩阵形式,这样就获得了新的 分类形式,即可以根据该点评文本的语义内容来 判断它属于哪一类主题,从而确定所对应的满意 度。在本文示例中,LSI是通过将文本与其包含 的满意度特征项,即通过分析每一条点评中包含 的“很好”、“很差”、“物美价廉”等词汇的语义,来 说明其所属的满意主题,从而获得相应的满意度。

  本文将点评文本的用户感受分为“很差”、 “差”、“一般”、“好”和“很好” 5类主题,并分别赋 1~5分。如“这家饭店物美价廉,下次还要来光 临。”表达的语义是高度赞赏,可评5分;而“饭菜 很差,下次不来了”表达的语义是“很差”,可评1分, 以此说明用户对服务设施的满意程度。如一家餐厅 的12月份的两个评论表达的满意度是“一般”和 “好”时,则该餐厅12月份两个评论的满意度分别为 3分和4分,则其平均满意度为3.5分。 来自一家服务设施的点评信息将成为一个既 拥有空间坐标,也包含了自从2006年以来每个季 度满意度的POI。最后这些数据将构成一个语义 丰富的POI数据集。 2.2 点评数据的可靠性分析 在大上地区域规划方案制定前,相关部门以 问卷调查方式发放了500份问卷,最终收回437份 有效问卷。公共设施居民满意度的调查部分涉及 日常生活8大类商业服务设施,经过整理计算后 可以得到这些设施的平均满意度;由于从点评数 据获得的评价值可以按年或季度进行统计,为保 持数据时效性,选择的是2013年第4季度的不同 类型商业服务设施的平均满意度,如表2所示,除酒店类设施传统调查问卷没有提供外,基于点评 数据的调查评分方法提供了与传统方法接近的 结果。


  由于类型数量小于30,本文选择对两组数据 使用SPSS软件进行 T检验,计算所得p- level值 为0.589 07,远大于检验样本的显著性差异 p 值 0.05,即两组数没有显著性差异,因此,点评数据 可以替代传统问卷调查的样本。 3 商业服务设施的空间分布特征 商业服务设施的特征决定了其必然分布于道 路两侧。考察分布于道路网两侧的POI密度分 布可以评价一段街道上各类商业服务设施的密集 程度,从而判断其繁荣程度与产业聚集特征,因此 需要考虑其所在的道路。基于道路网约束,本文设计了一种反映商业服务设施分布于交通网络上 的道路密度的方法,用于分析商业服务设施的空 间分布特征,其具体计算过程如下:①道路网分 解,为了分析整条道路的不同部分上的商业设施 聚集程度,首先将道路网分解为长度固定的线性 单元(linear unit),并使用两个 POI间的最短网 络距离作为度量方式[19],这样将一条道路切分为 多个等长路段后使POI更准确地映射至道路的 某一部分,利于区分同一条道路上不同路段间的 密度;②道路网信息提取,每个 POI寻找与自己 最近(网络距离)的路段,并记录该 POI的信息; ③道路核密度计算,当全部路段均计算出被映射 至自身的POI数量后,对于单个路段,选择带宽 r 以内的路段作为其密度范围内邻居[20],则核密度 值计算可如下式[21]


式中, dis是两个线性单元最短网络距离; r为带 宽,本文取10m 以保证所有POI都能落到最近 单元上; k 为核函数,由于核函数类型对整体密度 模式影响较小[19],本文选择了默认的 Quadratic 核函数; c i 是单元 i 拥有的POI数量; n 为单元 s 的邻接单元数量。 经试验,本文在具体核密度估计分析中选择 200m 作为线性单元长度,如长度过长会造成核 密度普遍较低,此长度可有效地反映道路网间不 同部分的对比情况,如过短则会让计算量剧增,影 响处理效率。经计算,包括表2中列举的设施与 医院共9种类型商业设施,在道路网上的核密度 剔除空值与0后的平均值为0.02,本文将所有核 密度大于0.02的线性单元渲染为红色,小于及等 于0.02之间的线性单元为绿色,如图3所示(由 于篇幅所限,只展示了9种类型商业服务设施中 的4种),它反映了不同商业服务设施由于行业特 点和自身面对的客户群体的差异表现出的巨大差 别。它们可划分成两种形态: A 类是指主要沿主 干道分布且具有高核密度值(>0.02)的较长线性 单元,即数量较多的商业服务设施,如运动健身、 美食、娱乐设施、婚庆和超市等设施,这些服务设 施的消费水平较高,消费人群年龄段较为年轻,通 常会在交通便捷的醒目位置开设商铺,同时服务 设施往往呈现扎堆效应,以便于吸引更多的客流; B类是主要分布在次干道且具有高核密度的较短 路段,即线性单元较少的商业服务设施,此类设施包括医院、丽人、亲子和酒店等类型,通常为居民 生活日常所需的大型服务设施或常以加盟店形式 出现的商业服务设施,与普通市民的日常生活密 切相关。

  与 A、 B两类沿道路分布形式对应的, 9类商 业设施的空间分布也表现出较大的差异,如运动 健身、美食、婚庆、娱乐和超市等 A 类设施,在研 究区域内呈现较为均匀的聚集状态,即在该区域 内普遍分布但又扎堆聚集;而如医院、丽人、酒店 和亲子类等 B类设施,则呈现出离散分布形态。 这两类设施的沿道路及空间分布形态,可以为类 似设施的选址提供依据,也可以为城市规划中的 设施分布提供更好的引导,即 A类设施应尽量在 相同商圈内开业,而 B类设施则应避免扎堆,以 便更好地分享人流红利。 4 商业服务设施的满意度变化趋势分析 在城市发展过程中许多商业服务设施都呈现 一定的聚集特征,如高级写字楼、银行和高档商店 的聚集区被称为中央商务区,在这些商业中心区 域往往存在一些知名的、满意度较高的标杆性服 务设施来带动周围整体服务水平的提升。在很多 服务类设施的发展过程中,当一家设施出现后如 果受到欢迎,其周围会迅速出现多家类似的服务 设施,而整条街道上该类型服务设施的数量及满 意度会随着竞争的激烈化出现上升或衰减的现 象[ 4]。在本节中以丽人类服务设施为例,分别研究了其满意度时空变化情况及满意度与设施数量 之间的关系。 4.1 丽人类服务设施的时空变化 虽然满意度可以分为5类,但为了更好地在 图上分析及对比不同商业服务设施的满意度变化 情况,本文将5类满意度绘制成3种情况,即不满 意(满意度为1~2分)、一般( 3分)和满意( 4~ 5分)的POI在道路网核密度图上并进行组合,最 终获得丽人类商业服务设施的满意度变化趋势 图。在组合过程中,由于同一条道路上不可避免 地出现多种满意度类型的服务设施,此时道路满 意度取其算术平均值。由于篇幅所限,图4只展 示了2006年至2014年间丽人类设施的时空变化 情况,其中不满意为蓝色( 1~2.9分)、一般满意 为绿色( 3~3.9分)、满意为红色( 4~5分)表示。


  从图4可以看出:①在时序上,丽人类商业服 务设施的数量是沿着主干道逐渐向次干道铺开, 同时逐步向右侧的大上地中心区域集中,通过查 询中心区域的地图,还可知在大型商厦聚集了大 量的商业服务设施,它形成了此区域丽人类设施 的激烈竞争;②在2006年至2012年中,满意度为 “一般”的丽人类商业服务设施始终占据主流,但 中心区域的丽人类商业服务设施在增长的同时也 造成满意和不满意两类对立评价相对集中,它反 映出此区域竞争的异常激烈,这也显示出服务设 施的数量与满意度之间具有某种相关性。 4.2 丽人类服务设施数量与满意度的相关性分析 本文统计了丽人类商业服务设施在200m长的 道路段上的数量分布及满意度情况,其结果如图5 和图6所示。



  图5展示了等距路段上的丽人类商业服务设 施的数量分布。从中可看出,在存在丽人类服务 设施的路段中,没有竞争即仅有1家的路段为 18家,仅占18.9%;而有2至3家的路段为主流, 分别是33家和21家,占56.8%;而有5家和6家 设施的路段也为极少数,仅有5条和2条,它们均 为大型商中位于不同楼层的美容、美发和美甲店。 这反映出丽人类商业服务设施基本是以竞争形态 而存在的。 通过考察单条路段上设施的两类评论及平均 数量,从图6可了解其基本变化趋势:图中的3条 曲线分别反映了单个设施获得的不满意及满意评 论数量,以及该路段的平均满意度。本文对图5 和图6中的设施数量、平均满意度、满意评论数量 和不满意评论数量的数据使用SPSS进行了相关 性计算,其结果为:①在呈激烈竞争的丽人类设施分布中,单个路段上的设施数量与其平均满意度 的相关系数为-0.518  3,没有体现出两者之间具 有高线性相关,即整体上路段的平均满意度与其 设施的数量之间无直接关系;②当设施数量为1~ 3家时其平均满意度相关系数为0.917  7,呈高度 相关,即在局部上1~3家设施的分布可以让道路 平均满意度区域最大化;③随着单个路段上服务 设施的增加,每家服务设施获得“不满意”评论的 平均数量呈递增趋势,其相关系数为0.904  2,呈 高度相关。而获得“满意”评论的相关系数为0.830  9,也表现出较强的线性现象,这说明在竞 争较为激烈的地段,对于设施的满意与否存在较 大的争议。因此,从表面上看,一家商业服务设施 的满意度高低应该与其自身的服务水平相关,但 相关分析结果显示,在激烈的商业竞争环境中,多 家聚集一处的设施对客源的争夺会直接影响点评 网络上出现的设施满意度。 在图6中还可以看到,当一条200m 的路段 中有6家服务设施时,其不满意评论平均数量出 现了显著增加,而满意评论平均数量却保持稳定。 通过从大众点评网中考察这些设施的点评的内 容,可将此情况归咎为两个因素:一是激烈的竞争 会导致一些服务设施营业额的降低从而走向倒 闭,在此过程中如由于服务及办卡退费等原因,会 导致大量的差评出现;二是不同店铺之间的恶意 竞争会导致许多人为差评(即无明确时间和事件 描述的恶意性评论)来误导潜在消费者的情况。 在对其余8种设施使用相同方法分析时,也 发现200m 路段上的设施数量与服务满意度之 间存在较高相关性,同时也存在一个设施数量的 平衡点,如美食为8家,超市为4家等。 5 结 论 区域内商业服务设施与居民的日常工作生活 密切相关,它们可直接反映区域过去与现在的发 展水平,并揭示未来发展趋势。本文以点评类 SNS服务为信息源,研究了从中挖掘商业服务设 施满意度的方法,并通过对不同类型商业服务设 施基于道路网的聚集程度分析,揭示了研究区域 商业设施在空间上蕴含的两种分布形态及在时序 上的变化趋势,分析了单位路段上设施数量与路 段满意度、设施获得的点评数量之间的变化规律, 对引导商业服务设施的分布具有一定的参考价值。下一步,将结合点评数据、房价数据等社会化信息,进一步分析城市区域内不同商业设施发展 的属地特征与自组织特征,并将进一步细化数据 时间粒度,将研究深入至月份及季度,揭示作为城 市区域变化信号的商业服务设施的深层规律。


参考文献:

[ 1]  PAUL  L  K,LINDA M.Urbanization[M].GU Chaolin,

TANG Pei yuan,YANG Xingzhu,et   al.Trans.Bei j ing: Science Press,2009:1- 3.(保罗·诺克斯,琳达·迈克卡 西.城市化[M].顾朝林,汤培源,杨兴柱,等译.北京: 科学出版社,2009:1- 3.)


[ 2]  YI Xiaoxiang.A Study on Communit y Retail   and Service Facilities Based on Consumption Theories—The Case of Shanghai[ J].Urban Planning Forum,2012,10( 3):44

- 52.(衣霄翔.消费视角下的居住区商业服务设施配建体 系研究———以上海市曲阳新村为例[ J].城市规划学刊, 2012,10( 3):44- 52.)


[ 3]  TANG Zilai.The Formation Demand of   the Service Facilities in Real Estate:The Trend Forecast   and Practice Test[ J].Cit y Planning Review,1999,23( 5):32- 36.(唐子来.居 住小区服务设施的需求型态:趋势推断和实证检验[ J]. 城市规划,1999,23( 5):32- 36.)


[ 4]  XU Xiaoyan.Micro Location Layout   of Nei ghborhood Facilities[ J].Planners,2011,27(12):62- 66.(徐晓燕. 城市社区配套设施微区位布局研究[ J].规划师,2011, 27(12):62- 66.)


[ 5]  YAN Ruogu,ZHOU Suhong,YAN Xiaopei.Stud- ies of Urban Regeneration[ J].Progress  in Geography, 2011,30( 8):947- 955.(严若谷,周素红,闫小培.城市 更新之研究[ J].地理科学进展,2011,30( 8):947- 955.)


[ 6]  DAI Fei,ZHANG Junhua.The Surve y Methods   in Planningand Desi gn  1—Questionnaire Survey(Theor y Part)[ J]. Chinese Landscape Architecture,2008,24(10):82- 87. (戴菲,章俊华.规划设计学中的调查方法( 1)———问卷调 查法(理论篇)[ J].中国园林,2008,24(10):82- 87.)


[ 7]  SAKAKI  T,OKAZAKI  M,MATSUO Y.Earthquake Shakes Twitter Users:Real -Time Event Detection  by Social   Sen

- sors[ C]∥Proceedings of   the   19th   International Confer-ence on World Wide Web.Ralei gh:ACM,2010:851

- 860.


[ 8]  GOODCHILD  M F.Citizens   as Sensors:the World of Volunteered Geography[ J].GeoJournal,2007,69( 4):

211- 221.


[ 9]  HEIPKE C.Crowdsouring Geos p atial Data[ J].ISPR Journal of Photogrammetr y and Remote Sensing,2010,65( 6):550- 557.


[ 10] HU Qingwu,WANG Ming,LI Qingquan.Urban Hots-pot   and Commercial Area Exploration with Check- in Data

[ J].Acta Geodaetica   et Cartographica Sinica,2014,43

( 3):314- 321.(胡庆武,王明,李清泉.利用位置签到数 据探索城市热点与商圈[ J].测绘学报,2014,43( 3):314- 321.)


[ 11] DAVIS JR  C  A,PAPPA  G  L,DE OLIVEIRA  D  R  R,et   al.Inferring   the Location of Twitter Messages Based on User Relationshi ps[ J].Transactions  in GIS,2011,15( 6):735- 751.


[ 12] LAMPOS  V,CRISTIANINI N.Tracking   the Flu Pandem-ic  by Monitoring   the Social Web[ C]∥2010 2nd   Interna-tional Workshop on Cognitive  Information Processing ( CIP).Elba:IEEE,2010:411- 416.


[ 13] HWANG M  H,WINSLOW A.User Manual   for GeoDaNet:

Spatial Anal ysis on Undirected Networks[EB/OL]. [ 2012- 03- 22].htt ps:∥geodacenter.asu.edu/drupal_files /Geodanet_Manual_03_2012. pdf.


[ 14] LXiuying.The Current   Situation of   the Development   of  the Third Part y Review Websites  in China under  the Web2.0—Dianping and Douban[ J].Journal   of   Southeast  Universit y:Philosophy and Social   Science,2011,13(S1):87- 92.(吕秀莹.浅析 Web2.0环境下我国第三方点评网 站的发展现状———以大众点评网和豆瓣网为例[ J].东南 大学学报:哲学社会科学版,2011,13(S1):87- 92.)


[ 15] BLEI  D  M,NG  A  Y,JORDAN  M I.Latent Dirichlet Allocation[ J].The  Journal  of Machine Learning Re- search,2003,3:993- 1022.


[ 16] BLEI  D  M,LAFFERTY  J D.Dynamic Topic Models[ C]∥

Proceedings of  the  23rd  International Conference on Machine Learning.New York:ACM,2006:113- 120.


[ 17] DEERWESTER  S,DUMAIS  S  T,Furnas  G  W,et   al.

Indexing  by Latent   Semantic Anal ysis[ J].Journal   of   the American Societ y  for  Information Science  and Technology, 1990,41( 6):391- 407.


[ 18] TAO Chao,TAN Yihua,PENG Bifa,et   al.A Probabilistic Latent  Semantic Anal ysis Based Classification  for Hi gh Resolution Remotel y Sensed   Imager y[ J].Acta Geodaetica et Cartographica Sinica,2011,40( 2):156

- 162.(陶超, 谭毅华,彭碧发,等.一种基于概率潜在语义模型的高分 辨率遥感影像分类方法[ J].测绘学报,2011,40( 2):156- 162.)


[ 19] XIE Zhixiao,YAN Jun.Kernel Densit y Estimation ofTraffic Accidents  in a Network Space[ J].Computers,

Environment   and Urban  Systems,2008,32( 5):396- 406.


[ 20] SHE Bing,ZHU Xinyan,GUO Wei,et   al.Research on

Spatial  Pattern of Cit y Events under Road Network Constraints[ J]. Application Research of Computers, 2013,30( 8):2327- 2329.(佘冰,朱欣焰,呙维,等.道 路网约束下的城市事件空间点模式分析[ J].计算机应用 研究,2013,30( 8):2327- 2329.)


[ 21] OKABE  A,SATOH T,SUGIHARA K.A Kernel Densit y

Estimation Method  for Networks,Its Computational

Method and  a GIS -based Tool[ J].International   Journal   of  Geographical   Information Science,2009,23( 1):7

- 32. (责任编辑:宋启凡)


收稿日期:2014 -10 -29 修回日期:2015 -05 -10 第一作者简介:蒋波涛(1981—),男,博士生,高级工程 师,主要从事时空数据挖掘及社会化时空大数据在城市 中的应用研究。