案例研究:大数据如何增强了易趣网的客户访问体验

来源:机房360  
2014/5/16 11:23:39
鉴于其日均由计算机生成达50TB的数据,并还需同时处理100PB的日常数据结,易趣网每日可以说都面临着天文数字般的大数据挑战。这些海量的数据信息可以帮助易趣网实施模拟技术,用于效仿客户如何与实体店老板做交易的;唯一不同的是,他们是通过在其全球拍卖网站上试图实现的。

本文关键字: 大数据 易趣网
该公司跨三个平台拆分其数据分析,其中第一个是Teradata的传统企业级数据仓库。这个核心交易系统必须非常可靠,斯蒂芬森说。“该系统不能出现故障。因为我们每天要由7,000位分析师访问700个并发用户,处理50TB的数据。 ”
 
在2002年,易趣网建立了一个13TB的Teradata企业级数据仓库,从而有效地提供了一个大规模并行关系数据库。其现在已经发展到14PB的规模,该系统建立在成千上万的节点上。
 
企业数据仓库为标准结构化查询提供了巨大的性能,史蒂芬森说,但其仍然无法满足易趣网存储和处理的灵活性的需要。”这些系统的造价是相当昂贵的,所以当易趣网每天添加50TB的数据,其成本是相当高昂的。”他说。
 
当涉及到用户的访问数据时,易趣网习惯于保持一个1%的样本,其余的直接销毁,史蒂芬森说。
 
记录用户访问行为的数据是有意义的,然后直接销毁扔掉所有不需要的信息,他说。但他补充说:“但我们提前不会知道我们要记录用户访问行为的哪些信息。我们问的约85%的分析问题都是新的或未知的。但我们要对数据进行结构分析,然后再销毁无用的数据,如果将所以的数据都存储起来,那每个月都将会有一亿小时的数据信息,分析也就无从下手了。
 
“有一种张力的均衡:无论是通过销毁掉不用的数据集,来建立巨大的网站分析数据结构,或是保存所有收集到的数据,但分析工作无从下手(因为其是难以控制的)。”
 
为了解决这个问题,易趣网开始其第二数据倡议。七年前,该公司开始了一个项目来存储所有的客户数据。“针对客户访问行为数据,我们希望我们相同价格的大数据解决方案的规模是企业数据仓库的100倍。”史蒂芬森说。
 
拍卖网站需要一个产品,其可以处理数以百计数据字节的原始客户访问数据,同时还能够让一个五人的团队轻松管理,保证分析人士能够很容易的访问。
 
该公司曾与Teradata合作开发了一款定制设备,内置了几百个用户定义的功能。系统建立在商品硬件上,利用专有软件来处理所有客户的访问数据,且存储成本便宜。
 
最终的结果是,他们建造了一个自定义的数据仓库,称为Singularity。
 
易趣网开发的该系统可以在32秒内运行即席查询。史蒂芬森说,彼时,Hadoop则需要30分钟的时间来运行该查询。“对于真正帮助了解你的客户等关键业务问题来说,Hadoop可能不是适合的。”他补充道。
 
利用企业数据仓库和Singularity的同时,易趣网也使用Hadoop,其帮助完成第三方数据分析。该拍卖网站建立了两个20000个节点的Hadoop集群,拥有80PB容量,史蒂芬森说。这些Hadoop集群与Teradata数据仓库及Singularity的自定义数据分析设备为易趣网提供了客户的访问数据分析的工具。
 
分析的真正价值
 
斯蒂芬森说,Singularity在易趣网站证明了'A / B测试'的价值,其可以与在超市收银台旁边尝试摆放不同组合的糖果来刺激客户的购买冲动相比较。这使得易趣网能够在网站上测试想法,并评估工作,比如测试网站访客是否喜欢在搜索结果中显示较大的图片。
 
该技术还可用于加强搜索提示,史蒂芬森将一概念称之为“一个盒子里的经济学家”。其使得易趣网基于用户搜索查询的主题来进行相关的提示。
 
这种搜索能够帮助易趣网的卖家确定设置一个低的底价是否是最好的,是否提供免费送货,以及任何其他有利于在易趣网促成销售的其他相关重要问题。
共2页: [1]2 下一页
责编:李玉琴
vsharing微信扫一扫实时了解行业动态
portalart微信扫一扫分享本文给好友

著作权声明:畅享网文章著作权分属畅享网、网友和合作伙伴,部分非原创文章作者信息可能有所缺失,如需补充或修改请与我们联系,工作人员会在1个工作日内配合处理。
畅享
首页
返回
顶部
×
    信息化规划
    IT总包
    供应商选型
    IT监理
    开发维护外包
    评估维权
客服电话
400-698-9918