社会化大数据的企业应用实践

2015/1/4 9:43:51【作者】张欣

视频及PPT的下载地址:请点击这里下载>>

大家好,非常感谢畅享IT组织的这次网络分享活动,我是用友的张欣,今天我跟大家分享的主题是:社会化大数据的企业应用实践,先看一下我今天要讲的几部分内容,第一部分是:中国社会的互联网浪潮与互联网的社会化浪潮,这句话说起来有点饶口,稍后我会举一些统计数字来看一下中国互联网是怎样不断变化和发展。第二点是:社会化浪潮为企业带来了哪些挑战和机遇,主要会给大家讲讲社会化浪潮给我们带来哪些变化,给企业带来哪些挑战?这些变化又会催生了哪些机遇产生?最后一点我会讲一下企业在面对社会化浪潮中衍生出来的大量数据是可以做些什么?以及用友在应对这些挑战的时候做了哪些思考和创新?

大家可以看到这张图,这张图是我前几天在网上看到的一家咨询公司叫BCG的报告里面的一张图,现在这张图已经被汉化过了,这张图主要讲的是中国互联网经济在GDP中所占的比例。现在这张图是2016年BCG针对中国互联网经济在GDP所占比例的一个预测。大家可以看到这个排名是根据比例做排序的,中国排在第三位,比例是6.9%,也就是说中国互联网经济占总体GDP的6.9%,就是它的贡献率,它的实际的GDP有多少呢,在左侧,12.4万亿美元,按照比例来说它是排在第三位,按照总数来说排在欧盟、美国之下,其实按照整体贡献率来说它也是排在第三位的,下面还有一个G-20的一个总体GDP对互联网经济的贡献是79.9万亿,这是G-20也就是20国集团整体的互联网经济的一个数量。还有一个数据是2010年互联网经济对GDP的贡献是5.9万亿,占当年GDP的5.5%,排名也是在第三位,大家可以看这张图最右侧一列有一个CAGR,Compound Annual Growth Rate复合年均增长率也就是说是一个增长的比例,大家可以看到中国是增长了17.4%。

这张是互联网经济和传统行业的比较,从2010-2016年中国的互联网经济增长的情况,这张和上一张是有关联的,最右侧可以看到互联网经济5.5%仅次于传统的制造业、农牧渔、批发零售、采矿和建筑这几个传统行业,相当于是第五个支柱的产业。互联网经济在中国的重要性可想而知。

根据中国互联网络信息中心最新发布的中国互联网最新发展情况统计报告,截至2014年6月,我国的网民规模达到6.32亿,最近半年新增的网民1442万人,互联网的普及率达到46.9%比2013年提升了1.1个百分点,大家可以看到这张图上显示从2010年6月到2014年6月中国互联网网民的一个增长的趋势,是在持续增长,中国的网民数现在已达到世界第一位,远远的超过了美国的互联网网民数。

这张图可以看到中国手机网民规模以及手机网民占整体网民的一个比例情况,在所有的上网用户当中,我国手机网民规模达到5.27亿,比2013年底增加了2699万人,可以看到增加的规模是非常庞大的,使用手机上网的人群占比进一步提升,由2013年81.0%提升至83.4%,手机网民规模首次超越了传统PC的网民规模。


 

看一下中国网民平时使用网络时间大概是多少,2014年的上半年中国网民人均上网时间达到25.9个小时,大家可以算一下,大部分时间可能都用来上网,相比13年的下半年增加了0.9个小时,网络带宽、WIFF覆盖率的提高、3G网络的成熟还有4G网络的启用给网民提供了更加优质的上网环境,移动互联网应用丰富性的提升,也多方的满足了用户上网的需求,推动了我国网民的平均上网时间的持续的增加。

中国社会逐步在互联网化,中国的互联网业也在逐步的社会化,中国互联网的社会化浪潮随着互联网的发展是逐步推进的,像最初我们在互联网上只能看到一些,网易、搜狐等等传统网站资讯的信息,比如说新闻,后来逐渐出现了社区,也就是传统的论坛,后来出现了SNS的网站,比如说早期的社交网站如人人网、开心网,这些网站曾经在覆盖人数、使用时长都位居互联网应用的前列。但是最近两年在内、外因的影响下,面临非常大的冲击,这些网站总体的注册量是非常庞大的,但是持续的用户每天登陆的数量已经大大的下降,到现在微博已经出现至少有5年的历史了,微博已经成为人们重要的信息来源之一,同时也是社会重要信息的传播渠道,像政府、企业、公众人物都会用微博进行营销或者闹舆论,之前我们看到有很多大v,当然不管他们传播的内容如何,他们的社会影响力是显而易见的,他们的粉丝数量是非常惊人的,甚至可以达到千万级别,随着其他的一些社交应用的发展,微博成功把自己发展转型成社会化媒体,它能充分发挥社交媒体的优势,到2014年社交类的应用继续非常强势的发展,通过这些社交应用来了解好友的动向、分享各类的信息,购物,完成各种支付,成为很多人重要的生活方式。像我们之前很难想象通过手机能直接呼叫出租车,然后出租车把我们拉到目的地的时候,可以直接用手机支付费用,这在以前都是很难想象的事情。

互联网已经深入的影响了中国人的方方面面,而中国社会也在逐步的进行互联网化、社会化,大家可以看一下现在这张图,显示的是全世界社会化的一个趋势,不光是中国,中国是在图的正下方,在左侧黄色的区域里面,有南非、印度、俄罗斯、墨西哥等可以说是传统的第三世界国家,在右侧是发展的比较早的,比如说美国、德国、英国、加拿大、法国等就是经济发展相对来说比较早、比较成功的一些国家,它们的互联网渗透率靠右侧的百分比更高,靠左侧互联网渗透率相对低一些,然后再纵轴可以看到是互联网用户中的社交网的渗透率,很多国家是有一个过度的,像传统的这些经济强国,它们是互联网先普及,然后逐步的做社会化的过度。相当于社会在互联网的领域当中逐步渗透,逐步软化,中国也是处于中间地带,也是在互联网化之后逐步向社会化发展。像一些新兴世界的国家,像印度。

大家可以看到这张图,是我从CIC的报告里面截取出来的,这张图非常清楚的表明了我们现在社会上使用的各种应用,各个领域都是被社会化的应用所包围,最核心的一圈有Google Reader、Yelp、Linked in、You Tube、Blogger、Flickr等等,在国外大家使用的非常频繁的一些社会化的应用,也就是说这些是最初出现的社会化应用的形态,之后包围它的事目前国内领域使用的各种应用,涉及到社交游戏、社交网络、商务社交网络、社会化商务、电子商务、签到/位置服务、微博、即时通讯、RSS订阅、消费点评、百科、问答、社会化书签、音乐/图片分享、博客/博客聚合、视频分享、论坛/论坛聚合等各个方面,可以说我们在互联网上使用的各种应用几乎都被包括在其中,每一个领域都有被大家经常使用或者说耳熟能详的应用或者企业在做这方面的工作。


互联网的社会化浪潮带给我们前所未有的生活上的便利,也产生了非常庞大的数据,大家可以看到这张图就是在QQ旁边是QQ-zone,这是中国互联网上60s之内发生了什么事,在60s内QQ-zone有13.9万张照片被上传,qq靠会员增值服务每60s就有8.5万元收入,进入QQ的口袋,淘宝每60s有14.8万独立访客,在淘宝上选择自己喜欢的商品,有资料显示在1998年全球网民平均每月使用的流量是1兆仅仅,2000年是10兆,2003年是100兆,08年是1G,到14年平均每月的使用流量达到10G,现在中国的网民居世界之首,每天产生的数据量也是位于世界前列,现在淘宝每天有超过数千笔的交易,每天产生的数据量超过了50个TB,1TB=1024G,这个数据量是非常庞大的,存储量达到了40PB,像百度目前的数据总量超过了1000个PB,存储网页的数量接近了1万亿,大概每天要处理60亿次的搜索请求,几十个PB的数据,这是互联网行业,互联网行业大家经常在使用,可能觉得产生了这么多数据已经习惯,但是在传统行业里面也会产生大量数据,比如说在城市交通方面,现在马路上有很多的监控摄像头,1个8兆比特每秒的摄像头,1小时能产生3.6GB的数据,一个城市如果安装了10几万或几十万个摄像头,那每月产生的数据量将会达到几十个PB,这些数据的存储、数据的处理,都会是一个巨大的问题,这也是互联网在社会化浪潮当中产生的数据带给我们挑战的地方,它带给我们方便,当然也带来了很多很多的挑战,比如说数据如何存储,这些数据如何处理?如何通过分析这些数据拿到你想要的东西来去帮助你做新的决策,帮助你改善现有的一些流程,现有的一些问题。

社会化浪潮为企业带来了哪些挑战和机遇?现在看一些社会化浪潮对媒体趋势的影响,社会化媒体随着社会化浪潮的发展在逐步的成为一种新兴的传播方式,像之前我们只能从电视、报纸等等这些传统的媒体来获取信息,随着社会化媒体的发展,任何人都可以是一个媒体,比如说在微博上、微信上你可以去传播自己想要的、想传播的一些内容,比如说你自己有更鲜明的观点或者说自己有对某些问题有独特的看法,想分享给大家,会有很方便的分享的渠道,随着社会化媒体的发展,传统媒体的整体成本在逐步上升,像报纸它的发行成本、人力成本、材质成本、发行渠道的成本在逐步上升,但是社会化媒体更多的依赖于网络,它的发行成本几乎是可以忽略不计的,另外就是信息的传播速度,随着互联网的发展,在逐渐加速,现在成为一种趋势是新媒体带动传统媒体传播信息,很多电视台、报社它们的新闻来源,以前是要派记者去新闻采访,如果发生了一件突发事件,要在发生之后、了解之后派记者到现场采访当时的情况,但是在互联网时代每个人都可以是媒体,如果是在身边发生的故事,它可以在当时用手机记录下来,拍张照片发到网上整个传播过程就结束了,之后可以看到这篇文章或图片在网上,通过各种媒体在继续传播,很多的传统媒体现在也在依赖于微博、微信来增加它的信息来源,所以就会发现新媒体在带动各种媒体来传播各种消息,相当于新媒体变成了一个引导。我们来看一下消费行为的变化,之前我看过一个资料就是专门做消费者行为学研究的一个报告,就提到目前社会化浪潮对消费行为带来的变化是,消费行为从AIDMA模式转化成AISAS模式,AIDMA是由美国广告学家刘易斯在1898年提出的一个理论,它是很成熟的一个理论模型之一,这个理论认为消费者接触到这个信息到最后达成购买有5个阶段,分别是A(Attention)引起注意;I (Interest)产生兴趣;D(Desire)培养欲望;M(Memory)形成记忆;A(Action)促成行动。后面的这个AISAS是由电通公司针对互联网与无线应用时代消费者生活形态的变化,而提出的一种全新的消费者行为分析模型。它同样分为5个阶段A(Attention )注意;I (Interest )兴趣;S ( Search )搜索;A (Action) 行动;S ( Share )分享,分享的消费者也会变成产品的营销者,所以看到微博上有各种各样的在去分享买东西的愉快体验也好或者是出于某种经济利益的目的去给某个产品打广告也好,看到在互联网上有很多的类似的这种行为。

说完了消费模式的变化现在看下社会竞争的变化,市场竞争在传统的情况下,传统的消费模式一般基于线下,是面对面的这种消费模式,这决定了市场竞争具有很强的地域性,比如说我是一个商家,我销售的产品是一个城市或者一个地区,甚至大一点说可以是某几个省或者华北地区,或者大半个地区都有我的产品,我想普及到更远的地方我的成品会随着范围的增加而大量增加,随着电子商务的兴起,移动互联网的逐步普及市场竞争的地域性在逐步的消失,用户可以随时购买异地的产品,甚至直接购买国外的产品,像前一段时间亚马逊就推出海外产品的直购,比如说我在北京可以买到美国的商品,过两天它就递过来了,对于企业来说,就由极强地域性市场的竞争转变成全球化的市场竞争,在美国我可能竞争对手就是北京的某个企业,现在就变成可能是在美国某个城市的某个企业,相当于其他所有同行业同领域都有可能变成我的潜在竞争对手,所以这就企业来说在市场竞争方面是一个非常大的挑战。

现在来看一下社会化浪潮当中,刚才提到了哪天产生有大量数据,社会化浪潮当中积累的这些数据给企业带来了哪些挑战呢?也就是说我们说的大数据给企业带来了哪些挑战?我总结了一下大概有六点,首先业务部门没有清晰的大数据需求,很多业务部门不了解大数据,也不了解大数据的应用场景和价值,所以它很难提出大数据准确的需求,不知道拿这些东西要做什么,由于业务部门需求不清晰,大数据的部门它清楚这些东西产生什么价值,但是对于很多企业来说,即便有了大数据部门,也是一个非营利部门,相当于它是在支撑业务决策或者说支撑某些数据的事后分析,所以决策层非常担心投入比较多的成本导致我的投入没有相应的产出,所以导致很多企业在搭建大数据部门的时候是犹豫不决的。第二点是企业内部的数据孤岛非常严重,企业在启动大数据之前一定要清楚的认识到自己的数据是怎样分布的,各种数据现有的情况是怎么样?企业面对大数据最重要的一个挑战是碎片化,在很多企业中,尤其是大企业数据常常是散落在部门当中的,而且这些数据存储在不同的仓库里,不同的数据它的存储器有可能也不一样,就导致企业的内部自己的数据都没有打通,如果不打通这些数据,那么数据的价值就非常难以挖掘,相当于各种数据都是独立的、各自分散的,像有些事需要分析的时候需要多维度的数据整体的一个参考,如果只是单个维度,可能这些数据的意义就不是特别明显了。第三点事数据的可用性低,数据质量差,很多大中型企业每时每刻都在产生大量的数据,但是很多企业在大数据的预处理阶段很不重视,导致处理的很不规范,大数据的预处理阶段需要把初始数据转化成方便处理的类型,就相当于非结构化数据产生了之后怎么变成结构化数据,也就是说,易于分析、易于使用的,这其实也是一个非常大的挑战,要对这些数据做清洗,去除不好的数据,提取有效数据。第四点是数据相关管理技术和架构,技术架构包含几个方面,第一个是传统的数据库部署,很难处理1个TB以上的数据,比如说传统的数据库在处理几百个G的时候,可能就已经接近它的处理极限了,小量数据非常快、准确,但达到它的处理瓶颈的时候,大部分情况下,单台节点处理数据库是非常有限的,也就是说超过一定量的时候超过自身的能力,一是受到自身的软件技术的限制;二是受到硬件处理能力的限制,所以达到一定数量级的时候会比较缓慢。第二点是很多企业采用传统的数据库技术,在设计的时候没有考虑到数据的多样性,尤其是对结构化、非结构化数据的兼容;第三点是传统企业对数据处理的时间要求的不高,不像很多网站即时响应,要给用户非常好的体验,传统企业对分析数据的实时性并不是那么强,往往1天甚至2天才能统计出来,因为数据量很多,处理能力不强,导致传统的数据库要花很久的时间。大数据处理现在是分2类,1类是P处理,应对这种传统的大量数据的定时处理,比如说每天2点运行,6点能看到结果,但是有很多数据是实时的,比如说分钟级或秒级的计算,传统数据库缺乏这种实时处理的能力;第四点事海量的数据需要很好的网络架构,有非常强大的数据中心来支持,光是机器好,运行的分布式软件足够好,数据中心网络不足以承载大量数据的交换,这也会对整个的处理效率造成很大影响。第五点是数据安全,很多个人信息被传播出去,如何保证这些信息的安全,成为大数据时代的难题。我昨天还是前天还在12306的网站上出现了大量用户的手机号、身份证号甚至连明文的密码都泄露出来了,当然12306网站辟谣说数据来源不是它们,是一些第三方购票的软件,它们记录了信息发布出来,但是这让我们也非常不安全,数据安全是关乎到我们每个人切身利益的一件事。最后一件事就是大数据人才的缺乏,大数据建设是一项非常复杂的工程,每个环节都需要专业的人员来完成,所以要造就一支有大数据经验、懂管理的团队。根据预测全球会新增400.和大数据相关的岗位,而且会有25%的组织,会设立首席数据官的职位,大数据的相关职位是复合型人才,需要对数学、统计、数据分析、处理、自然语言学习等多方面知识综合掌握,但这只是分析整个大数据平台的搭建、运行管理又需要计算机底层的知识,比如说系统管理的知识,大数据分布式计算框架的知识、整个运维的知识,怎样能保证大数据的平台能平稳的运行,保证24小时能提供服务,这都是企业在招聘人才的时候面对非常大的挑战。


现在看一下大数据究竟能给企业带来哪些机遇?机遇是非常多的,我就简单的举了几个例子,大数据通过分析可以给企业创造新的价值,也就是说有可能推动你原有业务的增长,但是也有可能给企业带来新的业务模式,第二点是各种模式的云计算服务问世,是可以大大的降低企业的运营成本。之前传统的是需要建机房,小一点的公司是需要托管都不同的机房里面,然后由机房提供一些基础的运维服务,成本是非常高的,云计算服务的问世,比如说亚马逊的EC2、阿里云的ECS,云计算的服务大大减少了硬件设施的投入,我们可以非常容易的部署、扩展我们的集群,这个成本是非常低的。另外一个是数据挖掘,是近两年非常火的词,当然它在传统行业里应用了很长时间,但是在互联网领域随着大数据的兴起,数据挖掘也被越来越多的企业所熟悉,数据挖掘可以做很多很多事,比如说预测、归类等各种算法做分析相关的事,比如说大娘水饺,它们是用数据挖掘的方式做统计分析每个门店哪种饺子的品种销售量高来决定每个门店的供货量。比如说某种产品的利用率非常高,如果我提高了这个产品的供货量,那我的利润率也会整体提高,我的成本保持不变,利润就会整体提高。根据每个门店的消费量、供货量、满意度等等各种维度的指标,分析数据对企业的经营做出决策。

企业具体怎么用大数据分成几块内容,数据收集、数据存储、数据处理、结果可视化。数据收集说的具体点就是对来自网络包括物联网和信息系统之类的数据要打上标签,去伪存真,尽可能收集不同来源,或者说不同结构的数据,必要的时候可以根据历史数据作比较、对照。数据存储是要达到低成本、低能耗、高可靠性的目标,需要做到容易配置、分布式,利用云计算的技术,像Hadoop里面的HDFS就是一个分布式数据存储的系统,把数据切分成块,放到不同的机器上,提供数据的冗余,保证数据的安全性和访问型。数据处理呢,有些行业涉及到上百个参数,这些数据的复杂性不仅体现在数据样本的本身,更体现在它的不同来源,不同结构,它们之间还会有交互,不同的复杂的关联,有些数据是很难用传统的方法去描述度量的,处理的复杂程度也非常大。比如说需要将高危图像、多媒体数据降维之后做度量的处理,利用上、下文关联做语义分析,从大量的动态或模棱两可的数据中导出可以理解的数据,大量的数据目前来看人类是没有办法处理的,就是只能依靠计算机通过多部分析,转化为可理解的、可阅读的数据。最后的结果可视化是让结果更直观,便于洞察,尽管计算机智能有很大的进步,但是还只能针对小规模或有半结构化或者非结构化数据作分析,还谈不上深层次的数据挖掘,现有的数据挖掘在不同的行业当中想通用是很难的,比如说我在传统制造业用到的某些分析方法拿到互联网行业有可能就不能用,它的行业特征非常强。

企业到底应该怎么做大数据的规划?其中有几点,第一是建立数据化的计划,成为大数据企业的第一步,实现大数据的录用存储,企业首先要考虑的是要保存哪种类型的数据,各个公司因为业务模式的不一样,涉及的数据也不一样,是更加关注产品还是企业运营,还人力资源的数据,这些问题需要在建立数据计划的最初就要做好思考和规划,第二点是建立数据管理和应用的平台,企业做大数据需要2个方面的基础,一个是在IT基础设施上要建立数据良好的处理结构,比如说数据的分布式存储,另一方面企业要建立自己的数据应用的平台包括数据的采集,数据库的架构,分析的模块,这些数据通过分析之后要怎么通过接口被其他的数据系统调用,做数据分享,因为我们分析完了的数据有可能给上层展现,有可能我其他的业务系统要使用分析完的这些数据,那这些数据接口要怎么建立,怎么跟其他的系统互通,这也是非常重要的一个问题。第三是要量体裁衣,建立自己的数据团队,对于传统的通信或银行业它们自己会建立数据挖掘的团队,不论是在成本控制上还是在业务响应上都相对有利,因为是自己的队伍,想做什么响应度很快的。但是对于中小型企业来说,自建团队成本非常高,因为大数据部门不是一个盈利的部门,很多企业都会考虑大数据部门的投入、产出比例,很有可能投入的过大,因为大数据部门是要持续投入的才会有潜移默化的改变,有可能还不是显而易见的改变,所以说企业在投入的时候也是一个问题。第四点是定制好外部数据的战略,有哪些数据影响企业的发展,比如说竞争品牌的销售策略,这些都要做提前搜寻、积累,建立外部数据的计划,企业可以通过公共渠道和数据交换的方法来做,相当于不光是收集企业内部的数据,也了解企业外部的数据是在怎样的,比如说我的竞争对手、行业发展趋势,有哪些地方是可以根据竞争对手、行业发展的变化做调整。

现在讲一下咱们的第三个大方面,企业面对大数据能够做些什么?我罗列了一些可以做的东西,当然还是远远不够,在智能网站方面可以做标签,相当于我收集的信息对用户做一个多个维度的描绘,这个人是怎样的,哪些东西适合,比如说在客服领域,用户打电话过来说用了我的什么产品,他遇到了什么问题,我已经帮助解决了什么问题,仓储、物流领域比如说我企业有自己的物流系统,有自己的仓储,可以根据销售量预测来决定我的存货情况,比如说某种销量好,那我可以多屯货这样可以保送达的时间是非常及时的,在搜索领域可以辨别用户的使用习惯,然后对用户的行为做分析,比如说在媒体、新闻类的网站上,会做推荐系统,相当于我根据你经常看某类新闻的一个习惯,去分析,对用户做分类,这样契合度更高,你也会看我推荐的内容,在广告领域就是分析用户的行为做精准投放,风控是可以识别恶意用户,舆情监测可以做热点跟踪、舆情预警等等,数据开发平台我觉得是大数据下一步开发的阶段,就是数据共享,就是有很多人有数据但是不懂如何分析,不知道这些数据对它能产生多大的价值,通过数据分享的平台可以让有技术能力的人来帮你做分析或者数据交换,EDM是可以广告投放,邮件的推广、精准营销,比如说我给哪些人推送哪些类型的邮件,因为传统的就是我有一个邮件列表,发送给所有人,其实可以根据不同情况筛选哪些人要投放哪一类的邮件,这都是可以通过大数据来做分析。企业究竟怎么样来挖掘大数据的价值呢?中间这个红色部分是大数据处理平台,UDH是用友自己的一个大数据平台,根据各种不同的数据源,比如说日志、文件、消息、文本等等的数据源,通过大数据处理平台,做批量处理,实时分析,上承接企业的运用,营销分析、运营分析、历史数据管理、集成开发环境、第三方系统集成等,作为一个数据存储分析的大数据处理平台,在整个流程里面是居于最核心的地位,分析的数据可以上承接不同的应用做进一步的分析和使用。这是大数据平台的一个架构图,大家可以看到这种大数据集群的管理器应该有什么东西,左侧可以看到企业管理器有针对大数据管理平台根据组建不同的安装配置,服务管理的启动、停止,配置更新等,测试,系统装完后是否可用,第三十运行监控,因为这种大数据平台涉及到多个机器,多种服务,这些机器的配置不同,服务不同,怎么保证每个机器服务都是好的,就要运行监控系统,相当于我时刻了解服务是否正常,是否出现某种资源的短缺,安全审计是你要时刻了解在整个平台里面发生了哪些事情,有哪些操作是不合规的,我在正常的业务管理上就要做规避,或者说要提前预警,最后一个是预警日志,比如说当某个系统濒临崩溃、硬盘满了或CPU已经超过了80%,这种情况说明这台机器的处理能力已经达到一个极限,要么我就给机器升级,要么我就是在这个集群里加新的机器,这种机制是非常有效的,能保证你的机器正常运行,遇到警报之后,可以根据情况扩容你的系统,右侧是Hadoop组件,大家可以看到最下面是HDFS,是一个分布式的存储系统,可以存储海量的结构化和非结构化数据,上面是YARA分布式的资源管理,MapReduce基础数据处理、HIVE统计分析,在它的左侧是HBASE海量数据的随机存取,Zookeeper分布式协调服务,最右侧是Oozie工作流程度,它可以自己定义整个工作流,最上一行有3个,Impala MPP数据架构引擎、Hue交互式工作平台、Pig数据处理工具,最右侧是数据集成,上层可以接第三方的管理系统、借口集成还有应用系统,比如说BI、数据管理系统、处理还有读取的服务。

大数据平台应该有的功能是什么呢?首先大数据平台功能之系统监控,可以看到图上有多个维度,比如说HDFS磁盘使用情况、DataNodas活动中、内存使用情况等等各种维度的数据,我作为一个企业管理者都需要了解的数据有哪些变化,我根据这些变化可以看到机器是否正常运行,有可能遇到什么问题;大数据平台功能之服务管理,一方面是管理机器,因为它是一个分布式的结构,多个节点之上的大数据平台,比如说我某台机器不想要了或需要扩容,需要把这个机器从传统的集群里面摘掉,然后坐升级、维护,升级完了之后再把它加进来,这个是在大数据平台上至少要有的,另外呢,是要管理大数据平台上的服务,这些服务也是有一定的管理操作的,现在我们看到的这个界面就是对服务的管理,可以看到服务启动了多长时间,内存使用的情况包括服务的预警;大数据平台功能之节点管理,管理机器上的组建、启动、停止重启、进入维护模式,有了大数据平台直接点击一下就都帮我做了;大数据平台功能之数据分析,比如说要查询某张表,查询里面的数据做简单的分析,直接输入搜索语句,大大的提高了工作效率和难度,有可能操作的人就不会编程或者说只会简单的操作。

企业互联网时代舆情信息的应用价值,刚才说了好多应用的不同的领域,我们现在开发了用友的舆情系统,其实用友跟其他企业一样也面临了大数据的很多问题,比如说我想了解我的竞争对手、行业有哪些信息发生,我们本身没有这种类似的系统,只能买第三方服务,一个月的成本是很高的,几万块,一年下来很高,我们就再想有了自己的大数据平台,因为做大数据平台目的,是怎么样运用,我们就在自己的管理平台之上,做用友自己的舆情管理系统,可以把各种维度的舆情信息,进行监控、收集竞争对手的情报,行业的发展趋势等数据作为自己的报告或者在网站上作为内容的展示,它的应用价值可以规避企业的风险,比如说国家的政策出台不允许做哪些事情或者行业发展趋势你的发展方向正好处在一个风口浪尖,或者说你的发展方向跟市场趋势是偏离的,那你可以很及时的了解,规避风险,可以侦察竞争对手、了解用户动态、认识自己在行业的地位、帮助你创造价值,综上所述,这些方面是可以给企业带来利益提升。


大数据支撑下的舆情信息管理系统,这是一个简单的架构图,下面是大数据处理的平台有PC处理的服务,上层是接了分析系统,可以做热点分析、查询服务、搜索引擎、自能过滤,要把它用在实际应用当中,每日舆情报告、对手实时监测、当前热点追踪、负面舆情监测,通过多个维度可以把对手发生的事情,哪些是最近发生的热点,是怎样变化的、有哪些负面消息是有必要及时关注的。现在我们这个系统已经替换了购买的第三方服务,每天会给各种部门的负责人发送相关的报告,了解第一手资料。

这张图是介绍了舆情信息管理系统的处理流程,图的左下角可以看到数据采集的来源,资讯网站,它有一个非常庞大的列表,有微博、论坛、博客、淘宝、京东等数据作采集,做网页内容抓取,比如说标题、链接、发布时间、内容做提取、不要的内容过滤,存储并放到大数据平台里面。我标红的HBase是我们目前主要使用的一个组件,相当于基于这个大数据平台把所有的内容放到HBase里面,上层的分析,比如说我在搜索引擎里可以对这些数据作索引,定义索引的结构在里面提取文字,做中文的分词,去掉停止词创建索引,做一些数据的预测,这些数据反馈出来之后,我们有报告模版,通过这些内容对模版进行填充,发送给我们的用户,当然目前的用户是我们集团的一些高管。

这个是我们的每日信息概览的一个报告,相当于我把所有的信息做了一个汇总,汇总之后分门别类,比如说大数据这个门类有无数个关键词,把相关的信息提取出来,进行排序,可以看到最新信息的动态,这个是我截取的一部门,报告还是比较长的。大家看到的这个图有一个网站是用友的开发者社区,我们在这个社区里面嵌入了一块叫技术情报一个频道是自动生成的,跟刚才那个报告时有点异曲同工,但是展示出来的信息是用友自己的动态。这些可以作为我们网站内容的补充。

今天讲的就大概这么多,谢谢大家!

【打印】
查看完整文章 | 频道首页 | 网站首页