% P1 m; C/ a) ]从SGI的首席科学家John R. Masey在1998年提出大数据概念,到大数据分析技术广泛应用于社会的各个领域,已经走过了17年的时间。现在再也没有企业怀疑大数据分析的力量,并且都在竞相利用大数据来增强自己企业的业务竞争力。但是,即使17年过去,大数据分析行业仍然处于快速发展的初期,每时每刻都在产生新的变化。 ' i) F3 _& l8 ]: Y( c( y , Y3 q. v2 O) A* H- p3 _0 \ ( ~) m+ R) c; ^3 u) C1 S. D从概念到实用、从结构化数据分析到非结构化数据分析,大数据分析技术在不断地进化。虽然国内仍然在关注舆情分析,但是记者注意到,在美国,大数据分析的研究已经进入到了一个全新的阶段,“预测分析”技术成为最具有代表性的未来技术方向。- g/ e# {% S( D% J# i
7 w* \$ H( z1 k5 h
# H+ t. E# F# f
那么,“预测分析”技术和传统的大数据分析有什么不同?记者就此采访了美国数据科学家、前北卡大学夏洛特分校助理敎授、夏洛特视觉中心主任以及非结构化数据智能分析平台Taste Analytics的CEO,Derek Wang(汪晓宇)博士。 . S2 F# S9 |. t( n/ e# C' i0 Y V q( S: {
, l! ~7 _8 [* g3 ]5 Z) w& c0 x) K) z% r" R
, Y; a$ s6 U9 s1 f9 j8 E7 @8 \& j大数据行业爆发,现在的技术不够用了/ S; K' F* k9 D0 X: k
+ N9 }) X- i. m" r汪晓宇博士正好经历了整个大数据产业爆发的全过程。他和记者回忆说,在2010年的时候,来他们夏洛特视觉中心进行交流的还仅仅是大公司的数据硏究员,2011年已经变成了公司的主任,而到了2012年,来的几乎全是CIO和CTO们了。他们甚至还为企业开了一门数据分析的进修课程,讲座虽然只有两天,但注册学费几千美金,学员们全都是来自国内各大公司的资深高管。0 j1 v; Y, `9 g3 Z1 w
3 n9 \+ G; M/ ^6 S- s在汪晓宇博士看来,大数据时代就是人的时代,数据形态越来越丰富和多样。除去社交网站等传统数据点以外,新形态的数据点也已经出现,比如Airbnb和Uber这种O2O服务。如果再看远一点,随着可穿戴设备、物联网等先进设备和个人的信息结合起来,随时随地产生和收集数据更加成为可能。在这样的情况下,每个人随时随地的“情绪”和“状态”这些都会成为商家必须要重视的数据源。 @0 t: g2 L% U, l
- B" t* m, B* S- E2 q
与此相对应的,非结构化数据分析将越来越重要。而非结构化数据的模块化更加灵敏,不是传统的单一解决方案可以做到的。这导致人们在进行大数据分析时使用的工具将更加细化,利用垂直创新的工具进行非常纵深的研究将成为主流。 7 F/ c, `7 r U; m0 X( r9 a ' I2 d* v9 @. r6 c' b4 ^6 W% G" z+ Z
其次,大数据分析技术成为了决定社会服务效率的关键& {" B8 q5 v2 I) b3 ~8 f: g
1 E6 F5 Z, { [0 y5 r3 M
有报道指出,随着信息技术的发展,包括公共服务、物流等在内的人们衣食住行的服务会纷纷电子化,虚拟世界和物理世界的边界将进一步模糊。这个大的产业背景一旦形成,大数据分析能力就将成为整个产业服务最关键的竞争力。& ^8 m* i$ q6 I: i- j
6 |/ G& v7 ?" l& I4 w+ i
) ^; h1 o- k# c% M/ e1 d' ^; ~
这样就意味着,大数据分析工具应该越来越实用化。汪晓宇博士介绍说,在面对新的技术和工具时,美国企业高层都会迅速做出决断,考虑怎么把数据分析和现有业务进行快速整合。他举例说,在他们和美国一家大型银行合作时,对方的CIO就可以迅速做出反应,和他们探讨应该怎么把他们开发的创新型非结构化数据分析技术应用到自家银行某一个产品中去。( N" L5 |( Q. c
1 k+ {* w @, c9 `
! O" J4 \8 h* U6 z, W; x- L+ M) k$ p : d; M7 v8 J6 } {5 o% W- i5 l( ?- K7 o2 A( j \+ I* o
决定下一代大数据产业的新技术:“预测分析”& S$ g4 Q& h' X4 L
' I* e6 ] ~* r0 W0 F. {5 R在这样的数据特点和市场要求下,中国和美国各大公司和科研中心都在大力投入,研发下一代数据分析技术。但是,在这方面,美国还是有着3-5年时间的领先。 4 U% r( y! T( `4 v* W; ~/ t% P/ t
1 y% P" {; A7 h
根据汪晓宇博士的分析,国内在科研上的眼光很高,水平层次力度都在,但是商业化不行,研发出来转到应用上和美国有一定差距。中国大部分公司对于大数据分析的概念还停留在“舆情分析”的阶段,但是美国已经跨越“舆情分析”和“情感分析”,进入到了“预测分析”阶段。' ^( a; O7 u, ~* b. l
" L2 M6 `/ n& T1 \2 \; H, b: z) a. h
* H, V" K9 g- s由汪晓宇博士一手打造的Taste Analytics团队,就在进行“预测分析”技术的研发。它摆脱了传统的“舆情分析”和“情感分析”的框架,更进一步,把人们在社交网站和其他平台上产生的数据都收集起来,进行实时、全面地分析,帮助企业建立用户的立体形象,了解他们的品味和喜恶,从而提供预测性地判断。这听来似乎和传统的“推荐系统”、类Clickstream分析有些类似,但是实际上完全不同。 ( o7 r! e. W. T( N" u- w4 F ; q* g. ^. A/ B6 y2 Z' A. M I2 \1 u2 y. A& E, y4 b首先,传统的“推荐系统”会需要一个很长的建立过程,也就说,它需要很多强相关的、相似的历史数据,才有可能实现推荐功能。比如它只能根据你买电饭锅的行为,才能向你推荐其他厨具。; m: d* i7 A) d* y0 ]+ Y; s
+ g4 w3 m1 r. ?8 q4 v- V
" |9 X! ~4 R9 [, n U+ F9 o
但是企业怎么能在一开始就知道,顾客想要买电饭锅呢?这就是“预测分析”的强大之处。它不需要这样的历史数据,而是直接通过人们在社交网络上的留言和在各大平台上留下的信息,来进行预测。也就是说,当你在社交网络上留下类似“好想在家做饭”的状态,系统就有可能已经知道你想买厨具了。* B/ V7 V( p% q, A _- A- }
" j1 O/ C- W. P/ K
; ~4 ?. x g- x" ]4 p. K* _3 L$ l( e
汪晓宇博士举例说,“预测分析”技术发展成熟的话,就会非常接近美国科幻电影《少数派报告》里的情景——它会根据你在网络留下的痕迹,来理解你的性格、行为、情绪,来建立一个随时更新的、立体的形象。无论是HR、企业、客服、公共机构,都可以根据这些信息来提供真正的前瞻性、个性化的服务。 0 n& n0 h2 C0 C0 p5 L- A5 V0 Q# k; l( j9 Q, B, O N/ n4 {, W
_9 l) E' Q: B& k4 g2 R! x4 H
其次,Clickstream无法解决冷启动的问题,而且很难精准到个人、到细节。Clickstream分析技术的实现,是通过不同的cookie,来追踪人们的点击,它无法解决的是冷启动过程中数据的缺乏。比如你第一次登陆优酷,没有任何观看记录,系统应该怎么进行推荐呢?而且,人们的误点击操作很有可能就被系统追踪下来,进行了错误的分析。 9 @" _, P5 Z/ Y, B% } v3 u- f: d$ _9 b, \8 n. a) \
6 D! ~$ o' \4 J2 M& W但是这对于“预测分析”技术就不是问题。通过对各大社交平台上的多重语义分析和叠加验证,一个人的具体形象已经建立起来:这个人比较保守,不喜欢暴力,最近正在谈恋爱……那么这时,向他推荐浪漫喜剧就会非常对味。 ) V' {/ G. `0 L# E2 `2 l" c- \+ p
! x6 e, h4 L8 l" M“我们在做的,就是在集合的范围上进行分析。”汪晓宇博士说,“以前的技术是告诉你们人们在‘说什么’,现在我们已经进化到人们在行动之前‘有什么感觉’。这个核心技术的突破,就能实现对于整个数据分析市场的革新变化。”7 u7 h5 j+ m# e
" P& @4 N2 C! O" w; z
' t- I3 {" j0 I1 q9 i Y; N5 M再次,“预测分析”比起传统的大数据分析方法,可以更好地实现人机互动。尽管人工智能非常火热,但是汪晓宇博士仍然指出了这项技术的局限性:它的可控性很差,没有依靠人的能动力。在他看来,大数据分析应该更好地利用人机互动的机制,来发挥最大功用。1 t" G& |7 [4 ]1 L2 M
' ~: _& `) j0 N5 k1 p
7 L$ {9 V* y( X
汪晓宇博士介绍说,以前的数据分析技术,机器只能做到一半,到后面的时候还需要人来负责数据输入。但是现在他们在研究的“预测分析”技术,可以把大范围的用户数据总结集成在一起,自动给出结果。人和机器的互动,将主要在于洞察内涵、提供反馈,让机器知道人的倾向。这就是新型的人机互动先进所在。 5 b: K+ f9 V8 q% Z7 {3 d# |" i. \# m( k3 J
" w- a* a3 M7 \1 @“比如说,某个产品本来定位年轻人,但是机器通过收集数据进行分析,发现它在中年人之间更受欢迎,那么人就可以来调整产品的市场定位,做出加大在中年人群体中加大宣传的决策。这就是非常典型的人机互动。” 汪晓宇博士说。" k$ {; \4 d/ j4 w( G2 P
0 [: K6 A. H: ? l