4 b' @6 g$ b- B: P/ t* E
从SGI的首席科学家John R. Masey在1998年提出大数据概念,到大数据分析技术广泛应用于社会的各个领域,已经走过了17年的时间。现在再也没有企业怀疑大数据分析的力量,并且都在竞相利用大数据来增强自己企业的业务竞争力。但是,即使17年过去,大数据分析行业仍然处于快速发展的初期,每时每刻都在产生新的变化。2 N/ x( B. i- U- E
3 P! T; b A% e, n
- [) u8 v$ y: Q! {" g' \7 Y2 e
从概念到实用、从结构化数据分析到非结构化数据分析,大数据分析技术在不断地进化。虽然国内仍然在关注舆情分析,但是记者注意到,在美国,大数据分析的研究已经进入到了一个全新的阶段,“预测分析”技术成为最具有代表性的未来技术方向。 # r9 e" a4 o) V; _7 V; [/ l4 \ * I# Q9 n( s0 H' Y$ L 7 f$ e: }7 n: M5 J4 ^' ]7 ~那么,“预测分析”技术和传统的大数据分析有什么不同?记者就此采访了美国数据科学家、前北卡大学夏洛特分校助理敎授、夏洛特视觉中心主任以及非结构化数据智能分析平台Taste Analytics的CEO,Derek Wang(汪晓宇)博士。5 M- F, q8 S4 \, e4 o
! ~) i- J, a* r" D# y( m/ D: z8 @1 @$ i7 S& E' y
$ L/ b1 P4 N! h' e4 v2 }' G! ^
0 \4 z3 i) R n
大数据行业爆发,现在的技术不够用了7 x$ F8 r: K; n( w: F
+ L& Z: I& o3 w( ]+ W4 E/ ~
汪晓宇博士正好经历了整个大数据产业爆发的全过程。他和记者回忆说,在2010年的时候,来他们夏洛特视觉中心进行交流的还仅仅是大公司的数据硏究员,2011年已经变成了公司的主任,而到了2012年,来的几乎全是CIO和CTO们了。他们甚至还为企业开了一门数据分析的进修课程,讲座虽然只有两天,但注册学费几千美金,学员们全都是来自国内各大公司的资深高管。" t) ]0 l, l# j& ]' t6 h
+ X- Q) s8 p. }! ?" _
0 G4 W( O+ r5 d% z5 p. p从这可以看出,在这个数据时代,中美都在用尽一切办法实现数据上领先的概念和追求。而在这技术飞速发展的几年间,数据本身呈现出了不少新的特点,市场也相应地对大数据分析技术提出了新要求。7 I, Y. m5 y* a2 s3 U2 G
$ {8 x& _% w) k- P. U w
, O0 g _* L. V9 f& M( w首先,数据点越来越多,也越来越碎片化( ]) A5 `; ]% I! _9 ?; ^
8 [' M) x& U) i- o0 v6 w: J! b7 M
决定下一代大数据产业的新技术:“预测分析” + O; l8 u' O6 d. @- g3 j% L9 N) t
在这样的数据特点和市场要求下,中国和美国各大公司和科研中心都在大力投入,研发下一代数据分析技术。但是,在这方面,美国还是有着3-5年时间的领先。 # K4 Z- D' R# f6 V* _+ t5 e5 @( z7 P
2 r1 G- C( n" q/ D& W
根据汪晓宇博士的分析,国内在科研上的眼光很高,水平层次力度都在,但是商业化不行,研发出来转到应用上和美国有一定差距。中国大部分公司对于大数据分析的概念还停留在“舆情分析”的阶段,但是美国已经跨越“舆情分析”和“情感分析”,进入到了“预测分析”阶段。" g' Y* Y. r: S& q- \3 u& \
' y3 z9 N/ i2 I$ {5 D* M5 Z. f) ]9 T N5 E. R6 l4 [/ Z! U
由汪晓宇博士一手打造的Taste Analytics团队,就在进行“预测分析”技术的研发。它摆脱了传统的“舆情分析”和“情感分析”的框架,更进一步,把人们在社交网站和其他平台上产生的数据都收集起来,进行实时、全面地分析,帮助企业建立用户的立体形象,了解他们的品味和喜恶,从而提供预测性地判断。这听来似乎和传统的“推荐系统”、类Clickstream分析有些类似,但是实际上完全不同。 , \- A, t, Q* x4 x- N# _5 ~4 u8 n" ?8 i
4 M: x6 `$ k# L" q. f1 s# N. M
首先,传统的“推荐系统”会需要一个很长的建立过程,也就说,它需要很多强相关的、相似的历史数据,才有可能实现推荐功能。比如它只能根据你买电饭锅的行为,才能向你推荐其他厨具。( E9 d5 j6 c* D4 @' x" ^
2 W. \& v' }: h* S0 F
! f$ h" z. a. [7 ?# F但是企业怎么能在一开始就知道,顾客想要买电饭锅呢?这就是“预测分析”的强大之处。它不需要这样的历史数据,而是直接通过人们在社交网络上的留言和在各大平台上留下的信息,来进行预测。也就是说,当你在社交网络上留下类似“好想在家做饭”的状态,系统就有可能已经知道你想买厨具了。( ^, B; T. z8 Q" e
( X" d* b, N3 p; x3 J, U
" c7 ~; k% M/ \7 Q5 s2 k* P* F5 i汪晓宇博士举例说,“预测分析”技术发展成熟的话,就会非常接近美国科幻电影《少数派报告》里的情景——它会根据你在网络留下的痕迹,来理解你的性格、行为、情绪,来建立一个随时更新的、立体的形象。无论是HR、企业、客服、公共机构,都可以根据这些信息来提供真正的前瞻性、个性化的服务。' P. R4 y& Q9 b, P
. ^, }2 p% T: X7 |6 h1 [1 Z& d) t2 r0 j* s' u) B% z, w
其次,Clickstream无法解决冷启动的问题,而且很难精准到个人、到细节。Clickstream分析技术的实现,是通过不同的cookie,来追踪人们的点击,它无法解决的是冷启动过程中数据的缺乏。比如你第一次登陆优酷,没有任何观看记录,系统应该怎么进行推荐呢?而且,人们的误点击操作很有可能就被系统追踪下来,进行了错误的分析。 , n+ d* T# }( `* z - a5 j3 s: B8 b q2 {4 B: g) N/ ]1 D' `; _6 P" V4 j+ J
但是这对于“预测分析”技术就不是问题。通过对各大社交平台上的多重语义分析和叠加验证,一个人的具体形象已经建立起来:这个人比较保守,不喜欢暴力,最近正在谈恋爱……那么这时,向他推荐浪漫喜剧就会非常对味。 ' u8 ~$ b, l' c4 k! Y3 s 9 O% q4 r; _& B2 [. a9 W 1 w" f; e' V" Z% z% k: }% W$ h“我们在做的,就是在集合的范围上进行分析。”汪晓宇博士说,“以前的技术是告诉你们人们在‘说什么’,现在我们已经进化到人们在行动之前‘有什么感觉’。这个核心技术的突破,就能实现对于整个数据分析市场的革新变化。”7 y) N* k' y) y( ?7 u
+ B! A/ _6 H8 J
* {! Q5 j+ Q( K. z' o X再次,“预测分析”比起传统的大数据分析方法,可以更好地实现人机互动。尽管人工智能非常火热,但是汪晓宇博士仍然指出了这项技术的局限性:它的可控性很差,没有依靠人的能动力。在他看来,大数据分析应该更好地利用人机互动的机制,来发挥最大功用。9 r7 v! ]5 w0 F, g3 s5 s( M
$ ? y+ C# u9 @1 ? ]0 S4 A) N3 ]; B* M/ [" d+ e' j! L6 d, d
汪晓宇博士介绍说,以前的数据分析技术,机器只能做到一半,到后面的时候还需要人来负责数据输入。但是现在他们在研究的“预测分析”技术,可以把大范围的用户数据总结集成在一起,自动给出结果。人和机器的互动,将主要在于洞察内涵、提供反馈,让机器知道人的倾向。这就是新型的人机互动先进所在。: U5 V. A' ~( `% H7 ^5 H
; i3 e! d: p' F! y8 }$ o% e " x* d7 a; h+ s* A7 T, A5 x“比如说,某个产品本来定位年轻人,但是机器通过收集数据进行分析,发现它在中年人之间更受欢迎,那么人就可以来调整产品的市场定位,做出加大在中年人群体中加大宣传的决策。这就是非常典型的人机互动。” 汪晓宇博士说。+ E- H1 y. V1 v h8 F3 ]0 Y
( W- K6 P% f2 m8 g
& x1 K1 r0 A+ _$ N $ ]$ T1 q4 `8 |7 M) z4 q , g: i1 I5 `7 E6 J: S3 J中国为什么没有出现“预测分析”技术? T. J2 R, t4 P. } ( V/ d4 Z, `" J- }作为美国最前沿的大数据分析技术,“预测分析”仍然处在研发的早期阶段,各家公司都在发力,想要在这个方向上取得领先地位,技术挑战仍然非常大。( t& e5 y- U* [% w9 x0 l; r* l7 j2 f
( @0 x% M5 U5 x% w D* }) ?) ^ 0 M2 l& r& y; a$ F/ F' f8 W预测分析最大的难度在于精准度。汪晓宇博士说,精准度越高,系统就越能把人的性格全面呈现出来,而且会在不同时间地点下进行分析,做出一个高维的性格理解。要实现这个精准度,光是数据挖掘方面就会有很大挑战,而且在面向不同客户时,比如企业、HR、公共服务等,还要把影响他们的特征分别提取出来,这又把难度上升了一个层次。 g: Z/ ] I- a: J3 \& Y
7 m' U" X; m5 A) ]3 \/ c( q6 K) U
目前,汪晓宇博士已经在带领Taste Analytics团队在打造这样的“预测分析”系统,而且,他透露,目前他们向特定的几个企业提供了试用版本;而他们提供的非结构化数据分析服务,也就是“预测分析”的基础,已经被6家福布斯全球500强公司以及多家美国主流企业使用,并通过实践“实时分析”、“数据驱动”(Data-driven)、“人机互动”等最新的数据分析理念,为新的“预测分析”系统提供研究基础和进一步的反馈。# t6 d. ^- I$ Q