文章来源:中国科技新闻
机器新闻写作是人工智能技术在新闻传播领域一个现象级的发展。
2014年3月,美国加州地区发生地震,《洛杉矶时报》通过Quakebot这一地震新闻生成系统,在三分钟内就率先发布了地震相关报道。在这条新闻中,人类要做的是对机器人所写内容的审查和把关,前期完全由机器人自动化选择数据进行处理完成。技术的进步带来了新闻生产的变革,“技术为王”的口号也越来越响亮。
2015年9月,腾讯财经发表的一篇题为《8月CPI同比上涨2.0%创12个月新高》的消息就由自动新闻写作软件Dreamwriter完成,在一分钟内将重要信息进行解读并送达客户。
2015年11月,新华社宣布“快笔小新”投入使用,这台机器可以快速完成体育财经类的新闻自动写作。
……
“在技术和内容的结合下,传统新闻生产模式势必会受到冲击。”这是许多人对机器人写作时代到来的担忧。实际上,“工作需要融入想象力和创造力的不容易被智能写作淘汰。人如果能够定义出自己做的事情的时候是不容易被淘汰的,并不是像危言耸听的那样(会造成大面积失业)。在我看来,那些工作重复不变的,就容易被淘汰。”近日,智搜联合创始人、首席科学家郑海涛博士在接受《华云网》专访时表示。
郑海涛认为:“像一些财经、体育类,重新复述事件的记者,机器在经过不断学习后也能够做到,他们就容易被淘汰。”
据介绍,智捜作为第一家在智能写作领域成功商业化落地的公司,去年营收已过千万。目前智捜正在进行B轮融资,完成后公司估值将达到5亿元左右。
以下为专访实录:
内容生产再变革
华云网:智能写作的核心技术之一是智能语义。那么,我们如何理解“智能语义”技术?
郑海涛: 智能语义技术是智能写作的核心技术,定义为机器如何理解文本和生成文本的能力,即自然语言理解和自然语言生成技术。自然语言理解技术,比如我们说的一句话,机器能够识别出这句话中什么人发生了什么事情;自然语言生成技术就像给他一段话或者几个关键词,他能够基于对一段话或者几个关键词的理解重新写出自己的文字。
华云网:在具体应用中,智能语义的精准度如何?
郑海涛: 对自然语言理解技术的评估,评估过程一般是给机器一段文字,让机器去做阅读理解,然后去问他一些比较间接的问题,看是否能够理解语义。写作机器人只有理解了人写的文本,才能模仿人去重新写作。智搜的精准度中文最高可以达到92.67%,普遍高于同行10% ,英文领域的精准度也逼近90%。在中文领域我们是公认的领先于同行( 同行不仅仅是谷歌、BAT、科大讯飞等科技公司,还有高校的研究等),其他同行的精准度普遍在百分之七十多,因为不同的垂直领域,考虑到不同的文本,智搜精准度普遍高5--10%。
华云网:据了解,智搜在写作方面有智媒、智书和智讯三大解决方案,这三个方案都各具什么特点?
郑海涛:我们公司现在主要是面向市场化的商业落地,跟一些高校的研究不一样,我们不仅仅是智能语义的研发,还要进行商业化的落地。而商业化落地三要素是产品、数据来源、技术,智媒、智书和智讯是我们面向商业化的三大场景推出的三大解决方案。
智媒:面向于传媒领域,像传统报业、自媒体,他们比较偏向于新闻资讯类的写作,对于写作的选题、决策,热点的抓取,写作发布后的跟踪特别重视。需求是你要给他们提供素材、抓取选题,辅助写作决策。
智书:面向内容营销行业,基于素材加上很多联想类的原创写作,比如我们现在主要做的汽车内容营销,给定一个车型,每个人可能会从不同的侧重点去写,比如汽车的外观、颜色、发动机、整体性能等,汽车领域的营销内容题材、风格和新闻媒体领域是完全不同的。
智讯:主要面向B端技术团队,为他们赋能,他们可以将智搜的技术整合到自己的产品中,使他们可以开发自己的定制化产品,我们提供api,给到各个合作伙伴接口服务。
华云网:与微软、腾讯等企业相比,智搜的核心优势体现在哪些地方?
郑海涛:腾讯也好、微软也好,他们主要从事的不仅仅是智能写作,还有很多其他方面的工作,我们公司虽然还比较小,但我们的投入度远高于他们。
1、和B端写作产品的落地,我们是和b端深度融合,经过多年摸索我们充分知道他们的需要; 2、对于BAT来说,他们受限于产出投入比,不会去和B端深入合作; 3、数据,素材的积累,精准到每段话甚至每一句话的标签数据我们是经过很多年沉淀下来的,就算是BAT再有人力、物力也不是一下子能够积累起来的; 4、就是机器模型、机器学习的技术。经过我们的不断打磨,可以让机器能够写出一篇逻辑连贯比较通畅的文章,而且这种写作文章不是基于模板的,而是机器学习后读懂了文本内容后重新生成的,目前我们还没有看到有同类技术出现,大部分都是基于模板化的写作。在技术领域方面,我们自动化的生成一篇2000字的文章、或者生成概要、进行机器查重、个性化的改写以及最后发布,经过多年打磨我们已经形成了多个技术专利 及相应的软件著作权。
华云网:我可以理解为腾讯微软他们提供的是标准化产品,智捜提供的是定制化的产品吗?
郑海涛:不完全是,很多企业需求是可以做成标准化的。但大企业不愿意放下身段去和小企业深度合作,对他们来说是一个成本问题,他们要算投入产出比的,对于我们来说,是使命,我们前期大量的投入,到现在才把企业的需求做成一个标准化的产品。
人机合作是王道
华云网:机器如何判定一个消息的新闻价值?
郑海涛:这是一个写作决策的问题,是如何决定选题保证所做选题是新的好的真实的。我们是通过每天对热点新闻、大量报道、权威媒体、重点人物、点击率等多个维度进行统计,经过大数据计算分析,给到编辑多个结果备选,编辑可以根据需要去做决策,而不是说只给一个。 华云网:也就是说,机器人的工作就是搜集素材、把类似素材归结,交给编辑去审核、编辑、写作?
郑海涛:我们是相当于做一个写作助手工作,帮你把所有素材集结,热点挖掘,提供给你做决策,你做出决策后还可以帮你智能写作,写成初稿,你再加上自己的一些想象力、自己的观点类的一些东西,这样就把人机协同做起来了,人主要提供想象力和创意类的,机器负责素材的搜集整理,让人更方便分析。就像一个编辑助理,而且还可以不断学习编辑的写作习惯和新闻报道的习惯,经过不断学习,我们可以更知道编辑的偏好风格,在智能写作时会加入一些编辑的惯用词语。
华云网:传统媒体要想和智捜合作,需要具备哪些条件(生产条件、相关配套)?
郑海涛:我觉得和我们合作的一个先决条件就是要敞开心态。
硬件条件之外最核心的就是认知,因为最难的是人机配合度的问题,人对AI的接受度不一样,有的会比较惧怕AI,会担心使用这个产品带来的不是提高生产力而是带来更繁重的劳动,这是一个过程。如果不敞开心态接受AI,就会产生抵触情绪。
生产条件方面,就需要拥抱云服务,对于服务过程来说,你有云最好,如果没有,我们也会提供给您云服务。因为对于一些远程数据的使用,云端数据的上传让机器去学习。
云计算的时代已经到来,但对于有些企业的先决条件和生产条件,要把很多东西放到云端还需要一个过程。
机器是在不断的学习,是可以越做越好的。在这个过程,人需要不断的对数据进行使用、打标签。比如我们的账号,要登陆以后才能使用。不登录就希望机器永远懂我,这个是对机器产生了过高的期望,机器是做不到的。
华云网: 与普通记者编辑相比,智能写作的成本优势在哪儿?
郑海涛: 说成本优势的话,要看具体的应用环节,因为成本包含生产成本和运营成本。就媒体行业而言,有专门生产内容的记者,有负责运营的编辑,据我们客观的统计分析,可以提高2-3倍的生产效率,高的可以提高3-4倍。记者行业的痛点不是说完全为了省钱,而是要在固定的预算或成本不变的情况下,把生产效率提高上去。目前我们主要是通过提高效率来降低生产成本。在运营方面,可以运用AI技术做个性化推荐,做可控化推荐,做各种数据分析,让编辑朋友更高效地观察读者的习惯、哪些内容更容易得到读者的认可,在这方面可以帮他们提升2-3倍的效率。我们是把决策权交给编辑的,著作权还是记者/编辑的。
华云网: 你认为智能写作时代,传统媒体的哪类记者编辑最可能率先被淘汰?
郑海涛:人如果能够定义出自己做的事情的时候是不容易被淘汰的,并不是像危言耸听的那样(会造成大面积失业)。在我看来,那些工作重复不变的,就容易被淘汰。工作需要融入想象力和创造力的不容易被智能写作淘汰。像一些财经、体育、重新复述事件的记者,机器在经过不断学习后也能够做到,他们就容易被淘汰;但如果加入了自己的想象、创造性的点评分析、或者体育记者对某个球员现状的了解、对未来状态的更新等进行更深入的思考分析,机器还是做不到的,还是需要人才能做到。
我们现在就已经有机器人辅助人工对体育赛事的报道,赛事一结束,马上就可以自动生成新闻报道,速度比人不知道要快多少倍。但机器主要还是描述客观事实,对于一些需要想象力的、需要深入思考的只有人才能做到了。
华云网:如何保障用户的数据安全?
郑海涛:在技术层面,我们对标的是阿里,他们需要做什么安全测试我们也一样要做;另外我们也会和您签一个安全协议,对客户资料、数据和隐私我们是要绝对保密的,我们的技术也完全能够做到的。为了打消客户的安全顾虑,我们很多情况下也做成混合云模式,有需要外部数据就用我们这边的SaaS服务,如果不需要或者顾虑太多,我们就不提供到客户那边。
比如,我们会用区块链技术等一些加密技术。我们也在不断地进化,不断地用技术进步打消客户的顾虑。
华云网:与传统媒体合作,有几种合作模式,具体如何合作?
郑海涛: 1、标准化云服务模式,需要什么样的内容热点写作也好、 远程的联想式写作也好,支付年费后就可以直接拿来用,不用担心后期的维护问题。 2、定制化加标准化,即混合云模式。这种的客户有顾虑,很多数据需要留存在本地,部分的定制化数据功能处理,部分数据放我们这端,统一的客户端还是由我们开发。 3、接口服务模式,B端客户他们有自己的技术服务团队,由他们开发产品,我们只提供相应的技术接口,供他们采购,采购完就可以把我们的技术融合到他们的开发产品中。
或引爆千亿商机
华云网: 公司目前的人员结构如何?在技术团队实力上,有哪些特点?
郑海涛:目前,智叟研发人员占到大约60%,研发人员包括算法人才,比如像我;工程人才:把算法工程化,开发产品;架构人才:云服务需要大量的计算,云服务维护。
智搜从一开始就是以清华为班底的,集结了全球知名高校如香港大学、北京大学、国防科技大学等以及大型研发机构如国家863人工智能研究小组等的博士与研究生等优秀人才。
我们专注钻研这个领域很多年,在中文领域的积累是国内领先的。在算法领域一个高端算法人才可以顶很多人的,虽然我们公司还比较小但在算法领域我们也是比较领先的。
华云网:智捜团队取得过哪些成绩?
郑海涛:公司目前累计发明专利申请12项,软件著作权数19个。获得19th高交会“最具投资潜力奖”和“优秀产品奖”(天机智讯APP);获得2017年度CEO峰会暨猎云网创投颁奖盛典“最佳人工智能创业公司奖”等。但我们更关注我们的商业化落地。
华云网 :据了解,智搜创立伊始就获得天使轮投资,并在2015年8月获得了金沙江创投500万美元pre-A轮投资。现在公司市场估值是多少?下一轮融资准备在什么时候进行?
郑海涛:我们的技术是国内领先的,人才储备也是领先的,是第一家在智能写作领域能够成功商业化落地并且营收的(去年已经收入过千万),在人工智能企业中还是比较少的。这些都能说明我们公司是有实力的,目前我们正在进行B轮融资,完成后公司估值将达到5亿元左右。
华云网:下一步,公司的发展方向是?
郑海涛: 我们从事智能写作行业这么久之后,踩了很多的坑,然后找到我们的定位。 第一,把B端的写作需求,包括内容营销和传媒行业需要的人机协同的一些功能先满足,这是我们第一步要做的,通过第一步就可以做到盈亏平衡; 第二、因为我们要做的是智能写作平台,现在我们只是卖系统,未来将更进一步,要打通产业链上下游。(写作是需求方,素材的供给方,包括个人、企业、像图片提供方)。形成内容上的交易,解决版权问题,辅助客户生长,让客户的内容生产更高效,同时让客户的内容产生更多附加值,这样我们也可以从中收取一定的手续费。未来这至少是一个千亿级市场。
华云网:目前,公司的需求及面临的困难有哪些?
郑海涛:当前面对的最大困难是B端企业的认可度,因为有的记者、编辑会担心引入机器后对自己的生产造成影响从而产生抵触情绪。我们需要和更多的B端企业合作,让更多的编辑记者认可我们的产品,同时我们也能够积累更多数据素材,让我们的机器更聪明。
再有就是对数据的采集,在AI行业里对数据的依赖度很高的,只有把数据不断地积累起来,我们的壁垒层才会越来越高,这样未来就算巨头们投入巨资也是改变不了的,最多是把我们收购。
华云网:除了安全,客户的抵触心理还体现在哪些方面?
郑海涛:安全是一点,另一点用户写作的时候会担心内容侵权问题。我们是通过查重技术帮他们说明这个内容在别的平台是否有相似,如果有限制客户可以做决策删掉;还有就是通过技术对文章内容改写,基于同样的语义使用不同文字;如果涉及版权图片的引用,可以通过购买使用;
最核心的是刚开始写出的初稿难以达到用户的满意,很多人一开始就期望机器能够写出她想要的稿件,这是不太现实的。因为人的知识是在脑海里,机器是不知道的,这个过程中人需要抱着开放的心态,需要不断去修改,这是一个打标签的过程。这个过程会让机器学习得越来越聪明。
来源:吴悠
|