原文作者:任梦岩 原文来源:科技富能量
它和你印象中的所有搜索引擎都大不相同。
比如用它搜索词条「易烊千玺」时,会得到这样的结果。
首先,它会提供几个对易烊千玺的关键描述,如「TFBOYS 的成员」、「00 后国民偶像代表」等。紧接着,它列出了关于词条主人的几乎全部的重要属性,包括由他出生年月、参演的影视作品、发表的音乐专辑等。
更有趣的是,magi.com 还答出了易烊千玺的几个近义项,比如他的昵称、代称和他所养的宠物等等。
百度最大的弊端就是,虽然内容全,但会有很多广告和诈骗内容。著名的“魏则西案”不说,就连百度头条都能搜索到“假快递”让人匪夷所思。 为了确保搜索结果的准确性,在Magi搜索到的答案,每一条都会用以绿、黄、红三种颜色表示其可信度从高到低;在答案的右侧则会提供几条链接,用鼠标划过它们即可看到,答案是从哪个/哪几个具体的来源学习到的: 最主要的是,Magi的结果里,答案在正下方,链接跑到了右边,跟主流搜索引擎的用户界面完全是反的。
这就是 Magi 和百度最大的区别:链接对于它不是结果,答案才是。
其实 Magi 并不是传统意义上的搜索引擎,而是一个基于机器学习的知识引擎,它通过检索网络的自然语言文本,将其中的知识提炼出来,形成结构化数据。也就是说,Magi代替的,不是百度,而是百度百科(所有人都能编辑,不靠谱内容很多。)
比如:搜索自己的名字,都是一些有的没的,百科还没有,我自己能瞎编:
但是Magi,给出了现成的例子,来源更加广泛,至少确认,我是记者:
Magi 想要解决的问题是:从开放领域的纯文本当中提取知识,并让其可解析、检索和溯源。
Magi 来自中国团队 Peak Labs,创始人季逸超在开发者圈子内也小有名气。
Peak Labs 并没有计划将 Magi 和 Google、百度之类的主流搜索引擎相提并论。把 Magi 做成一个「搜索引擎」,主要是为了让公众有机会能够体验它背后的技术,感受它能够提供的价值。
即便如此,看起来很像搜索引擎的 magi.com,实力还是不容小觑。事实上,为了这个示范性质的产品,Peak Labs 并没有选择小聪明的方式,从其他搜索引擎抓取结果,而是从零开发了一套互联网搜索引擎。
根据用户输入问题、关键词和表达式的不同,Magi可以用不同的方式来呈现答案——具体的呈现方式也展现了 Magi 系统的能力。
比如,输入「打车软件公司」,Magi 系统可以把它知道的所有手机叫车公司,以「集合」的方式列在答案里。
而在百度上,得到的结果如下。可以看到百度的知识图谱也提供了类似的结果,只是看起来有四、五年没有更新过了(还有快车呢!): 再比如,如果输入「八角 大料」,Magi 系统会发现这两个关键词其实是同一个东西,它就会以「断言」的形式给出答案。 八角和大料是「近义项」,是「又称」、「也称」的关系。
Magi系统可以 24 小时不间断地进行学习。它的时效性也还算不错,Peak Labs宣称实时新闻当中的知识,Magi只需要5分钟就可以掌握,而且还可以采纳新的信息源进行交叉验证,实现自动纠错。
如果你在 Magi的首页停留一会,就能看到它当前正在学习的链接: 除了自主开发的全网规模搜索引擎以外,Peak Labs 还开发了基于注意力机制的神经信息提取系统,不依赖无界面浏览器的分布式抓取系统(爬虫程序 MagiBot),以及支持混合处理 170 多种语言的自然语言管道。
这四者结合在一起,才是 Magi 系统的全貌。 说不定某一天,你打开浏览器的第一件事儿,就变成了上Magi? 编辑:吴悠
|