第158章 我们究竟在谈些什么-《学霸终结者》


    第(2/3)页

    其实就是一次问答。

    比如一个网民,在百度上搜“权宝儿”三个字,然后弹出几百万个搜索结果。

    第一个搜的人,得到结果列表后,点击了“权宝儿”的百度百科词条。

    第二个搜的人,点击了一条她参加的综艺节目视频。

    第三个搜的人,点击了一条关于她的娱乐新闻。

    第四个、第五个、第六个,又点了百度百科词条。

    假设,因为百度的用户容量够大,有10万人次搜了“权宝儿”这三个字,然后百度根据反馈统计:其中43%的人搜索后,点击了百科词条,22%的人,点了某娱乐新闻,17%的人……

    这时候,如果把百度搜索的云端大数据,接为‘初秘’或者siri的服务器端,初秘就会知道:当下一次她的手机主人说出“权宝儿”这三个字的时候,优先把这个词的百度百科词条内容推送给主人——当然,是用语音阅读的方式。

    这是最简单的问答型人工智能,靠统计数据,来让机器的回答,更贴近代表所有网民中最大众的那一群人的意见。

    这个过程中,机器并不理解“权宝儿”这三字代表了什么,它只是在算法上统计了“所有曾经搜过这个词的人,在搜索后点击查看了哪条答案”,然后把看过人最多的那条答案,推送给最新问这个问题的人。

    这样的大数据,只有搜索引擎服务的提供商,才拥有。或者说,只有那类公司的数据,样本容量才足够巨大,足够客观,足够撇掉误差。

    在中国,只有百度和谷歌有这个资本。

    而且,百度和谷歌除了搜索大数据的历史记录足够庞大、完爆其他搜索服务提供商之外,他们还有一个独门之秘,在2009年只有他们两家形成了规模。

    那就是“百度知道”,以及比百度知道逊色一些的“谷歌问答”。

    “知道”,是一个比搜索更加贴近人类语言习惯的问答产品。在搜索的时候,人只会打几个关键词,很少会直接长篇大论写一句话,写一个用人类正常语法表述的问题。

    而用百度知道的时候,因为背后是人类在回答,所以大家都遵循了人类语言的语法。

    一个新买手机的用户,和初秘或者siri聊天的时候,问到的问题,真的是绝无仅有、从来没有前人问过的么?

    恐怕不尽然。

    十几亿人心中的困惑,有相当大一部分是重合的。同一个问题,可能全国有几百万人想问。

    有了百度知道的云端大数据之后,初秘或者siri再听到手机主人的语音发问时,就可以先搜一搜这个云端数据,看看有没有近似的或者重复的前人提问。

    如果有,直接把前人提问中的“被采纳答案”推送过来、语音阅读一遍就行了。

    在“知道”这个产品上,谷歌其实走得比百度慢。谷歌的强项,是“谷歌学术”那种专业标准化的问答,而缺少家长里短的日常人工智能锻炼。

    在人工智能领域,如果非要对比谷歌和百度的优劣势,只能说:谷歌可以训练出更精密的机器,但是不如百度那样容易给机器学会‘七情六欲’。

    因为早年的谷歌,压根就没想到去锻炼其人工智能的这个方面。

    当然,说句良心话,百度也没想到。

    “百度知道”日后教会了“度秘”比siri更能插科打诨,也只是百度发展时一招无心插柳的歪打正着。

    ……
    第(2/3)页