第158章我们究竟在谈些什么

推荐阅读：

宝石小说网 www.bsskz.com，最快更新学霸终结者最新章节！

    顾莫杰本该下班了，但是严磊的报告，成功引起了顾莫杰的注意，他决定加夜班。

    让叶敏茹去楼下云咖啡拿了两个套餐，然后他在办公室里请严磊边吃边谈他的想法。

    “说说吧，你对‘谷歌中国五年来在华搜集的搜索数据’的用法细节，是怎么看的。”

    严磊依然保持着四年前认识顾莫杰时的学者气，不怎么讲究礼貌，就大咧咧坐在顾莫杰对面，一边用便当，一边闲聊。

    “你不都已经把‘初秘’那个项目交给我做了么，寒假就要和IPHONE4的SIRI掰腕子了，难道就不想让‘初秘’的水平在这个节骨眼上，再上升一个台阶？”

    严磊口中提到的这个‘初秘’项目，是顾莫杰从去年初心1代手机上线后，就丢给初音的人工智能研究团队研发的项目。

    他对后世智能手机行业发展那一点仅存的记忆，到2012年底为止。那段历史上，苹果公司的手机在IPHONE5这个型号上戛然而止。

    苹果公司会做出SIRI这个人工智能语音助手，顾莫杰是知道的。

    那些买了IPHONE4S以上苹果手机或者IPAD3以上平板的用户，可以通过SIRI，对机器发送语音聊天。机器会试图模拟真人对话，并且给出使用者想搜索的内容、答案、软件APP应用，或者帮助用户拨打电话、寻找联系人等等。

    顾莫杰要弄的‘初秘’，就是一个狙击SIRI的存在。

    IPHONE4明年二季度就要上市了，初心2代手机会比IPHONE4更早一两个月。

    ‘初秘’的开发，本来已经到了箭在弦上的冲刺阶段。

    初音集团在人工智能方面的步伐，并不比苹果公司慢。哪怕没有别的新招，顾莫杰手下的人也能按期完成初秘。

    但是此刻，严磊让顾莫杰看到了一股更高的期待。

    他眉毛一挑，身子微微前倾。

    “你是说，给你弄到谷歌中国过去五年在华搜集的搜索数据，就可以帮助你提升初秘的人工智能程度？”

    严磊细嚼慢咽地吞下一片肥牛，喝了口饮料：

    “当然。问题问答型的人工智能，本来就是要靠不断训练、不断积累云端大数据，才会回答地得越来越准、越来越接近真人思维模式。搜索、点击，本身不就是深度学习算法架构下，问答智能的最初渊薮么？”

    深度学习算法，本该是杰夫辛顿教授提出的学说。

    本时空，这个机会被顾莫杰分润了。

    要说所有互联网大佬当中，对深度学习算法和云端架构的人工智能认识程度，恐怕顾莫杰能排世界第一。

    只是在所有当老板的人里面，见识排世界第一。不包括和砖家们比。

    也就是说，在对人工智能的远见卓识上。哪怕拉里佩奇、扎克伯格、乔布斯，这3个大佬的见识，也比不上顾莫杰。

    严磊的话，点拨到这种程度，已经足够顾莫杰秒懂。

    这个思路很不错！

    用百度，或者谷歌，搜索网页。

    这个搜索动作的本质，是什么？

    其实就是一次问答。

    比如一个网民，在百度上搜“权宝儿”三个字，然后弹出几百万个搜索结果。

    第一个搜的人，得到结果列表后，点击了“权宝儿”的百度百科词条。

    第二个搜的人，点击了一条她参加的综艺节目视频。

    第三个搜的人，点击了一条关于她的娱乐新闻。

    第四个、第五个、第六个，又点了百度百科词条。

    假设，因为百度的用户容量够大，有10万人次搜了“权宝儿”这三个字，然后百度根据反馈统计：其中43%的人搜索后，点击了百科词条，22%的人，点了某娱乐新闻，17%的人……

    这时候，如果把百度搜索的云端大数据，接为‘初秘’或者SIRI的服务器端，初秘就会知道：当下一次她的手机主人说出“权宝儿”这三个字的时候，优先把这个词的百度百科词条内容推送给主人——当然，是用语音阅读的方式。

    这是最简单的问答型人工智能，靠统计数据，来让机器的回答，更贴近代表所有网民中最大众的那一群人的意见。

    这个过程中，机器并不理解“权宝儿”这三字代表了什么，它只是在算法上统计了“所有曾经搜过这个词的人，在搜索后点击查看了哪条答案”，然后把看过人最多的那条答案，推送给最新问这个问题的人。

    这样的大数据，只有搜索引擎服务的提供商，才拥有。或者说，只有那类公司的数据，样本容量才足够巨大，足够客观，足够撇掉误差。

    在中国，只有百度和谷歌有这个资本。

    而且，百度和谷歌除了搜索大数据的历史记录足够庞大、完爆其他搜索服务提供商之外，他们还有一个独门之秘，在2009年只有他们两家形成了规模。

    那就是“百度知道”，以及比百度知道逊色一些的“谷歌问答”。

    “知道”，是一个比搜索更加贴近人类语言习惯的问答产品。在搜索的时候，人只会打几个关键词，很少会直接长篇大论写一句话，写一个用人类正常语法表述的问题。

    而用百度知道的时候，因为背后是人类在回答，所以大家都遵循了人类语言的语法。

    一个新买手机的用户，和初秘或者SIRI聊天的时候，问到的问题，真的是绝无仅有、从来没有前人问过的么？

    恐怕不尽然。

    十几亿人心中的困惑，有相当大一部分是重合的。同一个问题，可能全国有几百万人想问。

    有了百度知道的云端大数据之后，初秘或者SIRI再听到手机主人的语音发问时，就可以先搜一搜这个云端数据，看看有没有近似的或者重复的前人提问。

    如果有，直接把前人提问中的“被采纳答案”推送过来、语音阅读一遍就行了。

    在“知道”这个产品上，谷歌其实走得比百度慢。谷歌的强项，是“谷歌学术”那种专业标准化的问答，而缺少家长里短的日常人工智能锻炼。

    在人工智能领域，如果非要对比谷歌和百度的优劣势，只能说：谷歌可以训练出更精密的机器，但是不如百度那样容易给机器学会‘七情六欲’。

    因为早年的谷歌，压根就没想到去锻炼其人工智能的这个方面。

    当然，说句良心话，百度也没想到。

    “百度知道”日后教会了“度秘”比SIRI更能插科打诨，也只是百度发展时一招无心插柳的歪打正着。

    ……

    正因为顾莫杰懂行，因为他自己就懂深度学习算法，所以，他比别人更能领会严磊开出的条件诱惑力。

    初音集团，在搜索上是弱项。

    但是初音集团，在人工智能的算法领域，是强项。

    一个企业人工智能产品的强弱，受制于两个因素。

    一个是算法的好坏，一个是大数据的规模。

    比如，谷歌的算法效率假设是10%，而谷歌的日搜索处理量是10亿条，所以谷歌的人工智能每天理论消化的问答是1亿条。

    如果初音的算法效率更好，有20%，但初音每天的搜索处理量只有1亿条，那么初音人工智能每天理论消化的问答只有2000万，比谷歌弱了五倍。

    有好算法，有好的“数据消化效率”，却没有足够的“数据饲料”去喂养这副“消化功能”极强的“胃口”。

    这一直是初音人工智能研究院的缺憾，短板。

    但是，如果按照严磊的说法，把谷歌中国过去五年，在中国市场上搜集到的服务器端历史记录数据统统COPY过来，“填鸭式”地塞给“初秘”去学习，那么初秘在“真正听懂中国人讲话”这个问题上，起码可以赢得相当于额外获得两三年时间锻炼的效果。

    历史上SIRI公司成立于2007年，10年被苹果收购后，在4S上放出了这个人工智能产品。

    但是用过IPHONE4S的用户，恐怕都有一种记忆：

    刚开始，4S上的SIRI智能程度真的很低，几乎听不懂什么话。还是只能和旧时代的“语音拨号助手”那样，帮主人翻翻通讯录、拨打一下电话为主。

    至于让SIRI真的近似于人一样和主人聊天，似乎是2012~2013年的事情了，那时候的SIRI才渐渐说话像人话。

    那就是因为，SIRI花了两三年时间来“学习”、来积累和消化云端大数据，渐渐统计出人类语言习惯。

    如果谷歌中国不倒下，谷歌在华的那多年数据记录，肯定是作为商业秘密不会公开的。因为那涉及到其对中国人上网习惯的统计。如果公开了，很有可能被对手拿去，作为优化对手引擎算法的参照物。

    但是，如果谷歌中国倒下了，这些数据再遮遮掩掩藏着，似乎就没什么意义了。

    只要顾莫杰出一笔看上去挺诚意的价码，谷歌总部相信就会把这笔数据财富卖给初音。

    顾莫杰意淫着美好前景，简直要兽血沸腾。

    恨不得现在就在老朋友拉利佩奇脊梁骨上捅一刀，然后把谷歌中国的数据资源巧取豪夺走。

    “磊哥，来，好好说说你数据到手之后的详细使用计划。我都有点迫不及待了……”

    “当然没问题，就是如此如此，这般这般……”

    严磊一副指点江山状，对顾莫杰讲解了一个钟头的技术路线梗概。

    “只要做到了这些，然后，我们的初秘肯定可以在‘人话识别率’上领先SIRI至少两年。”(未完待续。)

第158章 我们究竟在谈些什么

第158章我们究竟在谈些什么