百度董事长兼 CEO 李彦宏如是说。单纯的文字搜索时代已经渐行渐远了,如今的搜索引擎,可以直接搜索语音和图片,这也催生了他们在电子商务中的应用,比如依图搜索商品。
图片搜索引擎中,我们较为熟悉的有 Google,上传图片或输入 URL 地址,Google 就会按图索骥,给你图片来源、相似图片等搜索结果。这一切,都基于 Google 复杂的图像识别算法,对图像“指纹扫描”,包括像素、颜色,亮度,从而进行图片的特征提取,继而找出相似结果。
而 Google 又要在这个领域更进一步了。据《纽约时报》报道,Google 和斯坦福大学的科学家团队研发了新一代的图片识别技术:给图片做文字描述。识别的范围也不仅仅是图片,也包括视频画面。
目前的图片识别技术只识别出图像中的单个物体,而这项新技术识别的是整幅画面,并进行标记,用自然语言(英语)进行描述。比如,“草原上的大象”、“玩飞盘的年轻人”这样的字句。图片被如此“翻译”过后,就能够更容易、更准确的分类,在被搜索时能提供更精确的结果。
用“文字搜索”协助“图片搜索”的好处显而易见:这项技术也可以帮助视障人士,或者应用在公共监控的安全系统上——监控摄像头所捕捉到的不仅是“面部”和单个个体,它可以识别整个画面,包括其中的运动、行为,自动报警。
也就是说,它为机器的认知和自我学习提供了新的技术基础。研究人员的灵感来自人类大脑的神经元网络,这个网络让大脑可以自我“训练”,看到新事物时可以发现记忆中相似的事物。Google 要做的就是这样的一个大脑,可以认知、可以理解图片的内容。
认知是人类所具备的一种重要的能力,我们的大脑能够通过认知,也就是综合大量信息,来确定一个人的身份,一个物品的种类,这是人类智力的基础。计算机如果能做到这一点并不容易,Google X 曾动用了 1000 台电脑,一共 16000 颗处理器,创造一个多达 10 亿个连接的神经网络,在 1000 万张略缩图中,找到包含“可爱小猫”的图片。
当然,这项技术最主要的障碍在于识别的准确性,一些图像识别专家并不看好它,认为它只是复制了人类的视觉能力,反而在理解图像时更模棱两可。
尽管如此,让计算机识别“真相”需要计算机科学开创新的图形搜索技术。“我认为图片和视频中的像素数据是互联网的暗物质(Dark matter),我们希望照亮它。”项目的领队、斯坦福大学人工智能实验室的李飞飞(Fei-Fei Li)说。