她决定用类似的方式教计算机看东西。
“我不只专注于取得越来越完善的算法,而是想保质保量地往算法中注入小孩能从生活经验中获取的信息,以此作为训练数据。”
早在2007年,李女士和一位同事就将从互联网随机获取的数百万张不同图像进行了分类和标记,并将其作为真实世界的实例,用来训练计算机。其中的原理是,如果机器对某种东西的图片看得足够多,比如猫,那么在现实生活中就能识别出来。
他们通过亚马逊(Amazon)土耳其机器人(Mechanical Turk)之类的众包平台召集了来自167个国家的5万名工人,让他们帮忙给数百万张猫、飞机和人的随机图像贴标签。
最终,他们创建了ImageNet数据库,容纳有按日常英语单词划分的 2.2万类物体,总计15万张图片。
目前,这个数据库已成为非常宝贵的资源,世界各地试图让计算机具有视觉的科学家们都能使用。
斯坦福大学每年都会举行一个比赛,邀请谷歌、微软、中国科技巨头百度之类的IT企业使用ImageNet,并测试他们的系统运行情况。过去几年中,系统的图像识别功能大大提高,出错率仅为约5%。
为了教计算机识别图像,李女士和她的团队用学习和行为能力高度接近人脑的人造脑细胞组装了一些计算机程序,并称之为神经网络。
神经网络用于解读图片,包括一些分层排列的人工神经元,神经无数量从几十到几百、几千,甚至上百万不等。
每层神经元负责识别图像的不同成分,有的识别像素,有的识别颜色差异,还有的识别形状,等等。
到顶层时——如今的神经网络可以容纳多达30层——计算机就能对图像识别出个大概了。
斯坦福大学计算机标记的一些图片
斯坦福大学的读图机(image-reading machine)目前已能从众多图像中提取目标,非常准确地附上文字说明(见上面的示例),但它偶尔也会犯错,比如一个婴儿拿着牙刷的照片就被错标为“一个小男孩拿着一根棒球棍”。