今年暑假,众多的儿童机器人给孩子们带了全新AI绘本辅助阅读体验,“这个神奇的功能是怎么实现的呢?”在整个AI绘本辅助阅读功能中,图像识别算法是其中最为关键的技术之一。
早在去年这个时候,玩瞳VisionTalk的图像识别算法横空出世,经过一年的钻研和发展,到如今已经身经百战,赢得了众多客户的信任和良好口碑。
从绘本识别到书本识别——VisionTalk的图像识别算法
经过一年的打磨和成长,玩瞳的图像识别算法已在市场上处于领先地位,其特点可以概括为:识别精准,响应快速,容量超大,易于扩展,持续迭代。
今天我们就从更专业的角度来看看玩瞳VisionTalk的AI慧读平台中的图像识别算法。
1、识别精准
精准鲁棒的识别,支持不同的硬件结构和不同的使用场景。我们模拟用户在各种使用场景对各种主流绘本和K12书籍进行了充分的测试。这些场景包括办公室,客厅,彩色儿童房,台灯下,阳台,商场等。
对于玩瞳推荐的硬件结构,识别准确率达到了惊人的99.5%。对于一般性设备,如各式各样的手机和平板,识别准确率依然高达98%。
2、响应快速
0.2秒的超快速识别速度给用户一种秒翻识别的体验。为了在整个系统上达到如此快的响应速度,我们主要做了以下三点优化:
a、直接优化云端算法的识别速度,尤其是在大并发下的识别速度。当前玩瞳的客户众多,也给我们的识别服务带来了巨大的压力,但经过持续不断的算法速度优化,我们的响应速度依然稳定快速。
b、对待传输的图像进行了极致的压缩,减小网络传输的数据量。同时优化云端算法,使其能稳定识别压缩后较模糊的图像。
c、大力提高识别算法的鲁棒性,使其能稳定识别翻页过程中的遮挡图像,从而准确地预测出用户即将翻到的页面,最终达到翻书后即开始进行语音播放的效果。
3、容量超大
超大容量云端图库,当前已经支持约5万本绘本,未来很快将超过10万本。支持更多的绘本看似只需要制作更多的内容,实际上也需要准确快速的图像识别算法支撑。
当图像库变大后,一般来说识别准确率和速度都会受到影响。但从当前我们的模拟测试来看,10万本的数据量还远未触摸到识别算法的瓶颈。
4、易于扩展
玩瞳将整体考虑离线训练算法和在线识别算法的特点,设计合理的图像模型结构,不仅支持快速的图书训练和增量部署,而且在共享玩瞳公共绘本库的同时支持用户自定义私有绘本库。
图像识别算法的未来发展
现阶段,玩瞳的图像识别算法已经在市场上得到验证,在业界处于遥遥领先的地位,赢得了众多客户良好的口碑。在未来的N年里,玩瞳依然会持续不断的迭代优化我们的图像识别算法。
图像识别算法即将迎来下一个突破:显著提升以文字为主书籍的识别准确率。该突破带来的意义将是书籍教辅的准确快速识别。
针对以文字为主的这类书籍图像,由于不同硬件的光学成像、图像分辨率限制、以及算法原理本身等各方面的原因,导致了目前市场上翻读应用中几乎所有的图像识别算法失效。玩瞳自主研发的文字图像识别算法体系,对于最困难的这类图像的识别现已取得重大突破,已经将竞争对手远远的甩在身后。
玩瞳VisionTalk持续致力于AI视觉技术赋能儿童教育,将我们的解决方案应用在更丰富的交互模式上,满足客户更加个性化的需求,玩瞳的图像识别算法必将从优秀走向卓越。
深圳市玩瞳科技有限公司VisionTalk成立于2015年,是一家经深圳市政府认证的高新技术企业。公司专注于实体学习桌面的视觉图像分析,并应用于机器辅助的阅读、作业和学习。
公司目前拥有数十项各类专利,并拥有全球最大的儿童出版物图像训练库。公司新推出的“智能慧读平台”赋能产业链,低成本、高效率、个性化地帮助企业开发或升级阅读机器人。已经成功在故事机/机器人、儿童出版、儿童内容等行业得到应用。