百度开源人工智能代码 机器训练提速百倍

   日期:2016-01-19     来源:OFweek 机器人网    
核心提示:百度硅谷AI实验室(SVAIL)近日宣布,百度已开源关键人工智能(AI)软件Warp-CTC,并公开了关键代码。百度硅谷实验室已向GitHub上传了Warp-CTCC代码库,鼓励开发者试用这些代码。百度表示,代码将开放给所有从业者,包括但不限于创业者。百度此次开源人工智能软件代码,让全球知识共享又迈出了一大步,知识共享领域将激发出更多创新,开发者能获取更丰富的技术学习途径,促进开发者进行技术开发,对全球人工智能行业发展有着极其重要的现实意义。

百度硅谷AI实验室(SVAIL)近日宣布,百度已开源关键人工智能(AI)软件Warp-CTC,并公开了关键代码。百度硅谷实验室已向GitHub上传了Warp-CTCC代码库,鼓励开发者试用这些代码。百度表示,代码将开放给所有从业者,包括但不限于创业者。百度此次开源人工智能软件代码,让全球知识共享又迈出了一大步,知识共享领域将激发出更多创新,开发者能获取更丰富的技术学习途径,促进开发者进行技术开发,对全球人工智能行业发展有着极其重要的现实意义。

Warp-CTC是百度前期为了在最新的计算机芯片上更快速运行而专门研发的一种改良版深度学习算法。CTC(链结式时间分类算法)方法始于2006年,在瑞士AI实验室IDSIA的论文中有所描述。CTC结合了多个不同的神经网络设计,以处理不完美的数据集。百度SVAIL工程师在打造端对端语音识别系统时,在CTC基础上开发了Warp-CTC,该软件可用于解决绘制输入序列到输出序列图谱过程中的监督问题,改善培训模型的可扩展性,目前百度已经将其运用在了语音识别的改进和优化上。

在此次正式开源之前,Warp-CTC已被用于开发一款强大的深度语音识别系统DeepSpeech2。对于一些简短的句子,该系统甚至比大多数人类正确识别语音的能力强。该技术目前已帮助百度数亿用户在移动端更好的获取相应的服务。百度也表示,希望此次开源能促使端到端的深度学习变得更简单、速度更快,加快研究者的进度,进而对机器学习领域的进步做出贡献。

百度位于硅谷的人工智能实验室

深度学习是人工智能的一个分支学科,它可以让计算机像人脑一样趋于智能化,将所听、所看、所想准确无误地转换成文字。但其难点在于机器训练。犹如解数学题,每个类型的题目均有一套固有的解法,若想掌握,则需要不断摸索与练习,机器训练亦是如此。CTC便是机器“解题”的方法之一,如今已广泛运用于深度学习训练中。它是一种无需了解输入输出对齐原理即可与序列预测监督训练同步执行的对象函数。

近几年来,包括深度学习、语音识别等在内的人工智能技术已经成为行业热点。以深度学习为例,将这项技术应用到互联网产品中之后,就可以实现各种“用脑”的学习型操作,如精致地转录语音或识别物体图像,相当于将特定字词的音频或特定物体的图像导入一个大型模拟神经网络,随着时间推移,此网络将不断“自我学习”,从而可以识别出更多的新目标。Warp-CTC技术的应用将有效改善用现有的方式应用CTC时对内存的庞大需求,提升速度数十甚至数百倍。

机器学习运用了统计学、概率论等基础学科理论,对数据集进行大量运算。但据SVAIL工程师介绍,目前主流的CTC训练通常需要耗费大量的存储资源,且训练速度缓慢。百度在构建深度语音端对端系统的过程中发明了Warp-CTC方法,进而使用CTC提高模型的可伸缩性。并希望通过开源Warp-CTC,打造更容易、更快速的深度学习系统。Warp-CTC的优势在于它可直接用在现有的人工智能框架中,不仅比普通CTC训练快百倍,还能够大幅提高人工智能开发速度。

百度的Warp-CTC代码,本质上是根据几年前开发的深度学习算法改进实现的。该算法运用C语言编译,并做了集成化处理。它可以解决绘制输入序列到输出序列图谱过程中的监督难题,应用于语音识别技术中。去年10月,百度便向公众介绍了百度最新研发出的语音识别技术,将连接时序分类(CTC)训练嵌入到传统的语音识别建模框架中,使汉语安静环境普通话语音识别的识别率接近97%,大幅度提升线上语音识别产品性能。百度近期公布的深度语音识别系统Deep Speech 2比大多数人更善于正确地识别语音,且为百度的无数用户提供了一种更好的接入服务的方式,特别是在移动端。

百度硅谷人工智能实验室技术博客

百度的Warp-CTC算法能在当今最新型的计算机芯片上快速运行得益于其在技术架构上的突破。百度研究院首席科学家吴恩达称他的研究主要是人工神经网络如何在图形处理单元(GPUs)上运行,让Warp-CTC实现对GPUs和X86 CPUs的支持。

据悉,百度海量数据资源提升了神经网络的训练效果。百度创新性的利用大量GPU组成HPC(高性能计算机群),用其训练深度学习。研究人员通过提高GPU的使用效率,从而提升训练神经网络的速度及规模。在吴恩达看来,百度在HPC的研究已处于世界领先地位。

百度方面表示,希望通过机器学习社区GitHub继续优化Warp-CTC的能力。未来百度还将开放更多关于人工智能的开源工具,供开发者使用,充分发挥科技公司领军作用,为机器学习研究做出贡献。

随着百度、谷歌、Facebook等企业全面免费开放各自的深度学习技术,研究者和开发者们很快就可以使用这些国际顶尖的基础技术平台开发机器学习系统产品,从而推动整个人工智能生态的繁荣。作为一家技术驱动的公司,百度深知,公开技术源代码将会引起业界更多的兴趣和热情,使得相关的技术发展进入良性发展的循环,为整个产业提供强大的技术驱动力。

 
标签: 百度 人工智能
  
  
  
  
 
更多>同类企业资讯
 
全年征稿 / 资讯合作
 
 
 
推荐图文
推荐企业资讯
可能喜欢