阿里云机器学习tensorflow实践
1,前言
伴随人工智能和深度学习的应用越来越普及,越来越多的开发人员开始投入到智能算法的编程中。由于算法成熟且公开,软件编码这一块不存在难度;但模型训练和预测所需的时间与硬件设备的配置有极大关系,很多开发人员并不具备GPU计算能力,如此只能在cpu上计算将耗费太多时间,对于模型调试和实际应用产生实质性阻碍。
好在大公司已经将其软硬件能力提供为PAAS、SAAS服务,让普通用户能使用其超强计算平台进行大数据计算。比如百度云、阿里云。本文对阿里云提供的机器学习产品进行体验。
2,建立项目一
阿里云机器学习产品有很多服务,本人对其中的tensorflow服务比较关注。阿狸的文档比较全面,基本安装其指导就能正常使用了。具体可参考:
https://help.aliyun.com/document_detail/49571.html#OSS
(1)开通OSS存储服务。地区选择华东2,费用可选择半年40G空间9元。
(2)开通机器学习服务,建立项目。模板选择“tensorFlow图片分类”。勾选“开启GPU”。目前公测期免费。
3,配置项目一
tensorFlow图片分类项目,默认配置了oss文件存储,一个TF模型训练和一个TF结果预测。
oss文件默认配置共用数据,但两个TF流程的输出目录都需要指向自己的OSS目录。
4,运行项目一
配置完成后,先运行训练过程。在左侧TF图标上点击“运行到此处”,开始运行,直至结束。此时训练模型已经保存到指定的oss目录下。运行时间24分钟。
然后再运行右侧流程。如下图。但运行了超过1小时也没有结束,就终止了。
5,建立并运行项目二
https://yq.aliyun.com/articles/72841?spm=5176.100239.0.0.aLlJGY
按照以上文章中的步骤,建立图像识别项目。
训练配置如下,训练速度很快,20分钟完成。
识别的配置如下:
执行只需1分钟多,但识别结果错误,正确答案是:this is a bird
load data done
oss://jackkwok-001/tf_test/check_point/model/model.tfl
[0.0, 0.9939602613449097, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.006039762869477272]
[0.0, 0.9939602613449097, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.006039762869477272]
This is a automobile
再次运行预测部分,仍然是automobile。
重新运行训练和预测两部分,结果这次正确了。
load data done
oss://jackkwok-001/tf_test/check_point/model/model.tfl
[0.0, 0.0, 1.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0]
[0.0, 0.0, 1.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0]
This is a bird
而且只要训练模型正确,以后无论运行多少次预测,结果都是正确的,且置信度都是1。