本文转载自Digital Engineering,原作者为Randall Newton。


原文可查看:

https://www.digitalengineering247.com/article/the-rise-of-data-science-workstations


NVIDIA全新硬件让用户能够在桌面端更轻松地处理数据。


NVIDIA在今年3月的GTC大会上发布了面向数百万数据科学家的全新高性能工作站。NVIDIA赋力的数据科学工作站基于强大的参考架构搭建,其中包括NVIDIA Quadro RTX GPU,可提供最高可达260 teraflops的计算性能和96GB的内存。


该数据科学工作站一经发布就受到了业界的密切关注。各大领先的工作站OEM厂商也紧随这一步调,发布了符合NVIDIA数据科学规格的工作站。


近日,工程科技行业分析师Randall S. Newton在美国行业媒体Digital Engineering发布了一篇文章,探讨了NVIDIA数据科学工作站有什么独特之处。



NVIDIA创始人兼CEO黄仁勋在发布数据科学工作站时表示:“数据科学是计算机科学发展最快的领域之一,影响着各行各业。企业迫切希望利用机器学习来解锁自身业务数据中蕴藏的价值,它们开始大规模招聘数据科学家。而对于数据科学家们来说,针对其需求而构建的强大工作站则是必需的。”


此时一个问题浮出水面:什么时候会需要专用的工作站?为什么不使用通用的专业工作站?Digital Engineering为此咨询了NVIDIA和几家工作站供应商。


他们的回答是一致的。正如我们从各方了解到的一样,大家一致认为:需要用到专业工作站的行业对数据科学的需求都呈持续强劲增长的态势。但数据科学专家人手却有限,无法满足雇主的需求,因此这一空缺就会需要来自其他行业的工程师和程序员来填补,而他们缺乏相应的专业知识,在运行什么软件、哪种计算机硬件最适合该任务等具体问题上会遇到困难。


规格定义


符合NVIDIA标准的全新工作站有几项特性和大多数现有工作站不同。首先是基于Turing GPU架构的双NVIDIA Quadro RTX图形处理单元(GPU)。


借助NVIDIA NVLink互联技术,每两个Quadro RTX能提供高达96GB的快速本地内存,足够的内存是典型人工智能(AI)训练或深度学习和机器学习分析的大型数据集所必需的。而NVIDIA GV100则是一款Volta架构GPU,亦可用于数据科学工作站。


其中,RTX系列使用了两种全新计算内核,RT Core和Tensor Core。RT是光线追踪的缩写,也有“实时”之意;这些内核专为高性能本地可视化而打造。


Tensor Core的专长在于矩阵数学,这对于深度学习和其他领域中的一些仅能运行于高性能计算(HPC)集群或云计算平台上的应用程序来说很常见。“Tensor Core为深度学习中的计算工作奠定了算力基础。”NVIDIA杰出的高级工程师Michael Houston说道。


Tensor Core可执行融合乘加,两个4x4 FP16矩阵相乘,其结果加到4x4 FP16或FP32矩阵中。这听起来像高中数学,但Tensor Core每秒可进行数百万次这样的计算,远远快于商用CPU或GPU计算电路。以FP32精度累加所有内容也是Tensor Core非常具有优势的一个能力。


Huston表示:“32位的累加对网络融合至关重要,这能使混合精度能够真正发挥效用。”他表示使用Tensor Core时的理论性能提升可达8倍。“NVIDIA在许多神经网络上的端到端速度提高了4倍。”数据科学模型的运行通常需要几天的时间,而4倍的提速意味着能够在一天内完成原本需要四天的工作量。


NVIDIA数据科学工作站的规格要求采用Ubuntu Linux 18.04(俗称Bionic Beaver)操作系统,以及一套基于NVIDIA CUDA-X AI协议可用于AI研究的软件库,其中包括RAPIDS、TensorFlow、PyTorch和Caffe开源库,NVIDIA编写的一些用于机器学习、人工智能和深度学习的加速库。


麻省理工学院航空和航天系是NVIDIA数据科学规格预发布版的用户。“得益于NVIDIA的支持,数据科学工作站能够为用于机器人感知的深度神经网络训练提供极为重要的功能。由此,麻省理工学院FAST实验室能够处理更大批量的数据,进而让无人机通过训练后可以顺利通过一个摄像头观测深度并避免碰撞。”该系副教授Sertac Karaman如是说。


符合NVIDIA数据科学规格的工作站会根据数据科学用户的需求进行测试和优化。NVIDIA表示,只需一台本地单用户计算机,就能告别更昂贵的HPC或云计算平台对时间的需求。


LMR首席数据科学家Mike Koelemay表示:“基于NVIDIA技术的数据科学工作站使我们的数据科学家能够以前所未有的速度在大型数据集上运行端到端数据处理工作流程。使用RAPIDS能够将更多的数据处理流程转移到GPU,可缩短模型开发时间,从而加快部署速度并获得业务洞察。”


当钱不再是问题


联想AI、AR和VR工作站组合经理Mike Leach表示:“AI是热点话题,拥有十分广阔的市场。AI始于工作站。通过遵循NVIDIA的规格,联想能够为用户提供经认证的解决方案和开箱即用的软件工具。”


“数据科学家正在经历重大的转变,”Leach补充道。他们手头有“千兆字节的数据、大量图像数据或财务数据”。想要实现完全预测性的AI,就必须要查看数据,对预测及准确性进行迭代验证。


最近参加AI会议时,Leach发现“有时钱不是问题”。聘用数据科学家的员工成本不菲,但公司认为他们是必须的,并会为他们提供合适的硬件。Leach表示,这样这些科学家就能创造出产品,进而节省大量成本。


识别软件堆栈


戴尔、惠普和Microway发布了采用NVIDIA GPU的工作站,可供数据科学家所用。精品工作站供应商Velocity Micro也在构建符合NVIDIA数据科学规格的工作站,有待正式的NVIDIA认证。该公司首席执行官兼创始人Randall Copeland表示:“我们在科学计算机领域开展工作已经有20年了。”


Copeland表示:“NVIDIA数据科学规格给软件堆栈带来的变化并非像给GPU带来的变化一样大。可以更好地运行Revit或3ds Max的计算机不一定适用于运行CUDA。”


Copeland表示,NVIDIA在人工智能和深度学习市场开发方面做得很好。他们认识到CUDA架构非常适用于大规模数据集,并能够“为在其他领域表现出色并有志于成为AI专家的人士”提供帮助。


个人数据沙箱


NVIDIA数据科学工作站全球业务开发总监Geoffrey Levene表示:“数据科学家一词最初是谷歌的高管在2010年创造的。如今数据大潮来势汹汹,各垂直市场的数据每18个月就会增加一倍。数据必须经过处理,即必须经历提取转换加载等过程(Extract Transform Load,ETL)。然后编写代码,看这些数据能够做些什么。”


通过探索,数据科学家能够构建数据用例模型。Levene表示:“这是训练的一部分,用于推理和预测。训练很耗时,而推理则很快。ETL是一个漫长的过程。”这一工作流程通常涉及表格数据,而“GPU能够加速表格数据”。


Levene表示,可用于数据工作的“个人沙箱”对数据科学家来说是一大福音。“有些人借助GPU加速工作流程,一天内就能完成一周的工作量。”Levene还发现“面向产品开发的AI中,机器学习占了98%。”


Levene指出,从人工智能出现至今,已历经一代,但仍然有行业数据不足的问题。感谢互联网和移动设备的出现,让数据变得非常丰富。Levene表示,“一年前,要么需要在云GPU上花费时间,要么需要在系统上花费高达50万美元”,还需要IT花费几周的时间来安装。“而如今你只需要下单订购几台工作站就能开展工作了。


了解更多详情,点击阅读原文