1.CAISA3.0架构与星空加速卡X3产品介绍



  • CAISA3.0架构与星空加速卡X3产品介绍

    通过本教程,用户能够了解或掌握:

    1. CAISA3.0架构的基本原理

    2. 星空加速卡X3的基本介绍

    一、CAISA3.0架构介绍

    CAISA3.png

    定制数据流架构(Custom Streaming Artificial Intelligence Accelerator,CAISA)为鲲云科技自主研发数据流架构,依托于CAISA3.0架构的CAISA芯片已完成量产,为全球首颗数据流人工智能芯片,CAISA架构包含三大部分:

    1. CAISA引擎(CAISA Engine):CAISA引擎可以被分时配置为针对特定AI算法的定制流水线,其包含四个主要组成部分,可以支持不同的AI算法的计算加速。
    • 数据流计算模块:包含卷积、池化、激活等不同AI算子计算模块,是实现计算功能的具体硬件单元;

    • 局部数据流网络:实现数据流计算模块、局部数据流缓存与全局数据流网络三者之间的动态连接;

    • 局部数据流缓存:支持引擎内数据流的存储、共享、及汇聚;支持数据流在不同数据流计算模块间流动,以组成定制的流水线。

    • 数据流重组配置器:其根据配套软件工具生成的CAISA引擎配置,定义数据流连接关系及状态、以及数据流计算模块的计算模式,从而完成不同AI算法在CAISA3.0架构的映射。主要包含三种:第一种为数据流网络配置器,其配置数据流网络的连接关系及运行状态;第二种为数据流计算模块配置器,其配置数据流计算模块的计算模式;第三种为数据流缓存配置器,其配置局部数据流缓存的连接关系和运行状态。

    1. 全局数据流网络:实现不同CAISA引擎、全局数据流缓存与外部存储器之间的动态连接;

    2. 全局数据流缓存:支持数据流的存储、共享、及汇聚,支持数据流在不同CAISA引擎间的流动。

    作为下一代人工智能计算平台,CAISA3.0架构具有以下技术优势:

    1. 高算力性价比:CAISA芯片实测芯片利用率高达95.4%,相比英伟达旗舰芯片提供最高10倍以上芯片利用率提升;

    2. 高架构通用性:支持各种深度学习算法,包括目标检测、分割、分类等领域应用的主流算法;

    3. 高软件易用性:提供RainBuilder开发工具链,自顶层深度学习开源框架中算法至底层CAISA架构时钟精确映射,端到端自动化工具兼容现有人工智能开发框架、生态及软件。

    目前CAISA3.0架构所支持的算子列表如下:

    QQ截图20201022215122.png

    QQ截图20201022215153.png

    QQ截图20201022215220.png

    Note:

    更多关于CAISA3.0的详细介绍,请参阅《CAISA数据流架构白皮书》:http://www.corerain.com/caisa

    二、鲲云星空X3加速卡

    鲲云星空X3加速卡是全球首款搭载了CAISA 芯片的数据流架构深度学习推断设备。X3加速卡是一款工业级HHHL(半高半长)单槽规格的PCIe板卡,其功耗小于60W。得益于其轻量化的规格特点,这款高性能加速卡可以与不同类型的计算机设备进行适配,包括个人电脑、工业计算机、网络视频录像机、工作站、服务器等。

    1. 产品规格

    加速卡正面外观如下图所示:

    002.png

    加速卡参数规格如下表所示:

    主芯片 CAISA
    峰值性能 10.9TOPS
    芯片利用率 高达95.4%
    接口 PCIe 3.0 x8
    内存 板载8GB DDR4
    电源 PCIe供电
    散热方式 主动散热(单风扇)
    工作温度 -20℃ ~ 70℃
    外形尺寸 169.5mm x 69.6mm(PCIe半高半长标准,单槽位)

    2. 产品特性

    由于加速卡主芯片CAISA的独特的数据流架构,X3加速卡可以支持大多数常用的深度学习算子。因此从设计的角度来说,任何搭载该款芯片的设备均可以加速绝大多数主流的深度学习网络,且实现低延迟高芯片使用率(理论上使用率可达95.4%甚至更高)的加速效果。X3加速卡的Benchmarks如下表所示。

    模型名称 网络来源 吞吐 [FPS] 延时 [ms] 芯片利用率
    ResNet-50 TensorFlow 1306.93 3.06 92.3%
    ResNet-152 TensorFlow 460.27 8.68 95.4%
    YOLOv3 DarkNet 125.75 31.06 82.4%
    SSD-ResNet50 NVIDIA 182.16 21.96 77.1%
    U-Net Industrial NVIDIA 54.01 74.07 65.0%

    如Benchmarks所示,所有在X3加速卡上测试运行的网络均可达到65%以上的实测芯片使用率。该测试结果完全达到了CAISA 3.0 AI芯片的设计规格。另外,本次公布的benchmarks网络涵盖了深度学习领域三个主要的应用类型(分类、检测和语义分割)。因此,这款X3加速卡可以为终端用户提供足够高的设计自由度,以满足不同的AI应用需求。

    Note:

    更多关于鲲云星空加速卡X3的详细介绍及购买咨询,请联系销售支持:sales@corerain.com


登录后回复