白山云科技正式發布“大模型API”產品,首發上線DeepSeek-R1-0528、DeepSeek-R1-0528-Qwen3-8B、Qwen3-32B-FP8等大語言模型。基于白山全球邊緣云架構優勢,打造超低延時、超穩定、簡單易用的API接口服務,降低大模型應用成本和開發門檻,助力企業和個人用戶快速開啟AI創新之旅。
專注邊緣推理,構建“云邊端”算力協同新范式
隨著多模態交互、多輪會話、Agentic AI自主決策等復雜場景爆發,傳統集中式數據中心的算力供給模式下,用戶面臨網絡時延的線性增長、算力成本的指數上升,更低延時、更優成本的邊緣算力推理成為必需。邊緣推理通過分布式算力下沉與智能調度,能夠為高實時、高隱私、高性價比場景提供關鍵支撐,驅動AI從集中式智能邁向“云-邊-端”全域協同智能。
聚焦邊緣推理場景,白山云基于全球1700+邊緣節點構成的算力網絡基座,于今年3月推出“邊緣算力云平臺”并持續完善升級,覆蓋從GPU算力資源到MaaS模型服務的一站式AI算力基礎設施,為用戶提供高性能、低成本的AI Infra解決方案。
·模型服務:提供預構建、開箱即用的LLM和多模態模型服務(陸續上線),只需一行代碼用戶即可完成模型切換與集成;基于邊緣節點的就近推理,為用戶帶來<300ms的超低延時推理體驗。
·GPU算力服務:包含GPU容器、彈性容器、裸金屬三大產品,靈活滿足客戶從專屬算力到輕量級彈性算力的不同選擇,為用戶高并發場景下的推理請求提供動態擴縮容+按需付費的高性價比分布式異構算力服務。
重構“低延時、高穩定、強安全”性能上限
1、服務網關全網調度技術
根據實時網絡狀況、節點負載和模型需求,將推理任務動態分發至離用戶最近、最優的邊緣節點,用戶就近計算,推理響應效率翻倍。
2、異構算力彈性調度技術
結合全球虛擬網絡分層管理和區域自治能力,實現算力資源的多級彈性擴縮容,支持百萬級并發,推理實例啟動時間縮短到5秒內。
3、大文件加載優化技術
利用多區域管理的分布式緩存,通過對大模型文件進行數據集編排與親和性調度,大幅提升服務調度效率,模型文件全鏈路加載冷啟動時長從10分鐘縮短到20秒。
4、算力服務單元推理優化技術
在單節點上對推理任務進行PD分離和并行計算,同時通過多卡多模型混跑,GPU利用率提升至56%,單節點模型推理效率提升2.04倍。
5、邊緣云原生安全技術
融合白山全球邊緣云平臺安全防護能力,基于安全網關、云WAF、抗D、零信任安全等安全產品與服務,保障AI業務連續性與數據安全性。
白山云CEO霍濤表示:“大模型推理的實時性需求與成本壓力,正推動邊緣算力從‘流量節點’向‘智能計算單元’進化——這種深度融合正是下一代AI基礎設施的核心范式。白山云依托覆蓋全球60多個國家與地區、核心城市節點密度業界TOP 5的邊緣網絡,正構建‘日均萬億Token級推理處理’的邊緣智能平臺。我們正通過‘本地推理+云端協同’的混合架構,讓邊緣算力價值穿透工業質檢、智能駕駛等20+垂直場景,切實破解企業智能化轉型中的‘實時性鴻溝’與‘算力成本墻’。”
-
API
+關注
關注
2文章
1572瀏覽量
63776 -
AI
+關注
關注
88文章
34884瀏覽量
277673 -
大模型
+關注
關注
2文章
3103瀏覽量
3997
發布評論請先 登錄
Nordic收購 Neuton.AI 關于產品技術的分析
GAITC2025|張科:端云一體大模型推理應用實戰
基于RAKsmart云服務器的AI大模型實時推理方案設計
英偉達GTC25亮點:NVIDIA Dynamo開源庫加速并擴展AI推理模型
Qwen大模型助力開發低成本AI推理方案
科大訊飛即將發布訊飛星火深度推理模型X1
阿里云發布開源多模態推理模型QVQ-72B-Preview
Amazon Bedrock推出多個新模型和全新強大的推理和數據處理功能

在設備上利用AI Edge Torch生成式API部署自定義大語言模型

評論