Trí tuệ Đa phương thức

AI dựa trên LLM & VLM để hiểu bối cảnh một cách toàn diện

Multimodal Intelligence sử dụng LLM và VLM để kết hợp hình ảnh, ngôn ngữ, dữ liệu cảm biến và thông tin bối cảnh, giúp AI hiểu "điều gì đang xảy ra ngay lúc này."

Dữ liệu từ thị giác rô-bốt, CCTV, nhật ký ra vào, báo cáo văn bản, thời gian và vị trí được tích hợp thông qua LLM và VLM, giúp AI vượt qua mức phát hiện đơn lẻ để đạt tới phân tích theo bối cảnh và hiểu biết tình huống.

Tổng quan

Lấy công nghệ LLM và VLM làm trung tâm, Multimodal Intelligence tích hợp:

Hình ảnh

Camera, thị giác rô-bốt, CCTV

Ngôn ngữ

Văn bản, báo cáo, tài liệu

Cảm biến

Nhật ký ra vào, dữ liệu sự kiện

Ngữ cảnh

Thời gian, vị trí, môi trường

AI kết nối tất cả thành một luồng thống nhất để thực hiện phân tích theo ngữ cảnh và ra quyết định thông minh.

Tính năng chính

Tích hợp dữ liệu hợp nhất

Kết hợp hình ảnh, văn bản, cảm biến, nhật ký và ngữ cảnh trong một pipeline AI dựa trên LLM và VLM

Nhận thức bối cảnh

Hiểu toàn bộ tình huống thay vì các sự kiện riêng lẻ

Suy luận dựa trên ý nghĩa

Giải thích tín hiệu hình ảnh và ngôn ngữ để rút ra ý nghĩa và cho phép hành động phù hợp

Mở rộng trên toàn hệ sinh thái Trace

Áp dụng cho Trace ACE, Trace Watch, rô-bốt và nền tảng giám sát

Lĩnh vực ứng dụng

Nền tảng giám sát và an ninh thông minh

Nhận thức hiện trường và tự động hóa bằng rô-bốt

Vận hành tòa nhà và đô thị thông minh

Phân tích tình huống và hỗ trợ quyết định bằng AI