Technology
Trí tuệ Đa phương thức
AI dựa trên LLM & VLM để hiểu bối cảnh một cách toàn diện
Multimodal Intelligence sử dụng LLM và VLM để kết hợp hình ảnh, ngôn ngữ, dữ liệu cảm biến và thông tin bối cảnh, giúp AI hiểu "điều gì đang xảy ra ngay lúc này."
Dữ liệu từ thị giác rô-bốt, CCTV, nhật ký ra vào, báo cáo văn bản, thời gian và vị trí được tích hợp thông qua LLM và VLM, giúp AI vượt qua mức phát hiện đơn lẻ để đạt tới phân tích theo bối cảnh và hiểu biết tình huống.
Tổng quan
Lấy công nghệ LLM và VLM làm trung tâm, Multimodal Intelligence tích hợp:
Hình ảnh
Camera, thị giác rô-bốt, CCTV
Ngôn ngữ
Văn bản, báo cáo, tài liệu
Cảm biến
Nhật ký ra vào, dữ liệu sự kiện
Ngữ cảnh
Thời gian, vị trí, môi trường
AI kết nối tất cả thành một luồng thống nhất để thực hiện phân tích theo ngữ cảnh và ra quyết định thông minh.
Tính năng chính
Tích hợp dữ liệu hợp nhất
Kết hợp hình ảnh, văn bản, cảm biến, nhật ký và ngữ cảnh trong một pipeline AI dựa trên LLM và VLM
Nhận thức bối cảnh
Hiểu toàn bộ tình huống thay vì các sự kiện riêng lẻ
Suy luận dựa trên ý nghĩa
Giải thích tín hiệu hình ảnh và ngôn ngữ để rút ra ý nghĩa và cho phép hành động phù hợp
Mở rộng trên toàn hệ sinh thái Trace
Áp dụng cho Trace ACE, Trace Watch, rô-bốt và nền tảng giám sát
Lĩnh vực ứng dụng
Nền tảng giám sát và an ninh thông minh
Nhận thức hiện trường và tự động hóa bằng rô-bốt
Vận hành tòa nhà và đô thị thông minh
Phân tích tình huống và hỗ trợ quyết định bằng AI