マルチモーダル・インテリジェンス

LLM・VLM基盤、すべての情報を一つの文脈として理解するAI技術

マルチモーダル・インテリジェンスは、LLM（大規模言語モデル）とVLM（視覚と言語を統合するモデル）を基盤として、映像・言語・センサー・状況情報といった異なるデータを一つの文脈として統合し、 「今この空間で何が起きているのか」を理解するAI技術です。

ロボット視覚、CCTV、入退室ログ、テキストレポート、時間・位置情報などがLLMとVLMによって統合され、単なる検出を超えたコンテクストに基づく判断と状況理解を実現します。

概要

LLMとVLM技術を中心に、以下のデータを統合します：

カメラ、ロボット視覚、CCTV

テキスト、レポート、文書

入退室ログ、イベントデータ

時間、位置、環境

AIはこれらを一つの流れとして結び付け、LLMの推論能力とVLMの視覚・言語統合理解により、コンテクストに基づく分析と意思決定を行います。

映像、テキスト、センサー、ログ、状況情報をLLM・VLMベースの単一AIパイプラインで統合

断片的なイベントではなく、全体の状況を総合的に理解

視覚と言語情報を組み合わせて状況の意味を理解し、適切な対応を可能に

Trace ACE、Trace Watch、ロボット、監視システムなどTraceエコシステム全体に適用

統合インテリジェント監視・セキュリティ

ロボットによる現場認識と自動判断

スマートビル・スマートシティ運用

AIによる状況分析と意思決定支援