Main Categories
EXPLORE
病理AI は自分の診断にどれほど「確信」しているか ― VLM のロジットレベル不確実性定量化
組織病理画像解析におけるVision-Language Model(VLM)の信頼性を、出力ロジットの温度制御を通じて不確実性定量化(UQ)するフレームワークが提案された。汎用VLMと病理特化モデルの間で不確実性挙動に決定的な差異が明らかになった。 VLMは教育、交通、医療など多...
ロボット操作研究の「バベルの塔」を壊す ― ManipulationNet が構築するグローバルベンチマークインフラ
実世界のロボット操作タスクをグローバルにベンチマークするためのインフラストラクチャ「ManipulationNet」が提案された。標準化されたハードウェアキットと統一ソフトウェアクライアントにより、世界中の研究室から再現可能な実機評価を実現する。 器用な操作(dexterous ...
「分子の言語」を教える ― MMAI Gym が小型基盤モデルで大型LLMを凌駕する創薬AI
創薬タスクに特化した訓練・ベンチマークフレームワーク「MMAI Gym for Science」が発表され、小型の専用訓練済み基盤モデル(Liquid Foundation Model)が大規模汎用LLMや専門モデルを分子ベンチマークで上回ることが実証された。 ChatGPTやC...
LLMエージェントを「統制された共同研究者」に変える ― Mozi が提案する創薬AIの二層アーキテクチャ
ツール拡張型LLMエージェントを創薬パイプラインで安全かつ高信頼に運用するための二層アーキテクチャ「Mozi」が発表された。自由な推論と決定論的な実行を適材適所で使い分け、ハルシネーションの連鎖的拡大を防止する。 ツール拡張型LLMエージェントは、科学的推論と計算を統合する有望な...
「それを持って」の一言で把持点を見つける ― Point2Act が実現するMLLMベースのゼロショット3D把持
マルチモーダル大規模言語モデル(MLLM)を活用し、自然言語によるタスク記述から直接3Dアクションポイントを特定するゼロショット把持手法「Point2Act」が提案された。フルスタックパイプラインは撮影からMLLMクエリ、3D再構成、把持姿勢抽出までを20秒以内で完了する。 基盤...
コードを書きながら考えるLLM ― R1-Code-Interpreter が GPT-4o を超えた多段階強化学習
テキストのみのLLMをCode Interpreterとして訓練し、ステップバイステップ推論の中で自律的にコードを生成・実行する「R1-Code-Interpreter」が提案された。多段階カリキュラム学習により、14BモデルがGPT-4o(テキストのみ:58.6%、Code I...
AIレコメンドは「個人の安全」を守れるか ― SafeCRS が実現するパーソナライズド安全アラインメント
LLMベースの対話型推薦システム(CRS)が、ユーザー個人の安全制約(トラウマトリガー、自傷歴、恐怖症など)を無視して推薦を行う脆弱性が特定され、この問題を解決するフレームワーク「SafeCRS」が提案された。安全違反率を最大96.5%削減しつつ推薦品質を維持する。 現行のLLM...
LLM搭載ロボットを「ジェイルブレイク」から守る ― RoboGuard の二段階ガードレールアーキテクチャ
LLMを搭載したロボットに対するジェイルブレイク攻撃を防ぐ二段階ガードレールアーキテクチャ「RoboGuard」が提案され、危険なプランの実行率を92%超から3%未満に削減しつつ、安全なプランの性能を維持することが実証された。 LLMのロボティクスへの統合は、自然言語による指示理...
EC検索の関連性予測を推論で解く ― SHE フレームワークが実現するステップレベル強化学習
EC検索エンジンにおけるクエリ-商品関連性予測の精度と解釈可能性を同時に向上させるステップレベル強化学習フレームワーク「SHE(Stepwise Hybrid Examination)」が提案され、SFT、DPO、GRPOなどの既存手法を上回る性能を実証した。 クエリ-商品関連性...
エージェント訓練データの「バベルの塔」問題を解く ― Agent Data Protocol(ADP)が拓く統一的ファインチューニング
AIエージェントの教師ありファインチューニング(SFT)に必要な訓練データが異種フォーマットに分断されている問題を解決する軽量表現言語「Agent Data Protocol(ADP)」が提案された。13の既存データセットをADP形式に統一し、ベースモデルから平均約20%の性能向...
ヒューマノイドは「転び方」を学べるか ― VIGOR が実現する統一的転倒安全フレームワーク
ヒューマノイドロボットの転倒回避・衝撃緩和・起き上がりを統一的に扱う転倒安全フレームワーク「VIGOR(Visual Goal-In-Context Inference)」が提案された。人間の転倒・回復動作を教師として蒸留し、自己中心深度カメラと固有受容感覚のみで未知の不整地環境...
なぜ Hugging Face Transformers は AI エコシステムの「ピボット」であり続けるのか
Hugging Face の Transformers ライブラリが GitHub Trending に再浮上した。100万超のモデルチェックポイントを擁し、テキスト・画像・音声・動画・マルチモーダルの各領域をカバーするこのライブラリは、もはや単なるNLPツールキットではない。M...