医療診断が人工知能(AI)をますます使用するにつれて、新しい研究はその長期的な一貫性に関して懸念を引き起こしています。 12月20日にリリースされたこの調査では、大規模な言語モデル(LLMS)とAIベースのチャットボットが苦しむ可能性があることが示されています。、人間に似ています。
この発見は、人間の医師がAIにすぐに置き換えられ、医療診断における可能性のある脅威を特定するという考えを弱めています。
AIは医療診断をより速くしました
AIは、人間の目に明らかになる前に異常を検出するために、病歴、X線、およびその他のデータセットを迅速に分析することにより、ヘルスケアに革命をもたらしました。
これらの進歩により、診断速度と精度が大幅に改善されました。ただし、最近の研究では、OpenaiのChatGpt、Anthropic's Sonnet、AlphabetのGeminiを含むAIを搭載したチャットボットが、時間の経過とともに有効性を失う可能性があることを示唆しています。ライブサイエンス。
認知能力のAIのテスト
AIシステムが認知機能低下に苦しんでいるかどうかを判断するために、研究者はモントリオール認知評価(MOCA)テスト。神経科医が一般的に採用して人間の認知能力を評価するこのテストは、以下を含む分野の能力を定量化します。
- 注意と記憶
- 言語と抽象化
- 空間スキルと実行機能
このテストには、100から7つを繰り返し減算し、読み取りリストからアイテムを覚えているなどのアクティビティが含まれ、特定の時間を時計の表面にマークします。人間の場合、30人中26人は通常の認知状態を表し、それよりも少ないかもしれませんが、認知障害を示す可能性があります。
AIチャットボットの採点方法
の結果BMJ研究驚くべき傾向を示しました。 CHATGPT-4は30のうち26で最高のスコアを持ち、通常の認知機能の人間レベルに達しました。 Gemini 1.0はそれほど成功しておらず、スコアはわずか16であり、LLMの古いバージョンの認知機能の劣化を示しています。
AIは、命名、注意、言語テストで最善を尽くしましたが、空間的および実行機能テスト、特に遅延リコールと抽象的な思考では不十分でした。
AIは本当に認知機能低下を患っていますか?
結果は、古いAIモデルのパフォーマンスの低下を指していますが、科学者は調査結果が観察的であると警告しています。 AIがデータを処理する方法は、本質的に人間の脳とは異なるため、2つを簡単に比較することはできません。この研究は、AIシステムに医療診断で完全に機能することを妨げる可能性のある欠陥がある可能性があることを依然として示唆しています。
主な懸念事項の1つは、AIが視覚的な抽象化と実行機能タスクでひどく機能することです。これは、健全な医療診断に不可欠な2つのドメインです。 AIチャットボットが複雑な視覚情報を信頼できるほどデコードできない場合、臨床環境でのアプリケーションが損なわれる可能性があります。
ヘルスケアにおけるAIへの影響
これらの結果は、医学におけるAIの将来に明白な意味を持っています。 AIは非常に強力なツールですが、重要な診断機能に完全に依存する前に、その制限を克服する必要があります。主なポイントのいくつかは次のとおりです。
AIは人間の医師を代用するのではなく、彼らを助けるべきです。 AIは膨大な量のデータを急速にスキャンできますが、適切な解釈には人間の介入が必要です。
定期的な更新と再訓練が必要です。古いAIモデルの効果が低いため、LLMSの更新が正確さを確保するために重要です。
AIは「神経学的検査」が必要になる場合があります。 AI自体が認知テストを受けているというユーモラスなアイデアは、継続的な信頼性を保証するために定期的なチェックへの扉を開きます。
AIユーザーのリアリティチェック
AIは医学において長い道のりを歩んできましたが、この研究は技術が完璧ではないことを思い出させてくれます。 AIが「認知機能低下」に苦しむ可能性があるという提案は、人間によって微調整され、監督される必要があることを明らかにしています。