OpenAI o1は電子カルテと看護師からのわずか数文の情報だけで従来モデルと人間の医師の両方を大きく上回る正確な診断ができたという研究結果 - GIGAZINE

2026年05月07日 19時00分
AI

ハーバード大学医学部とベス・イスラエル・ディーコネス医療センターの研究者らが、OpenAIのモデルが人間の医師と比べてどの程度優れているかを測定する研究を科学誌のScienceで発表しました。研究では、特に「OpenAI o1」が担当医師2名と同等以上の成績を示し、診断段階のトリアージでは顕著な優位性を発揮したことが報告されています。

Performance of a large language model on the reasoning tasks of a physician | Science
https://www.science.org/doi/10.1126/science.adz4433

Study Suggests AI Is Good Enough at Diagnosing Complex Medical Cases To Warrant Clinical Testing | Harvard Medical School
https://hms.harvard.edu/news/study-suggests-ai-good-enough-diagnosing-complex-medical-cases-warrant-clinical-testing

AI outperforms doctors in Harvard trial of emergency triage diagnoses | AI (artificial intelligence) | The Guardian
https://www.theguardian.com/technology/2026/apr/30/ai-outperforms-doctors-in-harvard-trial-of-emergency-triage-diagnoses

ハーバード大学医学部とベス・イスラエル・ディーコネス医療センターの医師とコンピューター科学者からなるチームは、1950年代に医師の訓練と評価のために策定された基準を使用し、OpenAIのo1 previewが数百人の臨床医と比べてどのようなパフォーマンスを発揮するかを評価しました。評価対象には、症例研究に基づく診断課題、推論演習、および実際の救急外来の症例が含まれています。

ある実験では、研究チームはo1 previewに標準的な救急外来における様々な段階で患者を評価するよう指示しました。各段階ではその時点で入手可能な情報のみが与えられ、可能性の高い診断を生成し、次に取るべき行動を推奨するよう求めています。研究では救急外来を受診した実際の患者76人の電子カルテが使用され、o1 previewと医師は同じ情報のみを与えられた状態で診断を行いました。

結果として、標準的な電子カルテから正確もしくは非常に近い診断を下すことができた割合は人間の医師で50～55％だった一方で、o1 previewは67％を記録し大きく上回ったことが報告されました。より詳細な情報が得られた場合、o1 previewは82％と高い記録を示しましたが人間の専門家の精度も70～79％と高く統計的に有意な差ではなかったことから、特に最小限の情報で迅速な判断が求められる診断初期のトリアージの状況においてAIが優位性を発揮すると研究者らは報告しています。

また、抗生物質投与計画や終末期医療計画など、より長期的な治療計画の策定をo1 previewと46人の医師に5つの臨床症例を検討させました。その結果、検索エンジンなどの従来の手段を用いた人間の計画は34％にとどまった一方で、o1 previewは89％というはるかに優れた計画を立てました。ただし、この比較は5つの症例ベースで行われたものであり、さらなる検証が必要だと研究者らは指摘しています。

さらに、研究では従来LLMでは苦手な傾向があった「診断推論」について、o1 previewでは大きく改善されたことも報告されています。以下は診断精度を比較したグラフで、o1 previewは約78％で、GPT-4の約64％やその他の従来の診断専用システムを大きく上回ったことが示されています。

研究の筆頭著者でハーバード大学医学部のAI研究所を率いるアルジュン・マンライ氏は「今回の研究結果は、AIが医師に取って代わることを意味するものではないと考えています。しかし、医療のあり方を根本的に変える、非常に大きな技術革新が起きていることを示しているとは思います」と語りました。

また、同じく研究の主執筆者でありベス・イスラエル・ディーコネス医療センターの医師であるアダム・ロッドマン氏は「AIはここ数十年で最も影響力のある技術の1つです。今後10年間で、AIは医師に取って代わるのではなく、医師、患者、そしてAIシステムからなる新たな三者連携医療モデルに加わるでしょう」と述べました。

今回の研究では、カルテに基づくテキストのみに依存した判断が求められましたが、現実世界では画像や音声、非言語的な手がかりなど、多くの情報に注意を払う必要があると研究者らは指摘しました。その上で、以前のバージョンのAIモデルは不確実性への対応や症状の説明の生成においてうまく機能しなかった一方で、o1 previewは大きく改善されて実用化を視野に入れられるレベルまで進歩していると研究者らは強調しています。

この記事のタイトルとURLをコピーする

OpenAI o1は電子カルテと看護師からのわずか数文の情報だけで従来モデルと人間の医師の両方を大きく上回る正確な診断ができたという研究結果 – GIGAZINE