FRQ2   マンモグラフィ乳がん検診において読影AIソフトウェアを併用することは有用か?

ステートメント

●検診におけるマンモグラフィ読影AIソフトウェアの併用は,後ろ向きの検討では経験数の少ない読影者における診断能の向上や読影の効率化が報告されており,検診における有用性が示唆される。

背 景

 乳癌検診においてマンモグラフィ検診は中核をなすが,マンモグラフィ読影の人的負担が大きく,精度低下リスクや読影医の確保,読影時間の負担といった精度管理や人的コストが課題であった。

 そのため見落とし減少や第二読影者不足の補充,読影負担の軽減,迅速な読影結果のフィードバックといった問題に対して,computer-aided detection/diagnosis(CAD)と呼ばれる読影補助ツールが開発されてきた。マンモグラフィにおいては,1998年に登場したR2 Technology社のImage Checkerが最初のCADシステムである。

 CADを用いることでBI-RADSに従って評価することができるため,読影者間での読影結果を一致させやすいという利点もあり,2008年には米国の74%の医療機関がCADを利用していた。

 しかしCAD自身の性能が不十分であったこともあり,癌発見率は改善せず,むしろ偽陽性による針生検数が19.7%増加するという報告もあり1),精度の改善に寄与しないといった意見も多かった。

 一方,人工知能(AI)の分野においてディープラーニングの技術は画像認識技術をわずか数年で劇的に進歩させた。それに伴いマンモグラフィのCADも,ディープラーニングを用いたCADが構築されるようになり,すでに商用ソフトウェアも世界中で利用され始めてきている。現時点で日本で認可を受けた製品はないが,米国FDAが認可していたマンモグラフィ用ディープラーニングCADとしては,Screenpoint Medical社のTranspara,CureMetrix社のcmTriage,Therapixel社のMammoScreen等がある。その他,欧州でConformity European(CE)マーク認証を受けたKheiron Medical Technologies社のMiaやVara社のVara Platform等もすでに臨床に用いられている。

 CADは大きく分けて,病変の位置情報を示すcomputer-aided detection(CADe)と,質的診断まで提示するcomputer-aided diagnosis(CADx)とに分類され,まとめて広義のCADと呼ぶことが多く,混乱をきたしている。今まで長らく利用されていたのはCADeであり,偽陽性率が高いことが問題であった。2017年頃より悪性病変が存在する可能性を定量化するCADxが登場し,現在ではCADeとCADxの両方の機能をもつもの(CADe+CADxやCADe/xと表記される)も製品化されている。

 またCADの技術を応用し,読影前に緊急性や慎重な読影の必要性の程度を提示するトリアージ型のCADtも存在する。CADtには,悪性病変の候補をトリアージすることで読影の優先順位を付けることを目的とするものと,悪性病変の可能性が低いものを自動的に除外し,悪性病変の可能性が否定できない画像のみを読影医に提示するものとに分かれる。

 その他,マンモグラフィではないがコンピュータ支援取得/最適化と呼ばれるcomputer-aided acquisition/optimization(CADa/o)も2020年に登場した。現在は心臓超音波検査に対するAIシステムのみが該当し,COVID-19による心疾患の検査支援に有用とされている。

 CADを利用するにあたり,その利用方法による分類もある。

 Second reader型は,まず読影医が診断し,その後CADを使用することで自らの判断と照らし合わせる方法である。基本的にCADeが用いられており,CAD自体の精度は読影医より低くても,読影医が活用することで読影医の精度を改善させ得る。しかし前述のごとく古典的なCADの精度では偽陽性が増加するという問題が指摘されていた。

 Concurrent reader型は,読影医が診断する際にCADを併用する方法である。読影医は自らの判断とCADによる判断とを総合的に判断することができる。例として3D乳房トモシンセシス用にiCAD社のProFound AI等が商用化されている。

 First reader型は,CADがまず病変を指摘したうえで読影医が診断する。レポート機能作成まで行うものもあり,読影医はその結果を判断するだけでよいため,CADtと親和性が高い。またその性質から,検診等といった,ほとんどの症例が正常であるような場での利用が推奨される。ドイツのVara社のVara Platformは,9割以上の正常画像をより分けることで読影医の仕事量を軽減させるといわれている。

 その他interactive型として,読影医が指示したときのみCADの結果を出力させる方法もある。ScreenPoint Medical社のTransparaがinteractive型であり,CADe/xの機能をもつ。

 上記のごとく,CADも古典的なルールベースや機械学習に基づいたソフトウェアからAIを活用したソフトウェアに進化し,その利用方法も多種にわたるようになった。

 そこで,今後の検診への導入に際しての条件を定めることが必要と考えられたため,AIベースのマンモグラフィ読影ソフトウェア(AI-CAD)を併用することが乳がん検診に有用かを検討した。益のアウトカムとして感度上昇(重要度8点),要精査率減少(特異度向上,偽陽性減少)(重要度6点),読影効率向上(迅速化)(重要度4点),必要読影人数の減少(重要度4点),検診費用の軽減(重要度4点),受診者のAIに対する好み(重要度4点),読影結果のばらつきがなくなる(重要度3点)を挙げた。また害のアウトカムとして見落とし・誤診時の責任が不明確(重要度4点)を挙げた。

 システマティック・レビューとして取り上げた論文16件中,感度上昇,AUC等,診断能について検討した文献が15件,読影効率については効率化に関する文献は7件(読影に回す件数の削減が3件,読影時間に関する文献が4件),受診者のAI-CADに対する好みが1件あった(重複あり)。検診費用の軽減,読影結果のばらつきがなくなる,見落とし・誤診時の責任が不明確,のアウトカムについては該当する論文がなかった。なお,アウトカムのうち要精査率減少(特異度向上,偽陽性減少),必要読影人数の減少はそれぞれ,感度上昇,AUC改善や読影効率向上と関連するため,それらに相当する論文データから検討を行った。

解 説

1)感度上昇・要精査率減少
 感度上昇,area under the curve(AUC)上昇については,15件中ほとんどの検討でAI-CADを用いたときの改善が報告されており,有意差をもって向上した報告もみられる。

 Salimらの報告では,8,805症例のマンモグラフィ画像を読影医単独での精度,AI-CADのみでの精度,読影医がAI-CADを利用した際の精度を検証した2)。読影医単独の精度は一次読影で77.4%,二次読影で80.1%であった。3種類の商用AI-CAD製品の精度はそれぞれ81.9%,67.0%,67.4%であった。読影医が最良のAI-CADを利用した際の精度は88.6%であった。したがって,人だけでもなく,AI-CADだけでもなく,人がAI-CADを利用することで高精度を達成し得ると報告している。一次読影がAI-CADを利用することで癌検出率が15%改善し,二次読影でも12%改善した。

 Pacileらの報告では,240症例のマンモグラフィを,14人の読影医に商用AI-CADであるMammoScreenの利用あり/なしで読影させ,精度や読影時間を検討している3)。その結果,AI-CADを利用することで感度は65.8%から69.1%に有意差をもって改善し,特異度は72.5%から73.5%に改善傾向を示すも有意差を認めなかった。AUCは14人中11人が改善し,全体として0.769から0.797に有意差をもって改善した。読影時間は62.79秒から71.93秒,2回目は57.22秒から62.16秒とわずかに増加したが有意差を認めなかった。

 同様にRodrígues-Ruizらは,240症例のマンモグラフィを商用AI-CADであるTransparaを併用することで精度検証を行った4)。その結果,AI-CADを利用することで感度は83%から86%に改善し,特異度は77%から79%に改善し,AUCは0.87から0.89に改善した。読影時間は146秒から149秒にわずかに延長したが有意差は認めなかった。

 Kimらは,韓国,米国,英国を併せた170,230枚のマンモグラフィ画像を用いた,マンモグラフィ関連のAI研究の中では最大規模の癌データによる検討を行った5)。韓国Lunit社のLunit INSIGHT MMGを利用し,area under receiver operating characteristic curve(AUROC)が読影医のみでは0.810であったが,AIを利用することで0.881と改善した。

 診断能について検討した論文を表1に示す。

2)読影効率向上(迅速化)
 読影時間に関しては4件の論文中3件では,診断能を保ったもしくは改善させた状態での読影時間の短縮を報告している。

 読影時間に関してはBalleyguierらが,トモシンセシス(DBT)のAI-CADを用いた後ろ向きなクロスオーバー試験を報告している6)。80症例のDBT画像(うち21症例が悪性)を用いて読影医6人がAI-CADを使用しなかった場合と使用した場合とで検証したところ,精度を低下させずに読影時間が48.2秒から39.1秒に23.5%短縮した。同様にBenediktらは29.2%7),Chaeらは14%8)の短縮を報告している。前述したRodriguez-Ruizらも精度は改善しつつも読影時間の増加は有意差を認めなかったと報告しており,総合的には効率化が図れることが一貫して報告されている4)

3)読影効率の向上(検診における読影者Work loadの減少・トリアージ)
 AI-CADによるマンモグラフィのCADtを扱う3件の論文は,いずれもシミュレーションではあるものの,高いもので9割のマンモグラフィをAI-CADでトリアージ可能と示している。ただしこれは対象とする受診者における乳癌の頻度により変動し,Kyonoらの報告では,罹患率が1%の場合は99%の,罹患率15%の時は34%のマンモグラフィ画像がトリアージ可能とされている9)

 以上より,検診においてマンモグラフィ読影AIソフトウェアを併用することは乳癌検診に有用である可能性が示唆された。

 好みについての論文は,Ongenaらによるアンケートがある10)。77.8%が人間によるチェックの必要性に同意したが,AI-CADが二次読影として読影医に回すかどうかを決定することに関しては不同意が41.7%,同意が31.5%,どちらともいえないが26.9%であった。AIがセカンドリーダーとして最終決定を担うことに関してはどちらともいえないが37.1%,賛成が37.6%であった。現状では乳癌検診においては一次読影を読影医,二次読影をAI-CADとする組み合わせが現在のところ最も支持されている。

 一方で,日本人での検討は報告が少ない。AI-CAD単独での報告ではあるが,Sasakiらは日本人においてTransparaを用いて精度を検証したところ,感度85%,特異度67%,AUC 0.706であった11)。読影医は感度89%,特異度86%,AUC 0.816と有意差をもって読影医のほうが精度が高いと報告している。

 そもそもAI-CADに限らず,AIを学習させるためのさまざまなデータに人種の偏りがあり,それが結果として特定の人種において精度が低下することが指摘されている。マンモグラフィ用AI-CADも人種による精度の変動リスクは否定できず,今後は日本人をはじめとしたアジア系人種での精度検証が必要と思われる。

 以上より,現段階においてはAI-CADを用いて読影を行った場合,日本において精度が改善するとは結論付けられないと判断した。ただし,AIの進歩は正に日進月歩であり,近い将来,より高精度のAI-CADが出現し読影医をサポートすることで精度が改善していく可能性は非常に高いと思われる。

 なお,今回対象とした文献においては大規模なデータも含まれるものの,後ろ向き・シミュレーション・使用したマンモグラフィ画像の詳細が不明等,患者選択の点等でバイアスの懸念があるものが多く(図1),前向きの研究で十分に検討したものはなかった。また,検診マンモグラフィ画像のデータを用いていても,癌症例のみを水増ししたデータセットを用いて読影を行っているものもあり,実際の検診とはかなり異なる状況での結果であり,適応可能性については疑問が残る。したがって当初はCQとして検索を行ったが,現状のエビデンスの不確実性と今後新たなエビデンスが出ることへの期待を考慮し,FRQとした。

検索キーワード

 PubMedで「mammography」「(artificial intelligence)OR(machine learning)OR(deep learning)OR(computer aided)」「(screening)OR(surveillance)OR(detection)」のキーワードで検索した。検索期間は2016年1月1日から2021年3月31日までとした。重複を除いた320文献に対して一次スクリーニングを行い60文献が残り,これらに対して二次スクリーニングを行い20文献が残った。さらに,比較可能なヒト読影データがない5文献,AIベースでない1文献を除き,関連総説よりハンドサーチで2編を追加した全16編を対象としてシステマティック・レビューを行った。

参考文献

1)Fenton JJ, Taplin SH, Carney PA, Abraham L, Sickles EA, D’Orsi C, et al. Influence of computer-aided detection on performance of screening mammography. N Engl J Med. 2007;356(14):1399-409. [PMID:17409321]

2)Salim M, Wåhlin E, Dembrower K, Azavedo E, Foukakis T, Liu Y, et al. External evaluation of 3 commercial artificial intelligence algorithms for independent assessment of screening mammograms. JAMA Oncol. 2020;6(10):1581-8. [PMID:32852536]

3)Pacilè S, Lopez J, Chone P, Bertinotti T, Grouin JM, Fillard P. Improving breast cancer detection accuracy of mammography with the concurrent use of an artificial intelligence tool. Radiol Artif Intell. 2020;2(6):e190208. [PMID:33937844]

4)Rodríguez-Ruiz A, Krupinski E, Mordang JJ, Schilling K, Heywang-Köbrunner SH, Sechopoulos I, et al. Detection of breast cancer with mammography:effect of an artificial intelligence support system. Radiology. 2019;290(2):305-14. [PMID:30457482]

5)Kim HE, Kim HH, Han BK, Kim KH, Han K, Nam H, et al. Changes in cancer detection and false-positive recall in mammography using artificial intelligence:a retrospective, multireader study. Lancet Digit Health. 2020;2(3):e138-48. [PMID:33334578]

6)Balleyguier C, Arfi-Rouche J, Levy L, Toubiana PR, Cohen-Scali F, Toledano AY, et al. Improving digital breast tomosynthesis reading time:a pilot multi-reader, multi-case study using concurrent computer-aided detection(CAD). Eur J Radiol. 2017:83-9. [PMID:29153373]

7)Benedikt RA, Boatsman JE, Swann CA, Kirkpatrick AD, Toledano AY. Concurrent computer-aided detection improves reading time of digital breast tomosynthesis and maintains interpretation performance in a multireader multicase study. AJR Am J Roentgenol. 2018;210(3):685-94. [PMID:29064756]

8)Chae EY, Kim HH, Jeong JW, Chae SH, Lee S, Choi YW. Decrease in interpretation time for both novice and experienced readers using a concurrent computer-aided detection system for digital breast tomosynthesis. Eur Radiol. 2019;29(5):2518-25. [PMID:30547203]

9)Kyono T, Gilbert FJ, van der Schaar M. Improving workflow efficiency for mammography using machine learning. J Am Coll Radiol. 2020;17(1 Pt A):56-63. [PMID:31153798]

10)Ongena YP, Yakar D, Haan M, Kwee TC. Artificial intelligence in screening mammography:a population survey of women’s preferences. J Am Coll Radiol. 2021;18(1 Pt A):79-86. [PMID:33058789]

11)Sasaki M, Tozaki M, Rodríguez-Ruiz A, Yotsumoto D, Ichiki Y, Terawaki A, et al. Artificial intelligence for breast cancer detection in mammography:experience of use of the ScreenPoint Medical Transpara system in 310 Japanese women. Breast Cancer. 2020;27(4):642-51. [PMID:32052311]