COVID-19に対抗するために、バイオ IT コミュニティは、 治療法・診断法・ワクチンの開発に貢献し、企業はコンサルティングサービス・計算リソース・臨床試験のためのツールなどを提供しています。しかし、最も必要になるのは、研究者が答えを見つけるために必要な、膨大な量のデータではないでしょうか。
COVID-19 Open Research Datasetの公開
3月16日、AI2、CZI、ジョージタウン大学のCSET、マイクロソフト、米国国立医学図書館は、「COVID-19 Open Research Dataset(CORD-19)」を公開しました。
このデータセットには、COVID-19、SARS-CoV-2、コロナウイルス群に関する学術文献が含まれています。
CORD-19データセットには、現在、47,000件以上の学術論文が含まれており、COVID-19、コロナウイルス、SARS、MERS、およびその他の関連用語にて検索することができます。データセットには、コロナウイルス全般に関する情報が含まれており、論文の日付は1970年代までさかのぼるといいます。
現在、CORD-19データセットは毎週更新され、研究者がダウンロードできるようになっている。Raymond氏によると、毎日の更新を公開するように努力しているといいます。
データ収集と共有の取り組み
実際、COVID-19とコロナウイルス全般に関する豊富な情報があり、多くの団体がデータの収集と共有に取り組んでいます。世界保健機関(WHO)にはCOVID-19研究データベースがあり、国立衛生研究所(NIST)のLitCOVIDリソースもCOVID-19の文献を追跡しています。マイクロソフトは、COVID-19リソースページとCORD-19 AI Powered Searchの両方を専用ツールとしています。OvertonはCOVID-19 Policy Datasetを作成し、Cochrane LibraryもCOVID-19 Literature Review Collectionをキュレーションしています。
CASは3月中旬にCOVID-19構造体データセットを公開し、Semantic ScholarでホストされているCORD-19データセットを通じて利用できるようにしました。CASはすでに追加のデータセットに取り組んでいるといいます。
各分野の専門家たちの団結
CASのデータセットは世界中の製薬会社、バイオテクノロジー、学術研究者によってダウンロードされており、中には、ソフトウェアやAIに力を入れている新しい組織が、AIエンジンのためにこの情報を利用しています。
このように、データセットを、医療研究者とAI研究者の両方に提供することで、治療法の発見が加速する可能性があります。
デニス氏は未来の治療法に「AI技術と伝統的な科学の融合が COVID-19の治療法を解明すると確信している」と述べました。
【考察】専門分野を超えた情報共有とその利用
従来、研究データは、各専門分野ごとに管理されてきました。
AIの得意とする膨大なデータ管理と検索能力は、これらの垣根を超えて、新たな発見を生み出す可能性を持っています。
専門分野を超え、技術者や科学者を団結させることもまた、AIの持つ大きな力なのかもしれません。