AI開発

北海道大学様 オープンソースの大規模言語モデル(LLM)を使用したプロダクト共同研究開発

共同研究大学

国立大学法人北海道大学 先端生命科学院 数理生物学研究室

所在地 :〒060-0810 北海道札幌市北区北10条西8丁目(Google Map)

プロダクト概要


オープンソースの大規模言語モデルを使用し、学術文献から生命科学に関するキーワード抽出及び論文の要約を行うプロダクトを共同で開発いたしました。

※大規模言語モデルについて、下記ブログに活用方法について紹介しておりますので是非ご覧ください。

弊社でのご支援内容

ご依頼いただいた背景

生命科学をはじめとする特定の専門領域に特化したAIを開発し、これをローカル環境で動作させたいとのご要望がありました。
しかしながら、先方側には、AIの開発を専門とする人材が不在であったため、共同開発としての支援についてご相談いただきました。

課題と取り組み

大規模言語モデルを使用した開発は先進的な領域となるため、開発に用いるライブラリも新しいものが多く情報が少ない、且つその中でも新たな技術やモデルがリリースされるので常に情報をキャッチアップし続ける必要があるという点で、開発の難易度が高いという課題がございました。
上記の課題に対して、北海道大学様とフレームワークやオープンソース大規模言語モデルの最新情報や記事を共有しながら、試行錯誤を重ね最良の方法を探索する形で開発に取り組みました。

開発内容

初めに、今回の開発に最適なフレームワークの選定を行いました。
代表的な二つのフレームワーク(LangChainとGuidance)の内、将来的に様々な機能を拡張できる点を評価し、今回の開発ではLangChainを採用いたしました。
その後、大規模言語モデルを用いて「学術文献から生命科学に関するキーワード抽出」及び「論文の要約」の検証を実施し、これらをローカル環境で動作させるための大規模言語モデルの実行環境を構築し、そのコードをGithubで納品いたしました。

取り組みの成果

今回の開発では、「キーワードの抽出」及び「論文の要約」をローカル環境で実現できる大規模言語モデルの実行環境を構築しました。
北海道大学様より本件の成果について学会で発表いただいたところ高い注目を集めました。

今後の取り組み

オープンソースの大規模言語モデルは処理の実行速度や精度がOpenAIに比べて劣る部分があるため、現在パフォーマンスの最適化を進めております。
具体的には、最適なオープンソースの大規模言語モデルの選定や最適な並列処理の方法、使用しているライブラリの最適なパラメータの調査などを行っている最中です。
また、特定の専門分野に特化したAIモデルの開発や、これを用いた質問応答などのタスクに対応するための機能拡張を進めております。

共同研究大学
国立大学法人北海道大学 先端生命科学院 数理生物学研究室 様
使用技術(言語)
Python
使用技術(フレームワーク)
LangChain
使用技術(ライブラリ)
GROBID、KeyBert、pysqlite3、llama-cpp-python、faiss-cpu