目次
注意
※記事は個人的な見解であり、所属する会社・組織とは全く関係ありません。(研究会は休みの日に個人的に参加しております。)
はじめに
2024年10月19日(土) および 10月20日(日)に開催された。「金融情報学研究会(SIG-FIN)」にオンライン参加しました。きっかけはTwitterで有価証券報告書を用いたNLPコンペ(?)が開催される事を知って、その運営を金融情報学研究会がされているようだったため興味を持ったからです。
有価証券報告書を用いたコンペ
見かけたツイート*1
研究会について調べた限りだと、人工知能学会の会員でなくても1000円の参加料さえ払えば誰でも参加できるようでした。現地とオンライン参加があったんですが、僕が見たときには既に現地参加のチケットが売り切れていて、オンライン参加のみでした。
下記のリンクから、参加していなくても発表プログラムと投稿論文が見れるようです!凄い太っ腹だ(?)
第33回 人工知能学会 金融情報学研究会(SIG-FIN):https://sigfin.org/?033
僕は全部見る見るのが難しかったので、興味のある所だけつまみ食い的に見ました。いろいろ面白い発表があったのですが、その中から特に個人的に気になった所だけ次の見出し以降でメモとして共有します。
1日目メモ
公聴したのは
- 「9:00-10:40 人工市場(5件)」のうちいくつか
- 「10:55-12:15 テキストマイニング1(4件)」の全て
- 「14:05-15:25 機械学習(4件)」のうち「(11) 日本企業データを用いた機械学習による利益変化の予測」のみ
だけです。
その中で、個人的に一番興味深かったのは最後に見た
(11) 日本企業データを用いた機械学習による利益変化の予測
屋嘉比 潔 (大阪公立大学), 黒木 裕鷹 (Sansan株式会社), 中川 慧 (野村アセットマネジメント株式会社, 大阪公立大学)
https://www.jstage.jst.go.jp/article/jsaisigtwo/2024/FIN-033/2024_68/_article/-char/ja
こちらです(敬称略)。
僕の理解で概要でまとめると、
- 企業が増益になれば、株価は上がるので増益減益を予測できたら儲かるよね
- 有価証券報告書などの財務諸表を用いて、機械学習やLLMを用いて増益減益の2値予測できるかやってみた
- 機械学習でも、LLMでもある程度増益減益予測できた
- LLMのほうが増益減益予測の正解率は悪いけど、投資リターンは良かった
上記の通りです。
僕もLLMで、面白そうな銘柄を自動で探索させてその中から買いたい銘柄を決めるのも面白そうだと思いました。また、最後の「LMのほうが増益減益予測の正解率は悪いけど、投資リターンは良かった」についても興味深いと思いました。
論文の中でも
投資戦略の観点ではGPT-4oによる予測が有効である可能性が示唆される.これは,GPT-4oが財務諸表に基づく定量データに加えて,ドメイン知識や定性的議論を組み合わせることで,新たな視点を,投資リターンに反映させていることを示唆している.
と指摘しており、回帰モデルやランダムフォレストのような単純な2値分類予測モデルとは違って、LLMの持っている知識が投資リターンに効いてくるという示唆という知見も面白かったです。
2日目メモ
公聴したのは
- 「13:05-14:25 テキストマイニング2(4件)」の全て
だけです。
本当は「(21) 有価証券報告書の表を対象としたコンペティションの提案」こちらを見るつもりだったのですが、色々とあり見そびれてしまいました。後で、これだけ録画公開してくれたりしないかな。。。*2
2日目で個人的に一番興味深かったのは
(24) 大規模言語モデルを用いた金融テキスト二値分類タスクの定義文生成とチューニング手法の提案
高野 海斗 (野村アセットマネジメント株式会社), 中川 慧 (野村アセットマネジメント株式会社, 大阪公立大学), 藤本 悠吾 (野村アセットマネジメント株式会社)
https://www.jstage.jst.go.jp/article/jsaisigtwo/2024/FIN-033/2024_155/_article/-char/ja
こちらです(敬称略)。
僕の理解で概要でまとめると、
- LLMでzero-shotしようとしても、精度でなくてfew-shotになること多いよね
- 依頼者のタスクの定義(言語化)が曖昧なことが多い
- でもfew-shotのためのデータを入力文に合わせて動的に取ってくるような仕組みを実装するのは面倒
- few-shotによりタスクの正確な言語化をする必要がなくなる
- zero-shotに必要な分類の定義って言語化しておくと、タスクの引き継ぎのマニュアル作成や業務理解にも使えそう
- 2値分類用のプロンプト文を自動生成しよう
- 2値分類の正解のデータセットを用意して、そのデータからプロンプト文を自動生成する
- LLMに先ほどの正解データセットを見せて、プロンプト文を作成する。
- 作成されたプロンプト文を使って正解データを分類させて、間違えたものをピックアップして、またLLMにプロンプト文を修正するように依頼する。
- これを繰り返す。
上記の通りです*3。
プロンプト文を作成するときに、確かに定義があいまいなものを扱うときは正解データはあるけど何を書いたらいいのかわからない場面って多い気がするので、色々と使い道とか応用先があるのではないかと思いました。
それと、著者の方が実装したプログラムコードなどをgithubに公開されているそうです!ぜひ試してみてください。僕も時間があるときにぜひ試してみようと思います!
公開github: GitHub - k-takano0423/BiClass-Definition-Generator
おわりに
テキスト系の発表は、ある程度理解できましたが、金融時系列系の内容は勉強しないとちょっと難しいかもしれないとも感じました。
また、来年も時間があればつまみ食い的に参加してみたいと思いました。
UFO2024は、時間的に参加できそうであれば参加してみようかと思います。