DeepSeekと強化学習、蒸留

樹脂分別のひとつの方法として、片っ端から外観で覚える方法があります。不特定から樹脂を集めるケースではなく、イレギュラーはあるものの工場関係のお客様には有効です。

但し、取引工場様ひとつだけでも数百個で足りないくらい外観の種類はあると言っても過言はないし、ランナー品は非常に似ています。

そうした場合に画像認証を持ち込むのは有益だと思います。但し、質感はカメラに捉えきれないし、破損品等の外観問題やイレギュラー品、試作品、新製作品もありますし、機密情報漏洩のリスクも出てきます。
ただ、画像認証の開発のラフスケッチはしたことありまして、、、、

改めて行列（matrix）の道具としての実用性（表現性）に関心するわけですが、、、

DeepSeek ショックです。

arXivにDeepSeek-AIの論文が出ていますね。分かりやすく解説してくれているウェブページもあります。

データからAIが認識してアウトプットするための学習は、教師あり学習、教師なし学習、強化学習があります（半）。
この学習をするために、プログラミング言語Pythonに興味を持つとこう紹介されるわけです。但し、前者２つは比較的例が豊富でテキストも出ていますが、強化学習となるとより踏み込んでいく必要があります。
強化学習は用途が高度というべきか、得られる結果が直観的で分かりやすいのが前者です。

私もそうですが、画像認証させるために、データを用意するのが手っ取り早く、教師あり学習に流れていきます。

そして、現在の主流の生成AIもそうです。

この学習のアルゴリズムもしくは中間層構造システムの行列計算処理を大量のGPUが担っているわけですが、このGPUが大量すぎてデータセンターは電力を無尽蔵に消費します。

壮大な量の詰め込み学習をするので、物量任せですらありますが、その学習をした分の成果も大きいわけです。

一方、今回のDeepSeekは膨大なデータではなく、各要素に評価付けできる（報酬の獲得）モデルをつくり、アルゴリズムによって報酬を最大化します。あとは自身でシミュレーション検証を繰り返して、閉じた状態で学習します。
このアルゴリズムがGroup Relative Policy Optimization (GRPO)で(略。というか分かりません）

さらに、高品質データのみを学習させて微調整してスタートする、アウトプット面などの修正を加えていっています。それによって一部従来の生成AIと同等のパフォーマンスを達成し、さらにそれを蒸留した小型モデルで教師あり学習をすると、小型だから計算処理量が少なくても（低容量でも）、きちんとパフォーマンスを達成したようです。

※モデルを小型化（圧縮）する方法として、Pruning（枝刈り）、Quantize（量子化）、Distillation（蒸留）が代表的であり、今回のモデルには蒸留が使われたことになります。一部、量子化モデルもあるような情報が出ていますが、私の目を通した論文にはDistillationのみでQuantizeは出てないので、取り合えずこのままにしておきます。

と、素人ながらに、こういうことだよなと感動しています。
何がこういうことなのかは企業秘密ですが、とにかく方向性を定めて、精進いたします。

日	月	火	水	木	金	土
« 12月
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

DeepSeekと強化学習、蒸留

最近の投稿

アーカイブ

カテゴリー

投稿日カレンダー