コラム

ドーパミンの学習効果

脳は学習します。
記憶を含む学習は、外部刺激が新たなシナプス結合を生み、そのパターンが固定されることです。
（あまり正確な表現ではありませんが）
機械（コンピュータ）の学習も同じような仕組みですが、脳は「よい方向づけをあらかじめデザイン」しているところが機械の学習とは違います。
この学習の方向づけをするのが神経細胞に分泌される「快楽」物質と言われるドーパミンです。
ドーパミンは、ドーパミン神経細胞から放出され、あるデザインに基づいて、どのようなシナプス結合パターンをとった神経細胞に快楽物質を分泌するかを決めています。
ドーパミン神経細胞は、黒質や腹側被蓋野と呼ばれる脳の奥深いところに存在していて、ひとたびドーパミン細胞が活動を始めると脳全体にその影響が広がります。
脳全体が活性化するわけですが、今、書いてきたような線型の反応ではなく、並列的で複雑な反応（計算過程）です。（快楽物質もドーパミンだけではありません）
ここでおもしろいのは、ドーパミン神経細胞は「快」の入力情報そのものよりも「予測された快」と「実際に得られた快」の差に強く反応します。
これを報酬予測誤差（仮説）といい、強化学習アルゴリズムの基本になります。
報酬予測誤差仮説に基づく強化学習理論は、経済学で言う「合理的経済人（の行動）」概念に非常によく似ています。
最近、神経経済学というコトバをよく目にしますが、脳科学と経済学が急接近してできた分野だそうです。
脳科学では、ｆＭＲＩによって、選択行動（経済的行動）をとるまでの「思考過程」がニューロンの発火を測定するできるようになって直接観察できるようになったこと。
経済学では、サイモン、カーネマンなどの行動経済学の研究があったこと。
この２つが神経経済学の発展をうながした要因でそうです。
行動経済学の重要な概念である「プロスペクト理論」もこの強化学習理論で脳科学的に説明できるのではないでしょうか。
（中原裕之「脳研究の最前線（下）」ブルーバックス　ｐ234～）

2008,1