Press "Enter" to skip to content

日: 2024年5月27日

半年後のAI(AIの未来予想 機能編)

AIの未来。未来と言っても、近い未来に登場するだろうAIについて。今回は機能的な部分を考えてみたいと思う。

マルチモーダルAI
既存のAIが、特定の領域で、特定の処理に特化して実行されてきたものが、複数のタイプのデーター、テキスト、画像、音声、動画などを活用できるようになってきている。

画像から、テキスト、テキストから画像というように、入力も出力も複数のタイプが出力できるようになり、人々のコミュニケーションのように、視覚もあれば、テキスト、音声もありになりつつある。

ChatGPTは、テキスト入力から注目されてきたが、AGIのように、汎用的なAIを目指しており、汎用的とはつまり、幅広い入出力だったり、状況に合わせた入出力を目指していることになる。

状況認識
画像認識の世界では、徐々に多くの物体認識ができるようになり、最初は80種類ぐらいの分類だったサンプルが、YOLO v2では9000種類、その後のYOLOの分類数は不明だが、GPT-4oなどに画像を投げると、背景や人の表情まで把握できる。つまり、種別の分類から進歩し、状況や状態など、細かい分類や分析がを行なえるようになっていると考えられる。

ローカル実行
現在LLMはクラウドを通じて回答が返ってくるものが一般になっているが、PCでも実行可能になってきている。
クラウドで実行されようが、ローカルで実行されようが、どっちも一緒な気がするが、閉じた場所で実行されるほうが、セキュリティやプライバシーの面で説明しやすかったりする。

企業内でも個人宅でも、AIエージェントが、状況を把握し、必要に応じてアラートをだしたり、状況を記録してくれる事になるだろう。

AI監視もしくはAIによる見守りが、有益なのは、防犯や事故だけではなく、人々が自己をもう少し客観的に認識する事にあると思う。

ニッチなAI
汎用的なAIが、幅広い分野で活躍する一方で、ニッチなタスクもやはりAIがこなす事になると思う。従来のAIがそれなりに大きな費用やコストをかけなければ、作れなかったものが、汎用的なAIにより、それが少ない労力で作れるとなれば、ニッチな分野のAIもまた進化することになるだろう。

AIエージェントを何で選ぶか?
ChatGPT、Claude、Gemini、など最新のLLMや、AIエージェントを何で選ぶか?価格、使いやすいさ、複数の機能。
知識量、回答の速さ、正確さ、カスタマイズ性、ソースのありかを示せるか。あるいは、公平性、性格みたいなものも、出てくるかもしれない。

情報収集AI
希望的観測で、今欲しいAIは、情報収集系AI。自分の代わりにSNSやニュースサイトの情報を探してくれて、尚且つ、すでに見たやつを省いたり、興味のある分野をもっと掘り下げて、尚且つ、アーカイブ化を手伝ってくれると良いのになあと思う。

さすがに、それが半年後に実現しているかどうかは不明だが、情報収集の自動化と、個人へのカスタマイズ(そのためにはいくつかの記憶的な要素が必要)、アーカイブのためのディスク領域(ローカルSSDなど)との連動が必要かなと思う。