1. MetaStep TOP
  2. ビジネス活用を学ぶ
  3. 【GPT-4o対応】ChatGPTを音声操作で使いこなそう!業務効率化や同時通訳に活用可能

2024.05.22

【GPT-4o対応】ChatGPTを音声操作で使いこなそう!業務効率化や同時通訳に活用可能

2024年5月14日に新モデルGPT-4o(omni)がリリースされたAIチャットボットChatGPT。人間と会話するようにスムーズに音声操作する様子が公開されたことで注目が集まっています。

これまではテキスト入力を挟む必要があった音声機能ですが、今回の実装により、音声操作→音声返答 というスピーディなやり取りが可能に。音声操作の方法を解説します。

(過去に掲載したChatGPT-4oの基礎知識【GPT-4o(omni)】ChatGPTの最新モデルがリリース!使える機能を図で解説も是非併せてご覧ください。)

ChatGPTの音声操作とは?

一般的にChatGPTはプロンプト(AIへの指示文)を手入力しますが、音声によって操作することも可能です。公式スマホアプリでは、音声会話機能が標準搭載されています。Webブラウザ版では公式の音声機能は提供されていませんが、Chrome拡張機能を使うことで音声入力・音声会話が可能になります。

無料版でも利用可能で拡張機能間の大きな違いはないので、好みの拡張機能を選んで使ってみてください。

音声操作によって手入力の手間が省けるだけでなく、画面を見なくてもChatGPTにプロンプトを入力できるため、効率的に活用できるようになるでしょう。

スマホアプリならすぐに利用できる

ChatGPTのスマホアプリ版には音声入力、音声読み上げ機能が標準装備されています。初期設定では英語で回答が読み上げられるため、まずは設定ページの「Main Language」から「Japanese」を選択しておきましょう。

プロンプト入力画面に戻り、ヘッドフォンマークをタップ。音声操作画面が表示されるので、画面に表示されるマークが丸くなってから話しかけましょう。

話し終わって数秒待つとChatGPTが回答を読み上げます。音声操作を中止したい際は画面左下の停止マークを、終了する際は画面右下の×ボタンをタップ。

音声操作を終了すると画面に質問内容と回答がテキストで表示されています。

2024年5月14日には新モデルChatGPT-4oがリリースされ、質問してから回答が読み上げられるまでの時間が短縮されました。従来に比べて処理スピードが2倍に高速化され、人と同じ反応速度で会話できるようになりました。

この機能を利用すれば、リアルタイム翻訳ツールとしても活用できるでしょう。OpenAIが公開する以下の動画では、音声操作を活用して「英語を話す時はイタリア語に、イタリア語を話す際は英語に翻訳してください」と指示しています。(22分13秒〜)

翻訳以外にも物語の作成やプログラミングコードの生成などを音声で操作可能

Webブラウザなら拡張機能を活用

Webブラウザ版に音声操作機能は標準装備されていませんが、Google Chromeブラウザの拡張機能をインストールすることで利用可能です。

Chromeウェブストアにアクセスして「Voice Control for ChatGPT x Mia AI」をインストールしましょう。

ChatGPTの画面を開くと、プロンプト入力欄の右側に今まで表示されていなかったマイクボタンが現れます。

マイクボタンをクリックすると、Chromeブラウザからマイクの使用を許可するか表示されるので「許可」をクリックしましょう。

マイクボタンをクリックするとプロンプト入力画面が白くなるので、ChatGPTに話しかけます。送信ボタンを押せば質問が反映され、回答が得られます。

また、スペースキーを押している間だけ音声入力することも可能です。

音声の再生スピードは、マイクボタンの上にある設定ボタンをクリックすれば変更可能です。

このように、拡張機能を使うことでスマホアプリと同様、音声操作ができるようになります。

まとめ

新モデルのリリースにより人間のように会話できるようになったChatGPT。音声操作を活用すれば業務効率化につながるだけでなくリアルタイム翻訳ツールとしても活用できるなど、応用できる分野が広がっています。

将来的にChatGPTと会話しながら生活することが一般的になる可能性もありそうです!ゲームや映画といった架空のキャラクターともリアルに対話をしたり、人との対話に特化したケアロボットなどの応用も出来るかもしれません。今のうちに情報をキャッチアップしておきましょう。