[分享] OpenClaw を使った音声駆動型 AI エージェントワークフローの構築

belva

日常的に AI エージェントを使っていると、意外と感じるのが「毎回キーボード入力するのは面倒」ということです。通勤中だったり、家事や資料整理など別の作業をしながら操作したい場面では、わざわざ手を止めて指示を入力するのは効率が悪く、作業の流れも途切れがちです。そういった場面で便利なのが、龍蝦 OpenClaw の音声機能です。キーボードを使わなくても、話しかけるだけで操作できるため、より自然な形で AI を利用できます。

この記事では、まず音声機能の基本的な仕組みから整理していきます。音声がどのようにテキストへ変換され、どのように音声で返答されるのかを理解したうえで、音声認識（STT）と音声合成（TTS）の設定方法を順番に解説します。最後に、実際の利用シーンも交えながら、日常でどう活用できるのかを紹介していきます。

一、音声機能の概要

全体の流れとしては、音声操作は大きく「入力」と「出力」の2つに分かれます。

音声入力（Speech to Text, STT）

ユーザーがデバイスに向かって話しかけると、まず音声内容がテキストへ変換され、その後龍蝦が内容を解析してタスクを実行します。この変換処理はバックグラウンドで自動的に行われるため、ユーザー側はほとんど意識する必要がありません。実際の使用感としては、そのまま龍蝦 OpenClaw Ultra に話しかけて指示を出している感覚に近く、すぐに処理へ移ってくれます。

音声出力（Text to Speech, TTS）

龍蝦 OpenClaw Ultra がタスクを完了した後、結果はテキスト表示だけでなく、音声として読み上げることも可能です。特に画面を確認しづらい状況では便利で、作業を中断せずに内容を耳だけで確認できます。

音声で指示→龍蝦が内容を理解して処理→音声で結果を返す→という自然な操作フローになります。

そのため、音声機能は単なる入力方法の追加ではなく、AI を日常や作業環境へより自然に組み込める仕組みとして活用できます。

二、ElevenLabs 音声合成（TTS）設定手順

ElevenLabs の TTS 設定を行うことで、龍蝦 OpenClaw Ultra の出力を「文字表示」から「音声読み上げ」に変更できます。画面を見づらい場面でも情報確認がしやすくなり、普段使いにもかなり便利です。

API Key を取得する

1.まずは ElevenLabs の公式サイトでアカウントを作成します。

2.プロフィール（Profile）ページを開き、「API Key」を確認してコピーしておきます。

龍蝦 OpenClaw に設定する

続いて、取得した API Key を OpenClaw に登録します。

Windows の場合は「コマンドプロンプト（CMD）」または「PowerShell」、macOS の場合は「ターミナル」を開き、以下のコマンドを入力します。
openclaw config set sag.elevenlabs_api_key “あなたの_ELEVENLABS_API_KEY”

その後、以下のコマンドで OpenClaw Gateway を再起動します。
openclaw gateway restart

音声（Voice）を選択する

ElevenLabs では複数のプリセット音声が利用できます。公式サイト上で試聴し、使用したい音声の Voice ID をコピーします。

その後、「コマンドプロンプト（CMD）」「PowerShell」「ターミナル」のいずれかで、以下のコマンドを入力します。
openclaw config set sag.elevenlabs_voice_id “VOICE_ID”

三、Camrio TTS（代替構成）

ElevenLabs を利用しない場合は、Camrio を軽量な代替手段として使用することもできます。Camrio TTS は API Key 不要で、Web ページから直接音声生成できるため、導入ハードルが低めです。特に、ElevenLabs 側で障害や制限が発生した際のバックアップ用途として便利です。

https://www.camrio.com/ja/textToSpeech.html

龍蝦のチャット画面で、以下の操作指示を入力します。（以下はサンプル構成です。実際には「音声」「読み上げ」などのキーワード、または voice=true をトリガー条件に設定して使うのがおすすめです）

タスク：タスク結果を音声読み上げ > Telegram（Camrio）

トリガー：Telegram タスク完了

条件：

result が空でない

「音声/読み上げ」または voice=true

未処理

フロー：

result > 500文字の場合、分割または切り詰め

https://www.camrio.com/textToSpeech.html を開く

5秒待機（タイムアウト15秒）

{{result}} を入力

「Generate」をクリック（セマンティックマッチ）

10秒待機（2回までリトライ）

音声ファイル取得は、まず「Download Audio」をクリックし、利用できない場合は生成後に追加されたaudio要素のsrcを取得してください

音声ソース（URL またはファイル）を確認

Telegram へ送信：voice メッセージとして音声送信

失敗またはタイムアウト時：テキスト結果を返す

（補足：CamRio は Web ベースのサービスのため、ページ構造変更や読み込み速度の影響を受ける場合があります。同時に複数の音声タスクを実行するのは避け、必要に応じて他の TTS サービスをバックアップとして併用するのがおすすめです）

四、Whisper 音声認識（STT）設定

Whisper の設定は、簡単に言えば「龍蝦に話した内容を理解させる」ための設定です。

龍蝦 OpenClaw の音声機能では、音声データそのものを直接理解するわけではなく、一度テキストへ変換してから処理されます。その変換を担当するのが、Whisper 音声認識モデルです。

Whisper を有効化する

Whisper は OpenAI が開発した音声認識モデルです。龍蝦側では、Whisper を利用するために追加の OpenAI API Key を取得する必要はありません。

「コマンドプロンプト（CMD）」「PowerShell」「ターミナル」のいずれかを開き、以下のコマンドを入力します。
openclaw config set sag.whisper_provider “openai”

五、実際の利用シーン

Telegram 音声操作

Telegram と連携している場合は、音声メッセージをそのまま龍蝦 OpenClaw Ultra への指示として使えます。

Telegram を開き、録音ボタンを長押しして、例えば以下のように話しかけます。

「CPU とメモリ使用率を確認して、85% を超えていたら負荷の高いプロセスを一覧表示し、結果を音声で読み上げて」

処理の流れは以下のようになります。

-Whisper が音声をテキスト化

-龍蝦 OpenClaw が内容を解析して実行

-結果を返却（テキストまたは音声）

音声レポート（自動読み上げ）

タスクスケジューラ（Task Scheduler）や Cron と組み合わせることで、自動レポートにも対応できます。例えば毎朝、自動でシステム状態を確認し、異常ログや未完了タスクを音声で読み上げる、といった運用も可能です。

[OpenClaw の音声機能]をクリックしてこの記事の詳細内容を閲覧してください。