メインコンテンツにスキップ
ConvoProbe

ConvoProbe

β版
0

Difyチャットボットの品質問題をユーザーより先に見つける

WEBサービス
AI開発
生成AI
ツール

概要

Difyでチャットボットを作っていて、1問1答のテストでは問題ないのに、ターン数が増えると応答品質が落ちていくことがあります。RAGの検索結果がずれる、システムプロンプトの制約を守らなくなる、ワークフロー更新後にリグレッションが起きる、など。ログにはエラーが出ないので、ユーザーが気づくまで問題が見えません。 既存のツール(LangSmith、Langfuse等)はトレーシングや単発の評価には強いのですが、「ユーザーがAと聞いて、ボットの回答に応じてBかCを聞く」というマルチターンのシナリオを設計・実行する機能がありませんでした。 ConvoProbeは、DifyのChat APIに接続して会話シナリオを実行し、各ターンの回答をLLM-as-Judgeで自動スコアリングします。DifyのDSL(YAML)からシナリオを自動生成する機能もあるので、ゼロから設計する必要はありません。 技術スタック: Next.js + Go + PostgreSQL(Vercel + Railway) 全機能無料で使えます。

ConvoProbe - 画像 1
ConvoProbe - 画像 2
ConvoProbe - 画像 3
ConvoProbe - 画像 4

ディスカッション

U

メイカー 🛠️

最近人気のプロダクト 👀