Build Review Interface 測試 Skill
建置 annotation interfaces 用於 reviewing LLM traces。
這個標籤底下共有 7 篇內容。
建置 annotation interfaces 用於 reviewing LLM traces。
協助處理 Error Analysis 測試 相關工作,並依原始 Skill 說明完成設定與執行。
Audit LLM eval pipelines 與 surface problems。
Evaluate RAG retrieval 與 generation quality。
建立 diverse synthetic test inputs 用於 LLM evals。
協助處理 Validate Evaluator 測試 相關工作,並依原始 Skill 說明完成設定與執行。
設計 LLM-as-Judge evaluators 用於 subjective criteria。