崗位職責:
1.負責AI大模型及相關(guān)應(yīng)用、智能體的評測工作,深入理解評測需求,制定并落地評測方案;
2.負責構(gòu)建大模型評測能力平臺,通過不斷探索和創(chuàng)新,迭代提升評測效率及準確性;
3.對AI大模型進行功能測試、性能測試、穩(wěn)定性測試、自動化測試等,確保系統(tǒng)滿足用戶需求及合規(guī)安全;
4.負責模型測試數(shù)據(jù)集的構(gòu)建及維護,定期抽樣真實對話數(shù)據(jù)并進行標注;
5.分析歸因評測結(jié)果,編寫測試報告,提出改進建議,協(xié)助研發(fā)團隊定位并修復問題;
6.熟練使用LLM應(yīng)用開發(fā)平臺,開發(fā)并落地推廣測試領(lǐng)域場景保險業(yè)務(wù)相關(guān)的智能工作流,助力測試工作提效。
任職要求:
1.計算機、軟件工程、人工智能、電子信息等相關(guān)專業(yè);
2.二年以上AI大模型應(yīng)用測試工作經(jīng)驗,參與四項及以上AI大模型應(yīng)用的測試工作,擁有保險領(lǐng)域契約、核保、理賠、營銷、客戶服務(wù)等場景AI大模型應(yīng)用測試工作經(jīng)驗優(yōu)先;
3.熟悉Java/Python/C++等至少一種編程語言;
4.熟悉AI大模型應(yīng)用的測試方法、測試工具、測試數(shù)據(jù)集構(gòu)建、測試指標體系等;
5.熟悉常見LLM、VLM評測方案,對業(yè)界常見的Benchmark、評測集有基礎(chǔ)了解;
6.熟練使用LLM應(yīng)用開發(fā)平臺,如Dify、Langflow、Flowise等;
7.了解機器學習理論,包括深度學習、自然語言處理等技術(shù);了解數(shù)據(jù)處理和分析方法,能夠運用數(shù)據(jù)驅(qū)動的方法協(xié)助算法團隊優(yōu)化模型性能;
8.掌握軟件測試設(shè)計方法,理解軟件編程規(guī)范,了解軟件自動化測試、性能測試基礎(chǔ)方法和工具。