深挖非结构化数据富矿,嘉银科技(JFIN.US)推出自研“识澜”、“明经”双算法
自创立以来,嘉银科技(JFIN.US)始终将技术创新视为企业发展的重要引擎,不断探索大数据和人工智能技术在不同业务场景中的应用,力求给客户和合作伙伴带来更优质的产品和服务。为进一步赋能决策科学和智慧运营,近日嘉银科技推出自研“识澜”音频数据挖掘算法和“明经”文本数据挖掘算法,全面释放非结构化数据价值,标志着公司科研能力和大数据实力再上新台阶。
基于多年的业务运营和数据积累,嘉银科技沉淀了丰富的数据“矿藏”。由于非结构化的特性,如何能从中提取有价值的信息转化为结构化数据,以进一步提高决策质量、提升客户体验,并最终推动业务增长,成为企业思考的重要课题。
经过探索和实践,嘉银成功自研了针对音频数据的“识澜”算法和针对文本数据的“明经”算法,根据不同业务场景,高效地从音频和文本数据中提取有价值的结构化数据,为下游的数据分析和建模提供更多决策支持。这两项最新成果展示了嘉银科技在科技领域的积极布局和对未来技术发展的深刻洞察,标志着数据驱动下,音频和文本数据深度理解和利用迎来新篇章。
音频数据挖掘算法命名为“识澜”,灵感源于声音犹如水纹波动,该算法能够从声音的波纹中识别出说话人情绪上的细微变化。嘉银决策科学中心通过利用数字信号处理(DSP)工具将音频文件转化为信号序列,再利用傅里叶变化分别从时域和频域的视角来提取说话人的声学特征,比如频谱质心、过零率、均方根能量等,这些特征旨在挖掘语音、语调、语速中蕴含的信息。由于人在不同的情绪状态下说话的方式会存在很大的差别,比如情绪激动的时候会语速加快、音调尖锐、提高音量等等,通过分析这些信息可以更完整地了解说话人在音频发生时的状态属性。
“明经”是古代科举考试的一种,旨在考察学生对儒学典籍的理解和运用能力。嘉银以此来命名文本数据挖掘算法,是希望它能够“学以致用”,从海量的文本里找到对业务有帮助的信息。目前,嘉银决策科学中心团队对传统的机器学习文本挖掘思路进行升级,让模型可以根据不同的业务场景自动化搜索有价值的关键词,并从近义词和同现词的角度对关键词库进行扩充,起到多路召回的作用。除此以外,公司还运用大语言模型(LLM)对命中文本的语义信息做进一步理解,来提升识别的准确性。这种传统机器学习和大语言模型相结合的方式,不仅让语义标签召回率和准确率实现同步提升,也助力公司业务降本增效。
目前,这两种数据挖掘算法已经成功运用于数据建模等场景,嘉银科技模型开发专家夏春秋表示,“结构化数据与非结构化数据起到很好互补作用,目前在多个场景下,声学和语义信息的融入都能给模型带来预测性能和稳定性能的提升。这充分证明了我们对非结构化数据的挖掘探索是有业务价值的。”
最新的信贷服务类模型报告显示,这两种非结构化数据挖掘算法开发出的变量占总入模变量的比例高达27%,对模型的预测起到强有力的支持作用。使用文本和音频变量的新模型预测效果相对于老模型也有大幅度的提升,在尾部20%的分位数阈值下,新模型能够提升60%以上的捕获率,减少40%风险事件的发生。新模型的运用不仅降低了运营成本,更重要的是显著提升客户满意度。
未来,嘉银科技将继续秉持“科技赋能服务革新”这一信念,不断突破技术边界,优化服务流程,与客户共同携手,构建高质量服务品质之路。在这条道路上,嘉银也将始终坚持以客户需求为导向,以技术创新为动力,不断提升服务的专业化、个性化水平。