ABC——美好社会咨询社(以下简称「ABC」)成立于2008年,是国内最具影响力的、服务于公益组织的咨询机构之一。
过去16年里,它的全职团队维持在个位数,主要是通过招募志愿者的方式,为300+社会公益组织提供管理咨询和研究服务。
显而易见,代码能力并不是ABC的擅长之处——它的长期志愿者们,几乎都没有研发背景。
腾讯基金会去年调研1212家公益机构的结果为,有近半数的组织,在三年内才开始使用在线会议等数字化产品。
但ABC在这两年的咨询服务中发现,慢慢的变多的机构开始希望了解数字化。同时,它们也想找到符合自己的工具,帮助管理企业知识、招募志愿者等。
经过16年,它服务了超过300多个公益机构,积累超6000个志愿者,并设有总部和北京、上海、成都、深圳、广州、杭州六个分社,及数字化创造营、公益创投两个线上分社。
再加上,ABC约每三个月招募一次项目志愿者。成员流转率非常高,带来信息难以沉淀、知识难以传递的压力。
于是在2023年底,ABC的数字化创造营决定打造一个能够精确、迅速回答志愿者问题的对话机器人(Bot)。
但ABC数字化创造营的挑战在于,它不仅没有全职的研发人员,业务也强依靠缺乏开发能力的志愿者。
ABC之前的文档沉淀在飞书上,扣子理论上能最快打通飞书,又有大企业背书。项目发起人、ABC数字化创造营志愿者Yvonne告诉我们。
和飞书一样,「扣子」是字节旗下的产品,主打无需代码、轻松创建,是目前国内最知名的AI应用开发平台之一。
但这一Bot项目真正开始启动于2024年初,当时的扣子也处于功能并不成熟的雏形期。
那个时间段,作为AI小白的项目成员们,不仅要在数百个层层嵌套的飞书文档中清洗数据,还要处理扣子平台中难以兼容飞书、Excel表格解析失败等琐碎问题。同时,他们还要掌握Prompt工程,最好能够降低大模型的幻觉。
到了2024年夏天——也就是项目启动后的半年,这个小小的Bot伴随着扣子平台的迭代,经历了数据处理、模型测评、精准度设定等等流程,终于在20个问题的测试集上,达成了90%的准确率。
但让Bot基本准确地回答问题只是第一步。大家接下来的重点工作是,通过加入主动推送功能,让更多ABC的志愿者们,能够真的在日常习惯使用Bot。
当这一步走通,他们还希望把这套构建AI Bot+知识管理的方案,输出给其他公益机构。
一个公益咨询组织花费半年做出一个Bot,在动辄造神的AI时代,着实算不上fancy。
它告诉我们,在AI圈讨论Scaling Law失效、打造世界模型等尖端问题的同时,普通的企业和组织,是如何以愚公移山般地朴素模式,拥抱AI。
四木相对论:首先是比较好奇,我们当时为何需要做一个基于大模型的Bot?
ABC的“数字化创造营”,是一个通过志愿者,给公益机构提供数字化咨询服务的组织。过往做项目的时候我们就像咨询公司一样,主要依据需求做咨询。
但后来我们得知,很多公益机构不仅需要咨询,还有很强的落地诉求。简单来说,他们盼望我们能直接给到一些切实可用的工具。
大部分来找ABC的机构,本身已经运行了三五年甚至10年了,有很多已经跑通了的项目。
但是机构里有价值的信息,比如项目是怎么运作的,这一些信息可能都只是在机构负责人、或者关键的一两个骨干手里。
每次当他要做一个同类项目的时候,都会面临骨干可能离开了,这个知识就消失了,又或者机构负责人特别忙,根本就顾不过来的情况。新接手的人,往往没办法去承接这些知识,对组织的信息传递和知识积累都有很大影响。
ABC也面临同样的情况,所以我们去年底做了一个项目,就是梳理ABC自己的知识。
但梳理之后,我们得知大家在应用上还是有很大的困难。当时我们做出来的是一个基于飞书的大文档。这些文档层层嵌套,里面有一两百个小文档。对ABC每个咨询季招募的新志愿者来说,直接提供这样一个大的文档,阅读负担很大。
而且这些文档中的大部分知识,往往只有工作场景中才会用到。如果在培训中提供这样的文档,很多人在需要时已经想不起来了。
一方面,必须找到准确的人。如果这个人之前没有做过相关事情,或者太忙,新人可能得不到正确或完整的信息。以 ABC 为例,我们可能历史上已经做过几百个项目,有很多不同模块的项目经验,但基本上没有一个志愿者可以完全了解所有项目,也很难掌握机构的各个方面。
这种情况下,如果能有一个AI Bot有这一些信息和知识,那么就能够在一定程度上帮助我们提效。
而且,ABC数字化创造营的定位是为外部机构提供解决方案。如果我们自己都能用起来这套方案,那么之后也能够给大家提供给其他咨询机构。
四木相对论: 这个需求是刚性的。但我们没AI的技术经验,这件事又怎么解决?
而且,刚好在我们要动手做知识管理这件事的时候,Coze的国内版——扣子刚好上线了。这样的平台理论上不需要写代码,所以我们就开始找一些内部的同学一起研究这件事。
四木相对论:AI应用开发平台2023年初的时候就有一些。年底OpenAI 发了GPTs,又出现了几家。为什么选择了扣子?
Yvonne:我们在用扣子的时候,同时也调研了其他几家。当时会觉得,如果是小公司的产品,可能收费会比较快。大厂可能会在卷到后面的时候收费。
另一个就是担心小公司会倒闭。比如我们当时看到一款小公司的产品,已经商业化,一年收小几万块,但是这个公司我们不太了解背景,也不知道它未来会怎么发展。最后就决定还是看大公司的产品。
在大公司的产品里也没有太纠结。ABC很多文档本身就在飞书上,当时天然觉得飞书和扣子打通的概率相对会高一些,用起来会比较顺手。
Yvonne:说实话,当时扣子还比较单薄,不能直接插入飞书文档链接。我们应该将飞书文档下载成 PDF 或转换为 TXT,再导入到扣子中。
所以,我们第一个版本确实花了很多时间处理琐碎的工作。比如飞书文档里有大量的嵌套链接,需要一个一个打开整理,再转成 Word 或其他格式,单独导入扣子。
四木相对论:等于你们在自己做一个知识库的梳理工作。这里大概会有多少文档?怎样圈定范围?
Yvonne:圈定这个范围很重要,不仅影响我们的工作量,还关系到能否使用户得到满足的预期。
ABC 已经有 16 年的历史,积累的资料非常庞大。我们应该清晰定义Bot一开始能交付的内容,避免用户频繁提问却得不到答案的问题。
一期主要解决总社和各地分社的协同问题,文档范围集中在机构的基础信息和事务性内容,比如报销流程、开志愿者证明的流程、成熟的咨询流程和角色分工介绍等。这部分的内容最重要,因为机构需要持续招募志愿者,大家有必要了解这些。总社和分社之间的协同,也需要这一些内容。
但一期并不包括具体项目的知识资产。比如,某个项目中的客户问题和我们的解决方案,以及某些部门的业务经验,比如 PMO 的项目管理指南,这些内容都没有纳入在一期里。
一期的目标,主要是让更多分社和新加入的志愿者,快速了解 ABC 和总社的业务。
Yvonne:首先要了解这个场景的业务情况,所以我们找了ABC日常参与志愿者答疑较多的两位全职同事,请她们帮忙筛选大家询问频率最高的问题,从中挑出最重要的问题,再找到相关文档。
最后筛选了约 200 个文档,保留了 10 来个核心文档。这些文档很长,总字数有好几万。
而且,文档们是层层嵌套的。一级目录是基础介绍,二级是子项目,最多到三级。比如品牌宣传部,一级目录介绍品牌宣传部的职责,二级目录是年度规划,三级可能是具体的物料,比如 Logo 和模板。
当时遇到的问题是,这种层层嵌套的文档要不要全部整理。有些文档还嵌套了大量 PDF 文件,这些都需要额外处理。
还有一些图片,当时因为平台功能所限,我们还不可以使用 OCR 。整体进行了两轮处理。首先把首页所有内容整理成 Word 文件,导入扣子的后台。然后是二级页面的文档,我们筛选了一些最重要的,比如新人文档和报销流程,整理和导入。
Yvonne:处理数据花费了较多时间,整体算下来得一个多月。后续扣子平台在不断迭代,但一开始我们用的时候,只能输入 Word 格式。后来扣子刚刚能够支持多种格式输入的时候,效果也比较一般。
拿Excel举例,理想状态是,我们用的时候能够像 Excel 一样检索表格中的任意内容。实际上,扣子当时只能检索表格的一列,其他内容无法识别。
就等于说,一个表格中存储了小明的姓名、性别、年龄信息,必须搜索小明的名字才可以找到对应数据。如果搜索性别“男”,就找不到小明了。
最后我们没办法,就采用了一种简单粗暴的办法。就是把需要用的表格合并成一列,强制让扣子索引。
而且,我们还花了一些时间研究链接如何被机器人读取。链接只是其中一种格式,文档中还可能包含图像、表格、PDF、PPT等内容。
针对不同的格式,扣子的解析效果不太一样,当时出现各种Bug,我们只可以说摸索出一些使用规则,比如将链接统一用飞书文档导入,图像放入Word文档中。
四木相对论:听起来当时我们应该适应扣子平台的地方不少。后来这些体验有变好吗?
Yvonne:其实我在这一个项目中感受很深的一点是,虽然前期有点熬人,但扣子每个月的确都在快速迭代。比如最初,它的OCR功能对图片识别很差,后来,我们大家可以上传图片并为图片添加标签。
特别是在4到6月最近一段时间,我们明显感受到,每个月甚至每周扣子都会有一些迅速的迭代和升级。
Yvonne:比较大的更新,说实话还是模型层提供更多选择的那一次。当时我们尝试了不同的模型,确实发现新的模型在某些问题上的效果更好。
这些感受不是纯感性层面的。为了客观测试机器人Bot的效果,我们制作了一个20道题的测试集,类似于考卷。这个考卷主要考察三点:知识库的搭建方式、模型选用的内容、以及如何编写Prompt。
我们创建了四个版本,交叉使用了不同的知识库格式和模型类型。通过测试,我们最后选择了其中的一个组合,但这个组合仍然有优化空间。
Yvonne:当时在20道测试问题中,机器人Bot能回答大约一半,也就是50分吧,还是没有及格。
Yvonne:50分的Bot经常会胡言乱语。比如我们问一个基本问题:ABC的总部在哪,它编了一个朝阳区的地址出来,但我们的地址其实在海淀。
当时我们觉得,底线是希望这个Bot不要骗人,就希望它不知道答案的时候,就说不知道。基于这个目的,我们要求它认为置信度不高的东西,就不要再给出答案了,但是能指引志愿者去找官方邮箱。
这样做了之后,它确实不太会胡言乱语了,但它会经常告诉提问的人,这样的一个问题建议联系XXX。但有时候,这个XXX的联系方式也会查不到,说明我们的资料库存也要经常更新才行。
四木相对论:但我们最早的时候,已经和相关的内部员工一起筛选过资料库,理论上应该是准确的。
Yvonne:我们的一期产品,当时做的时候还面临一个比较大的困难点。就是当我们去了解什么方面的问题会被经常问到的时候,内部的员工也是很模糊的。
因为他平时收集问题的渠道也很零散,有的人在微信上问,有的人是在群里问,有的人可能是在邮箱里问他。如果直接去问,什么是你经常被问到的高频问题,他也回答不出来。
后面,我们大家都希望ABC的Bot能自己统计过去半年或者一年大家问到哪一些问题比较多。现在因为这一个项目的人员比较少,还处于待启动的状态。
Yvonne:我们现在用的功能相对还最简单,主要是Prompt+知识库+模型,没有把工作流这件事情弄得很重。用workflow的话,功能会增加,出问题的概率也会增加。
我们之前尝试了,中间插入几个节点去记数据,模型出来的答案反而出了问题。现在试下来,要有好效果,还是要在文档、数据层面下功夫,Prompt能做的事情也不是很多。
也就是10个问题中可以出8个准确可用的答案,剩下两个问题会回答它不知道,或者给到的回答没那么实用,但整体是可用的。
Yvonne:到了七、八月份,首先我们想花心思在内部推广一下,看大家用起来大概是怎样的效果。
第二件事是,之前的志愿者到期了,我们做了新的招募,换了新的小伙伴继续做Bot。整体这个项目组大概保持在5个人的范围,也都是兼职。
Yvonne:其实大部分都不是。一期产品有一些社会学、计算机或者商科背景的学生,还有一些产品经理和咨询从业者。
这个事情可能也和阶段有关,首先我们一期的产品做出来了一些东西,大家也会看明白这个事情到底在做什么。第二是这一年AI的变化还蛮大的,各个公司都在跟这件事。行业的热度也让我们招到更多对这件事感兴趣的人。
Yvonne:我们聊了一些在一线做咨询项目的志愿者。也是在这次访谈中发现,很多之前的知识文档,存在一个问题,就是生产的人和使用的人是两拨人。往往是生产的人生产了一大堆,但用的人感知很弱。
比如我们之前用的总社和分社协作文档,其实会在新人培训的时候对大家说有这个文档,日常更新的时候也会在群里说这件事。但在这次用户访谈的时候,就会发现很多人因为漏过消息,或者人员变动不记得有这个文档。所以,我们确实真的希望这个Agent或者说Bot能在机构里面用起来。
但产品被动地让别人去想起来用,大家都可能想不起来。我们现在希望让大家更容易地触达机器人,或者反向说,机器人能不能主动触达大家?
所以,我们还研究了推送的能力。也就是让一个Bot产品,主动给志愿者推送内容。
Yvonne:ABC有一个年历。现在是2024年底,年历上会有2025年的全年规划。也就是会列出1月10日这一周做志愿者招募,20日项目开启之类的信息。
我们把这个信息放在Bot里面,它每天有个时间点会推送,告诉有关人员说这一周有某个事情。
ABC的一个特点是,有一半的人基本是围绕项目工作的,他的工作和项目是强关联的。还有一半的人,比如品宣、研究部的同事,大家平时和项目的关联没有那么强,但他们也会很想了解这一个机构发生了什么,看看有什么和自己相关的事情。
我们也是想利用这样的一个机制,让这个机器人Bot成为整个机构的一个节点。
Yvonne:我们已做出来了。现在的推送结合了扣子的Workflow,但还没有正式推广。
目前微信推送有点难度,我们大家都希望Bot先主动在飞书里推送,飞书的解决方案我们已做完了。
整个看下来,我们一期时的调研比较多的是技术方案,包括怎么选模型,怎么去优化。二期反过来做了业务的部分。
一期的时候,我们得知数据才是最大的瓶颈。如果一个Bot里面的数据是不充分的,大家是用不起来的。哪怕告诉他,你这个模型很牛,或者是测试集上已经拿到这么高的分数了,可用的时候覆盖不了员工的真实工作场景,他还是会忘记,很难持续用起来。
Yvonne:对,如果能通过对内的合作,抽离出一套模版和方法论,就能够最终靠项目的方式对外输出了。我们最终的目标还是希望它能够在外部的公益机构用起来。
现在作为试水,我们找了ABC志愿者管理这个部门的同学,和他们一起把有价值的、和业务结合比较深的、适合放在Bot内的资料梳理出来。
目标是希望这个部门的同学以后做项目的时候,遇到一些不懂的资料,都可以优先来问这个Bot,感受到这个Bot里有比较深入业务的内容。
Yvonne:因为它相对来说是一个很成熟的部门,文档建设得比较好。和这个部门合作,大家要额外做的知识沉淀工作相对少,更多需要看怎么把这些知识结构化地放到 Bot里面。这一步我们现在有经验了。
第二,我们大家都希望能通过这一次的交互过程,出一套解决方案。这个解决方案的目标是,希望以后对外部其他机构提供Bot服务的时候,能快速地把我们应该的资料都列出来。
现在假设的客户画像是:知识管理背景不强的机构。比如,这个机构本身没什么知识沉淀,或者说沉淀了一些,但可能也是零散沉淀的。
所以这次我们大家都希望通过和内部的业务部门去对接,明白他们的业务和知识沉淀细节。然后我们再设计一套SOP。在这之后,我们就能做到,告诉客户建一个知识库有几个大的步骤,比如第一个步骤叫做「了解业务」,得知道哪些知识是值得被沉淀的,因为有可能知识超级多,但能够复用的知识没有那么多。
对每个机构来说,在大多数情况下要三、五个问题能够帮自己快速定位,哪些东西是值得被沉淀的。
Yvonne:我们大家都认为重要的东西,SOP是一种,关键步骤里面的关键资料(比如对接人、客户文档、核心数据)也是一种,还有复盘也很重要。
我们觉得应有一个结构化的问题list,可以帮助到客户。这个list是一个模板化的东西,以后客户可能就对着list回答一些问题,就能很快地沉淀1个最基础版本的知识库了。
Yvonne:不影响。只要文档的结构模块这么多东西都在,它影响的无非是你上传的格式。
关于他们是不是用飞书这样的一个问题,想得还是有点多。大部分公益机构可能还在一个很早期的阶段。现在大家并不是说已经选用了企业微信或者飞书,在上面写了一大堆的文档。往往是,这个机构就没有选用这个步骤,或者它这个步骤是很去中心化的。
比如说小A用惯了腾讯文档,就在腾讯文档上记一点东西,小B用的是飞书,他就在飞书上记录,小C用的是印象笔记,它是个离线的工具。还有很多人用的是word和Excel,随机记一下。大家可能就用网盘管理。
也就是说,大部分机构的数据是孤立的,不存在组织的倾向。还没有讲过要把所有的资料放在哪个地方,怎么管理怎么用,其实没有这样的规划。
四木相对论:这种数字化基础,如果是一些大的公司去服务,会说太难做了,或者不值得做。
Yvonne:也有好的方面。公益机构和企业有点不一样,企业是往往已规划好了,肯定有很多的历史包袱在。公益机构做啥都是从0~1,包袱也比较小,不太存在说我从A平台迁到B平台工作量太大这种事。各有各的bug,但各有各的好处。
第二个优势是可能大家在数据上会开放一些。对公益机构来说,一些受助者的数据可能是相对敏感的,但是大家对做项目的sop和经验,不会心态很保守。他们不像很多公司,会觉得这一些数据不应该被机器拿走学习,反而会觉得也是一种贡献。
四木相对论:回到我们自己做的事。如果我们内部只用扣子,还会存在什么担忧吗?比如你提到费用,扣子现在也收费。
Yvonne:我们之前会有点担忧收费这件事,但现阶段是觉得,用量可能也要达到几万的或者几十万的级别,才会有一个很明显的费用。这个数据目前还是有距离的。
现在最大的问题,还是没有很多人在用这样的产品。很多Bot和所谓的智能体都存在这样的一个问题。就我们正真看到的活跃度来看,各种Bot都有很大的提升空间。
我们做用户访谈的时候,已经很明确地给了用户场景。告诉他,他是一个机构的志愿者,如果有什么样的问题可以问。但其实,很多人在用的时候真的不知道要问些什么。首先他需要回想,另外他还是没习惯,对这种工具的信任感还是弱的。
信任感弱指的是,他会觉得Bot回答不出来他的问题,得先试才能知道。但要做到试试看,很多人也要迈出很大一步。
Yvonne:对外推广有聊一些,但是没有大范围的做。现在的潜在客户有几种不一样的反馈。大多依旧是觉得这个东西很高端,但是自己的机构可能还连知识库都没有。或者说,他们的知识是分散的,Bot和机构当前的发展状态有一点脱节。
其实ABC秋季有两个项目在给客户做知识库,也就是做Bot的前续阶段。因我们也发现了其实机构在大多数情况下要AI Bot,但大家也不可能越过知识库直接去做Bot应用。
第二类机构比较先进。我遇到过一个机构,他们的负责人本身是有咨询背景的老前辈,说他已经在自己的机构推广Bot,但在推广中也遇到困难。就是产品做出来了,但用户习惯还没培养起来。他的感受是,要让用户习惯这件事,还是需要有更多人投入。
这件事也让我们得知自己的问题是有共性的。很多普通一线的员工,你让他学一个新工具,他还是有很高的心理门槛。比如用着觉得不好用了,你又让他再去学怎么调试,这些事情都是很困难的。
大部分人的本职工作其实和IT没关系。使用数字化工具,对他们来说可能是一个额外的工作量。
再加上,这类产品早期的学习门槛也很高。我们觉得未来ABC再去提供这类咨询服务的时候,重要的不仅是交付工具,也需要出示后面的培训以及运维。
当然这件事对我们的人力来说,还是很有挑战的,目前是想看后面能不能够做到至少培训或者运维一个月。
四木相对论:这样的一种情况也超出了很多人,尤其是AI和互联网从业者的日常认知。
Yvonne:这两年常常看到很多人在说AI会取代自己,或者让自己的工作没有价值。但我觉得,可能有这种感觉的人大概率还是互联网从业者。
走出这一些行业,遇到更多的普通用户就会发现,一个新技术驱动的工具,大家要用起来不仅有学习门槛,还有心理门槛,信任也是一个很大的关卡。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
实探哈尔滨红专街早市:游客推行李箱来打卡,零下十几度现场依然“人挤人”
直线cm涨停,豆包概念爆了!逾千亿元资本开支,字节跳动“ALL IN AI”
热搜!500万粉丝网红偷税121万:收入超千万,申报个税收入竟未达5000元
上海一老人名下突然多了套房!女儿一筹莫展......不少人都有类似情况
首发499元 光威与金百达推出DDR5-6000 32GB套装:国产DDR5颗粒
中国大陆首条 TFT 基 Micro LED 量产线及首台量产产品点亮
一加Ace5系列官宣12月底发布 平板和Buds Ace2耳机同步亮相