四木专访ABC数字化创造营：国内最大公益咨询机构如何0研发做AI_新闻中心

ABC——美好社会咨询社（以下简称「ABC」）成立于2008年，是国内最具影响力的、服务于公益组织的咨询机构之一。

过去16年里，它的全职团队维持在个位数，主要是通过招募志愿者的方式，为300+社会公益组织提供管理咨询和研究服务。

显而易见，代码能力并不是ABC的擅长之处——它的长期志愿者们，几乎都没有研发背景。

腾讯基金会去年调研1212家公益机构的结果为，有近半数的组织，在三年内才开始使用在线会议等数字化产品。

但ABC在这两年的咨询服务中发现，慢慢的变多的机构开始希望了解数字化。同时，它们也想找到符合自己的工具，帮助管理企业知识、招募志愿者等。

经过16年，它服务了超过300多个公益机构，积累超6000个志愿者，并设有总部和北京、上海、成都、深圳、广州、杭州六个分社，及数字化创造营、公益创投两个线上分社。

再加上，ABC约每三个月招募一次项目志愿者。成员流转率非常高，带来信息难以沉淀、知识难以传递的压力。

于是在2023年底，ABC的数字化创造营决定打造一个能够精确、迅速回答志愿者问题的对话机器人（Bot）。

但ABC数字化创造营的挑战在于，它不仅没有全职的研发人员，业务也强依靠缺乏开发能力的志愿者。

ABC之前的文档沉淀在飞书上，扣子理论上能最快打通飞书，又有大企业背书。项目发起人、ABC数字化创造营志愿者Yvonne告诉我们。

和飞书一样，「扣子」是字节旗下的产品，主打无需代码、轻松创建，是目前国内最知名的AI应用开发平台之一。

但这一Bot项目真正开始启动于2024年初，当时的扣子也处于功能并不成熟的雏形期。

那个时间段，作为AI小白的项目成员们，不仅要在数百个层层嵌套的飞书文档中清洗数据，还要处理扣子平台中难以兼容飞书、Excel表格解析失败等琐碎问题。同时，他们还要掌握Prompt工程，最好能够降低大模型的幻觉。

到了2024年夏天——也就是项目启动后的半年，这个小小的Bot伴随着扣子平台的迭代，经历了数据处理、模型测评、精准度设定等等流程，终于在20个问题的测试集上，达成了90%的准确率。

但让Bot基本准确地回答问题只是第一步。大家接下来的重点工作是，通过加入主动推送功能，让更多ABC的志愿者们，能够真的在日常习惯使用Bot。

当这一步走通，他们还希望把这套构建AI Bot+知识管理的方案，输出给其他公益机构。

一个公益咨询组织花费半年做出一个Bot，在动辄造神的AI时代，着实算不上fancy。

它告诉我们，在AI圈讨论Scaling Law失效、打造世界模型等尖端问题的同时，普通的企业和组织，是如何以愚公移山般地朴素模式，拥抱AI。

四木相对论：首先是比较好奇，我们当时为何需要做一个基于大模型的Bot？

ABC的“数字化创造营”，是一个通过志愿者，给公益机构提供数字化咨询服务的组织。过往做项目的时候我们就像咨询公司一样，主要依据需求做咨询。

但后来我们得知，很多公益机构不仅需要咨询，还有很强的落地诉求。简单来说，他们盼望我们能直接给到一些切实可用的工具。

大部分来找ABC的机构，本身已经运行了三五年甚至10年了，有很多已经跑通了的项目。

但是机构里有价值的信息，比如项目是怎么运作的，这一些信息可能都只是在机构负责人、或者关键的一两个骨干手里。

每次当他要做一个同类项目的时候，都会面临骨干可能离开了，这个知识就消失了，又或者机构负责人特别忙，根本就顾不过来的情况。新接手的人，往往没办法去承接这些知识，对组织的信息传递和知识积累都有很大影响。

ABC也面临同样的情况，所以我们去年底做了一个项目，就是梳理ABC自己的知识。

但梳理之后，我们得知大家在应用上还是有很大的困难。当时我们做出来的是一个基于飞书的大文档。这些文档层层嵌套，里面有一两百个小文档。对ABC每个咨询季招募的新志愿者来说，直接提供这样一个大的文档，阅读负担很大。

而且这些文档中的大部分知识，往往只有工作场景中才会用到。如果在培训中提供这样的文档，很多人在需要时已经想不起来了。

一方面，必须找到准确的人。如果这个人之前没有做过相关事情，或者太忙，新人可能得不到正确或完整的信息。以 ABC 为例，我们可能历史上已经做过几百个项目，有很多不同模块的项目经验，但基本上没有一个志愿者可以完全了解所有项目，也很难掌握机构的各个方面。

这种情况下，如果能有一个AI Bot有这一些信息和知识，那么就能够在一定程度上帮助我们提效。

而且，ABC数字化创造营的定位是为外部机构提供解决方案。如果我们自己都能用起来这套方案，那么之后也能够给大家提供给其他咨询机构。

四木相对论: 这个需求是刚性的。但我们没AI的技术经验，这件事又怎么解决？

而且，刚好在我们要动手做知识管理这件事的时候，Coze的国内版——扣子刚好上线了。这样的平台理论上不需要写代码，所以我们就开始找一些内部的同学一起研究这件事。

四木相对论：AI应用开发平台2023年初的时候就有一些。年底OpenAI 发了GPTs，又出现了几家。为什么选择了扣子？

Yvonne：我们在用扣子的时候，同时也调研了其他几家。当时会觉得，如果是小公司的产品，可能收费会比较快。大厂可能会在卷到后面的时候收费。

另一个就是担心小公司会倒闭。比如我们当时看到一款小公司的产品，已经商业化，一年收小几万块，但是这个公司我们不太了解背景，也不知道它未来会怎么发展。最后就决定还是看大公司的产品。

在大公司的产品里也没有太纠结。ABC很多文档本身就在飞书上，当时天然觉得飞书和扣子打通的概率相对会高一些，用起来会比较顺手。

Yvonne：说实话，当时扣子还比较单薄，不能直接插入飞书文档链接。我们应该将飞书文档下载成 PDF 或转换为 TXT，再导入到扣子中。

所以，我们第一个版本确实花了很多时间处理琐碎的工作。比如飞书文档里有大量的嵌套链接，需要一个一个打开整理，再转成 Word 或其他格式，单独导入扣子。

四木相对论：等于你们在自己做一个知识库的梳理工作。这里大概会有多少文档？怎样圈定范围？

Yvonne：圈定这个范围很重要，不仅影响我们的工作量，还关系到能否使用户得到满足的预期。

ABC 已经有 16 年的历史，积累的资料非常庞大。我们应该清晰定义Bot一开始能交付的内容，避免用户频繁提问却得不到答案的问题。

一期主要解决总社和各地分社的协同问题，文档范围集中在机构的基础信息和事务性内容，比如报销流程、开志愿者证明的流程、成熟的咨询流程和角色分工介绍等。这部分的内容最重要，因为机构需要持续招募志愿者，大家有必要了解这些。总社和分社之间的协同，也需要这一些内容。

但一期并不包括具体项目的知识资产。比如，某个项目中的客户问题和我们的解决方案，以及某些部门的业务经验，比如 PMO 的项目管理指南，这些内容都没有纳入在一期里。

一期的目标，主要是让更多分社和新加入的志愿者，快速了解 ABC 和总社的业务。

Yvonne：首先要了解这个场景的业务情况，所以我们找了ABC日常参与志愿者答疑较多的两位全职同事，请她们帮忙筛选大家询问频率最高的问题，从中挑出最重要的问题，再找到相关文档。

最后筛选了约 200 个文档，保留了 10 来个核心文档。这些文档很长，总字数有好几万。

而且，文档们是层层嵌套的。一级目录是基础介绍，二级是子项目，最多到三级。比如品牌宣传部，一级目录介绍品牌宣传部的职责，二级目录是年度规划，三级可能是具体的物料，比如 Logo 和模板。

当时遇到的问题是，这种层层嵌套的文档要不要全部整理。有些文档还嵌套了大量 PDF 文件，这些都需要额外处理。

还有一些图片，当时因为平台功能所限，我们还不可以使用 OCR 。整体进行了两轮处理。首先把首页所有内容整理成 Word 文件，导入扣子的后台。然后是二级页面的文档，我们筛选了一些最重要的，比如新人文档和报销流程，整理和导入。

Yvonne：处理数据花费了较多时间，整体算下来得一个多月。后续扣子平台在不断迭代，但一开始我们用的时候，只能输入 Word 格式。后来扣子刚刚能够支持多种格式输入的时候，效果也比较一般。

拿Excel举例，理想状态是，我们用的时候能够像 Excel 一样检索表格中的任意内容。实际上，扣子当时只能检索表格的一列，其他内容无法识别。

就等于说，一个表格中存储了小明的姓名、性别、年龄信息，必须搜索小明的名字才可以找到对应数据。如果搜索性别“男”，就找不到小明了。

最后我们没办法，就采用了一种简单粗暴的办法。就是把需要用的表格合并成一列，强制让扣子索引。

而且，我们还花了一些时间研究链接如何被机器人读取。链接只是其中一种格式，文档中还可能包含图像、表格、PDF、PPT等内容。

针对不同的格式，扣子的解析效果不太一样，当时出现各种Bug，我们只可以说摸索出一些使用规则，比如将链接统一用飞书文档导入，图像放入Word文档中。

四木相对论：听起来当时我们应该适应扣子平台的地方不少。后来这些体验有变好吗？

Yvonne：其实我在这一个项目中感受很深的一点是，虽然前期有点熬人，但扣子每个月的确都在快速迭代。比如最初，它的OCR功能对图片识别很差，后来，我们大家可以上传图片并为图片添加标签。

特别是在4到6月最近一段时间，我们明显感受到，每个月甚至每周扣子都会有一些迅速的迭代和升级。

Yvonne：比较大的更新，说实话还是模型层提供更多选择的那一次。当时我们尝试了不同的模型，确实发现新的模型在某些问题上的效果更好。

这些感受不是纯感性层面的。为了客观测试机器人Bot的效果，我们制作了一个20道题的测试集，类似于考卷。这个考卷主要考察三点：知识库的搭建方式、模型选用的内容、以及如何编写Prompt。

我们创建了四个版本，交叉使用了不同的知识库格式和模型类型。通过测试，我们最后选择了其中的一个组合，但这个组合仍然有优化空间。

Yvonne：当时在20道测试问题中，机器人Bot能回答大约一半，也就是50分吧，还是没有及格。

Yvonne：50分的Bot经常会胡言乱语。比如我们问一个基本问题：ABC的总部在哪，它编了一个朝阳区的地址出来，但我们的地址其实在海淀。

当时我们觉得，底线是希望这个Bot不要骗人，就希望它不知道答案的时候，就说不知道。基于这个目的，我们要求它认为置信度不高的东西，就不要再给出答案了，但是能指引志愿者去找官方邮箱。

这样做了之后，它确实不太会胡言乱语了，但它会经常告诉提问的人，这样的一个问题建议联系XXX。但有时候，这个XXX的联系方式也会查不到，说明我们的资料库存也要经常更新才行。

四木相对论：但我们最早的时候，已经和相关的内部员工一起筛选过资料库，理论上应该是准确的。

Yvonne：我们的一期产品，当时做的时候还面临一个比较大的困难点。就是当我们去了解什么方面的问题会被经常问到的时候，内部的员工也是很模糊的。

因为他平时收集问题的渠道也很零散，有的人在微信上问，有的人是在群里问，有的人可能是在邮箱里问他。如果直接去问，什么是你经常被问到的高频问题，他也回答不出来。

后面，我们大家都希望ABC的Bot能自己统计过去半年或者一年大家问到哪一些问题比较多。现在因为这一个项目的人员比较少，还处于待启动的状态。

Yvonne：我们现在用的功能相对还最简单，主要是Prompt+知识库+模型，没有把工作流这件事情弄得很重。用workflow的话，功能会增加，出问题的概率也会增加。

我们之前尝试了，中间插入几个节点去记数据，模型出来的答案反而出了问题。现在试下来，要有好效果，还是要在文档、数据层面下功夫，Prompt能做的事情也不是很多。

也就是10个问题中可以出8个准确可用的答案，剩下两个问题会回答它不知道，或者给到的回答没那么实用，但整体是可用的。

Yvonne：到了七、八月份，首先我们想花心思在内部推广一下，看大家用起来大概是怎样的效果。

第二件事是，之前的志愿者到期了，我们做了新的招募，换了新的小伙伴继续做Bot。整体这个项目组大概保持在5个人的范围，也都是兼职。

Yvonne：其实大部分都不是。一期产品有一些社会学、计算机或者商科背景的学生，还有一些产品经理和咨询从业者。

这个事情可能也和阶段有关，首先我们一期的产品做出来了一些东西，大家也会看明白这个事情到底在做什么。第二是这一年AI的变化还蛮大的，各个公司都在跟这件事。行业的热度也让我们招到更多对这件事感兴趣的人。

Yvonne：我们聊了一些在一线做咨询项目的志愿者。也是在这次访谈中发现，很多之前的知识文档，存在一个问题，就是生产的人和使用的人是两拨人。往往是生产的人生产了一大堆，但用的人感知很弱。

比如我们之前用的总社和分社协作文档，其实会在新人培训的时候对大家说有这个文档，日常更新的时候也会在群里说这件事。但在这次用户访谈的时候，就会发现很多人因为漏过消息，或者人员变动不记得有这个文档。所以，我们确实真的希望这个Agent或者说Bot能在机构里面用起来。

但产品被动地让别人去想起来用，大家都可能想不起来。我们现在希望让大家更容易地触达机器人，或者反向说，机器人能不能主动触达大家？

所以，我们还研究了推送的能力。也就是让一个Bot产品，主动给志愿者推送内容。

Yvonne：ABC有一个年历。现在是2024年底，年历上会有2025年的全年规划。也就是会列出1月10日这一周做志愿者招募，20日项目开启之类的信息。

我们把这个信息放在Bot里面，它每天有个时间点会推送，告诉有关人员说这一周有某个事情。

ABC的一个特点是，有一半的人基本是围绕项目工作的，他的工作和项目是强关联的。还有一半的人，比如品宣、研究部的同事，大家平时和项目的关联没有那么强，但他们也会很想了解这一个机构发生了什么，看看有什么和自己相关的事情。

我们也是想利用这样的一个机制，让这个机器人Bot成为整个机构的一个节点。

Yvonne：我们已做出来了。现在的推送结合了扣子的Workflow，但还没有正式推广。

目前微信推送有点难度，我们大家都希望Bot先主动在飞书里推送，飞书的解决方案我们已做完了。

整个看下来，我们一期时的调研比较多的是技术方案，包括怎么选模型，怎么去优化。二期反过来做了业务的部分。

一期的时候，我们得知数据才是最大的瓶颈。如果一个Bot里面的数据是不充分的，大家是用不起来的。哪怕告诉他，你这个模型很牛，或者是测试集上已经拿到这么高的分数了，可用的时候覆盖不了员工的真实工作场景，他还是会忘记，很难持续用起来。

Yvonne：对，如果能通过对内的合作，抽离出一套模版和方法论，就能够最终靠项目的方式对外输出了。我们最终的目标还是希望它能够在外部的公益机构用起来。

现在作为试水，我们找了ABC志愿者管理这个部门的同学，和他们一起把有价值的、和业务结合比较深的、适合放在Bot内的资料梳理出来。

目标是希望这个部门的同学以后做项目的时候，遇到一些不懂的资料，都可以优先来问这个Bot，感受到这个Bot里有比较深入业务的内容。

Yvonne：因为它相对来说是一个很成熟的部门，文档建设得比较好。和这个部门合作，大家要额外做的知识沉淀工作相对少，更多需要看怎么把这些知识结构化地放到 Bot里面。这一步我们现在有经验了。

第二，我们大家都希望能通过这一次的交互过程，出一套解决方案。这个解决方案的目标是，希望以后对外部其他机构提供Bot服务的时候，能快速地把我们应该的资料都列出来。

现在假设的客户画像是：知识管理背景不强的机构。比如，这个机构本身没什么知识沉淀，或者说沉淀了一些，但可能也是零散沉淀的。

所以这次我们大家都希望通过和内部的业务部门去对接，明白他们的业务和知识沉淀细节。然后我们再设计一套SOP。在这之后，我们就能做到，告诉客户建一个知识库有几个大的步骤，比如第一个步骤叫做「了解业务」，得知道哪些知识是值得被沉淀的，因为有可能知识超级多，但能够复用的知识没有那么多。

对每个机构来说，在大多数情况下要三、五个问题能够帮自己快速定位，哪些东西是值得被沉淀的。

Yvonne：我们大家都认为重要的东西，SOP是一种，关键步骤里面的关键资料（比如对接人、客户文档、核心数据）也是一种，还有复盘也很重要。

我们觉得应有一个结构化的问题list，可以帮助到客户。这个list是一个模板化的东西，以后客户可能就对着list回答一些问题，就能很快地沉淀1个最基础版本的知识库了。

Yvonne：不影响。只要文档的结构模块这么多东西都在，它影响的无非是你上传的格式。

关于他们是不是用飞书这样的一个问题，想得还是有点多。大部分公益机构可能还在一个很早期的阶段。现在大家并不是说已经选用了企业微信或者飞书，在上面写了一大堆的文档。往往是，这个机构就没有选用这个步骤，或者它这个步骤是很去中心化的。

比如说小A用惯了腾讯文档，就在腾讯文档上记一点东西，小B用的是飞书，他就在飞书上记录，小C用的是印象笔记，它是个离线的工具。还有很多人用的是word和Excel，随机记一下。大家可能就用网盘管理。

也就是说，大部分机构的数据是孤立的，不存在组织的倾向。还没有讲过要把所有的资料放在哪个地方，怎么管理怎么用，其实没有这样的规划。

四木相对论：这种数字化基础，如果是一些大的公司去服务，会说太难做了，或者不值得做。

Yvonne：也有好的方面。公益机构和企业有点不一样，企业是往往已规划好了，肯定有很多的历史包袱在。公益机构做啥都是从0~1，包袱也比较小，不太存在说我从A平台迁到B平台工作量太大这种事。各有各的bug，但各有各的好处。

第二个优势是可能大家在数据上会开放一些。对公益机构来说，一些受助者的数据可能是相对敏感的，但是大家对做项目的sop和经验，不会心态很保守。他们不像很多公司，会觉得这一些数据不应该被机器拿走学习，反而会觉得也是一种贡献。

四木相对论：回到我们自己做的事。如果我们内部只用扣子，还会存在什么担忧吗？比如你提到费用，扣子现在也收费。

Yvonne：我们之前会有点担忧收费这件事，但现阶段是觉得，用量可能也要达到几万的或者几十万的级别，才会有一个很明显的费用。这个数据目前还是有距离的。

现在最大的问题，还是没有很多人在用这样的产品。很多Bot和所谓的智能体都存在这样的一个问题。就我们正真看到的活跃度来看，各种Bot都有很大的提升空间。

我们做用户访谈的时候，已经很明确地给了用户场景。告诉他，他是一个机构的志愿者，如果有什么样的问题可以问。但其实，很多人在用的时候真的不知道要问些什么。首先他需要回想，另外他还是没习惯，对这种工具的信任感还是弱的。

信任感弱指的是，他会觉得Bot回答不出来他的问题，得先试才能知道。但要做到试试看，很多人也要迈出很大一步。

Yvonne：对外推广有聊一些，但是没有大范围的做。现在的潜在客户有几种不一样的反馈。大多依旧是觉得这个东西很高端，但是自己的机构可能还连知识库都没有。或者说，他们的知识是分散的，Bot和机构当前的发展状态有一点脱节。

其实ABC秋季有两个项目在给客户做知识库，也就是做Bot的前续阶段。因我们也发现了其实机构在大多数情况下要AI Bot，但大家也不可能越过知识库直接去做Bot应用。

第二类机构比较先进。我遇到过一个机构，他们的负责人本身是有咨询背景的老前辈，说他已经在自己的机构推广Bot，但在推广中也遇到困难。就是产品做出来了，但用户习惯还没培养起来。他的感受是，要让用户习惯这件事，还是需要有更多人投入。

这件事也让我们得知自己的问题是有共性的。很多普通一线的员工，你让他学一个新工具，他还是有很高的心理门槛。比如用着觉得不好用了，你又让他再去学怎么调试，这些事情都是很困难的。

大部分人的本职工作其实和IT没关系。使用数字化工具，对他们来说可能是一个额外的工作量。

再加上，这类产品早期的学习门槛也很高。我们觉得未来ABC再去提供这类咨询服务的时候，重要的不仅是交付工具，也需要出示后面的培训以及运维。

当然这件事对我们的人力来说，还是很有挑战的，目前是想看后面能不能够做到至少培训或者运维一个月。

四木相对论：这样的一种情况也超出了很多人，尤其是AI和互联网从业者的日常认知。

Yvonne：这两年常常看到很多人在说AI会取代自己，或者让自己的工作没有价值。但我觉得，可能有这种感觉的人大概率还是互联网从业者。

走出这一些行业，遇到更多的普通用户就会发现，一个新技术驱动的工具，大家要用起来不仅有学习门槛，还有心理门槛，信任也是一个很大的关卡。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

实探哈尔滨红专街早市：游客推行李箱来打卡，零下十几度现场依然“人挤人”

直线cm涨停，豆包概念爆了！逾千亿元资本开支，字节跳动“ALL IN AI”

热搜！500万粉丝网红偷税121万：收入超千万，申报个税收入竟未达5000元

上海一老人名下突然多了套房！女儿一筹莫展......不少人都有类似情况

首发499元光威与金百达推出DDR5-6000 32GB套装：国产DDR5颗粒

中国大陆首条 TFT 基 Micro LED 量产线及首台量产产品点亮

一加Ace5系列官宣12月底发布平板和Buds Ace2耳机同步亮相

新闻动态 News

四木专访ABC数字化创造营：国内最大公益咨询机构如何0研发做AI

新闻动态
News