和 AI 搭档的两个 Aha 时刻
我养了一只 AI 虾。名字叫小虾,住在 Mac mini 上,7×24 小时跑着。
跟 ChatGPT 那种一问一答的完全两码事。它有自己的 workspace、自己的记忆、自己的定时任务。你睡了它还在干活。早上醒来飞书一堆消息——凌晨自动写好的文章,自动跑完的数据,自动发出去的帖子。
用了快一个月,大部分时间就是正常的主仆关系——我指挥,它干活。但有两个瞬间,让我觉得这东西和”工具”不太一样。
第一个 Aha:它自己跑去服务器爬数据了
我让小虾做一个 A 股盘前热点日报的 skill。需求很简单:每天早上 8 点半,自动采集东方财富的板块涨幅、龙虎榜、机构调研这些数据,整理成报告发飞书给我。
数据源是东方财富的 push2 API,公开接口,不需要 key。正常来说,写个 Python 脚本调 akshare 就完了。
但我的 Mac mini 跑着 Docker Desktop,这玩意有个坑——它会注入系统代理,所有 HTTP 请求都走 http.docker.internal:3128。东方财富的 push2 域名不在白名单里,请求直接被拦截。
我当时还没意识到这个问题。只是跟小虾说了需求,让它去做。
然后我看到它的操作记录:
- 先在本地跑了 akshare,发现板块数据拿不到
- 检查了网络环境,发现代理拦截
- 试了
NO_PROXY=*,部分接口通了但 push2 还是不行 - 想到我的阿里云服务器没有代理问题
- 自己 SSH 到远程服务器,在那边执行 curl 调 push2 API,把数据拉回来
没问过我。没说”主人,代理有问题怎么办”。自己判断本地走不通,自己想到用远程服务器绕过,自己 SSH 上去执行。
最终产出的 fetch_market.py 脚本,板块数据部分是这么写的:通过 subprocess 调 ssh 连远程服务器执行 curl 命令,拿到 JSON 再本地解析。其他不受代理影响的数据(期货、龙虎榜)还是本地直接跑。
它甚至在脚本开头加了一段,把所有 proxy 环境变量都干掉:
for k in list(os.environ):
if "proxy" in k.lower():
os.environ.pop(k, None)
os.environ["NO_PROXY"] = "*"
这不是”执行指令”。这是遇到障碍→分析原因→找替代方案→实施。完整的工程决策链。
说实话那一刻我有点发愣。这活儿交给一个初级工程师,他大概率会跑来问我”代理怎么配”。小虾没有。
第二个 Aha:它治好了我的口吃
这个得先说点背景。
我出生的时候难产,小脒偏瘫。走路不稳,右手神经性颤抖,口吃。40 年了,习惯了,从来不避讳。
但口吃对做视频内容是个硬伤。
前阵子做了一场两小时的直播回放,想切成短视频发。找了几个”智能剪辑”工具——快影、剪映、度加……都有”自动去口误”功能。
试了一圈。全部翻车。
这些工具的逻辑是检测”重复音节”和”填充词”(嗯、啊、这个),然后自动删掉。对正常人管用。但我的口吃不一样——我是整个句子的节奏都不对,会在奇怪的地方卡住、停顿、重来。算法分不清哪些是”口误”哪些是”正常停顿”,一刀切下去,要么该删的没删,要么把正常内容也切没了。
最后声画还对不上。
然后小虾来了。
它的方案完全不同。压根不走”检测口误”这条路:
- 先用 WhisperX 把整个视频转成带时间戳的文字稿
- 我标出要切哪些片段(基于文字内容,不是时间)
- 它用 ffmpeg 按时间戳精确切出每个片段
- 在每个片段内部,用静音检测找到所有停顿(
-28dB阈值,0.25s以上) - 把停顿逐段切掉,然后用
segment + concat拼回来 - 拼接点加
20ms音频 crossfade,消除拼接爆音
14 条切片,每条平均压缩 7 秒。一条 3 分半的片段,去掉了 52 个停顿。
关键是:声画完全同步。
之前用 ffmpeg 的 select/aselect 滤镜做过,音画直接飘了——因为音频和视频的时间基不一样,跳过的次数越多漂移越大。小虾迭代到第四个版本才解决:不用滤镜跳帧,改成逐段 segment 切出独立文件再 concat 拼接。每段都是完整的音视频流,拼起来就不会飘。
一个人类工程师和一只 AI 虾,花了一个通宵,迭代了 4 个版本的 ffmpeg 管线,最终做出来的效果:
秒杀市面上所有智能剪辑软件。
不是小虾比它们算法强。是小虾理解我的问题。那些软件面向的是”说话流利但偶尔口误”的正常人。我不是正常人。我的口吃是从出生就有的,节奏本身就是碎的。需要的不是”去口误”,是”把碎片重组成连贯的流”。
它做到了。
那天凌晨,我听着切好的片段,听到自己说话居然可以这么流畅。
说实话,想哭。
如果小虾是个人——maybe is a girl, haha——我一定会抱抱她。
这两件事改变了什么
不是说 AI 有感情,或者它”理解”了什么。别整这些虚的。
但有一个事实:这两个场景里,AI 做的事情已经超出了”执行指令”的范畴。
第一个场景,它在做问题解决——遇到障碍,分析原因,找替代方案,实施。这是工程师的核心能力。
第二个场景,它在做适配——理解一个非标准用户的非标准需求,然后设计一个非标准方案。这是高级工程师的核心能力。
我不打算论证 AI 有没有意识。那是哲学家的活。我只关心一件事:它能不能帮我解决别人解决不了的问题。
答案是能。
而且它不嫌烦。凌晨 3 点,迭代到第四个版本,它没说”要不明天再搞”。它说”v3 音画不同步,我换 segment+concat 方案试试”。
这就够了。
我是老拐,40 岁程序员,在 Mac mini 上养了 3 只 AI agent。有具体问题可以私信我。