Everything you care about in one place

Follow feeds: blogs, news, RSS and more. An effortless way to read and digest content of your choice.

Get Feeder

blog.cnbang.net

bang’s blog

Get the latest updates from bang’s blog directly as they happen.

Follow now 36 followers

Latest posts

Last updated 4 months ago

Agent 模型的思维链是什么

4 months ago

关于 Agent 模型的思维链,之前被几个高大上的词绕晕了,claude 提出 Interleaved Thinking(交错思维链),MiniMax M2 追随和推动标准化,K2 叫 Thinking-in-Tools,Deepseek V3.2 写的是...

2025

4 months ago

工作 今年是神奇的一年。 年中离开了字节,出来试试。感谢字节,字节的组织文化已经是很好,但目前看起来任何文化都架不住人多带来的各种问题。AI 快速发展,想换个方式试试。 1月用上了 devin,这是首次接触 Agent,确实是被它震惊了,给一个任务能像人一样一直找解决方案解决问题,大模型有这么强的理解推理能力,当时我的日记就写了“被 Agent 统治的未来不远了”。可惜了 devin 因为定位和产品能力等问题没有出圈和发展,到了3月 manus...

Agent 模型怎么训练?学习 Kimi K2 论文

9 months ago

在 Agent 使用的模型上,Claude 一直独一档,Deepseek、豆包、Gemini 等模型跟它都有很大差距,很多号称 benchmark 接近和超过 Claude 的实际效果都不行。 K2 出来后在 Agent...

AI Coding 与 AI 视频:从生产力工具到大众内容平台

11 months ago

数字世界的创作和内容,最重要的是程序和视频。程序负责逻辑、互动;视频负责信息的表达、感知。 2024年2月 Sora 概念发布,6月可灵发布,AI 视频开始发展。同年 6月 Claude 3.5 Sonnet 发布,8月 Cursor 接入,AI...

做好 AI Agent 最重要的是什么

about 1 year ago

是评测,或者说是基准测试(Benchmark)。 为什么? 因为我们已经有足够的技术方案,只要定义清楚我们要解决的问题(基准测试),就能解决它。 OpenAI 姚顺雨近期提出“AI下半场”的概念,我们已经拥有了 存储大量知识的预训练模型(先验知识),并知道怎么持续训练它 通过这个模型做思考推理并执行动作的 Agent 能力(环境) 强化学习算法 为预训练模型补充先验知识 →...

Browser Use 原理解析-为一个小项目能融1700万美元

about 1 year ago

Browser Use 成为近期的明星项目,两个人的纯技术开源项目,核心代码 8000 行,融资 1700 万美元,让人好奇它具体做了什么,为什么这么值钱。 做了什么? 简单说 Browser Use 让大语言模型对网页的识别和操作的效率、准确度变高了,有利于...

GTC 2025 见闻

about 1 year ago

参加了 NVidia GTC (GPU Technology Conference),由于英伟达的地位,这会也已经成了 AI 开发者最大的交流会,很多公司和业内人士都会过来分享、交流,大概写下会议中相关见闻感受。 Keynote 老黄没提词器洋洋洒洒讲了两个多小时,出了小状况还会开个小玩笑,大佬范很足,也满满的理工男既视感,非常多的数字和未经包装的细节,不过感觉会讲得有些啰嗦。 总的来说,核心论证的是世界对 GPU...

LangChain 作者聊 AI Agent 的几个相关课题

about 1 year ago

参加 NVIDIA GTC 会,其中一场听了 LangChain 的作者 Harrison Chase的分享《AI Agents in Production Insights...

聊聊 Agent 架构 – Single Agent / MCP / Multi-Agent

about 1 year ago

近期在业务中尝试落地 Agent,有一个架构设计问题,应该用单 Agent 架构,还是多 Agent 架构? Single Agent 先来看看单 Agent 架构,在之前的文章里,OpenHands 这里的架构是典型的单...

细看 Claude 3.7 两个重要的 Benchmark:SWE-Bench & TAU-Bench

about 1 year ago

Claude 3.7 Sonnet 在万众期待中推出了,为什么期待,因为从 Claude 3.5 Sonnet 发布后,一直是AI Coding Agent 领域最好的模型,综合效果没有对手,后面陆续推出的 o1/o3/DeepSeek...

DeepSeek R1 是怎么训练出来的?- R1 论文精读

about 1 year ago

背景 DeepSeek 里程碑式的爆火,有必要学习下是怎么回事。 大语言模型的发展,之前一直是以预训练为主,虽然性能一直在提升,但主要是小修小补,跨越式的 GPT5 一直出不来。OpenAI 在 24 年 9 月发布的 o1...

500 美元一个月的 Devin 是怎么实现的

over 1 year ago

使用 这两天有机会体验了下 Devin,感受到一些小小的震撼。 虽然之前已经用过 cursor 和 windsurf,它们用的模型都一样,理论上能完成的任务和智力是差不多的,但用 Devin 感受还是不太一样,有种 AGI 已经实现了的感觉。 Cursor...