Everything you care about in one place

Follow feeds: blogs, news, RSS and more. An effortless way to read and digest content of your choice.

Get Feeder

blog.cnbang.net

bang’s blog

Get the latest updates from bang’s blog directly as they happen.

Follow now 29 followers

Latest posts

Last updated 14 days ago

做好 AI Agent 最重要的是什么

14 days ago

是评测,或者说是基准测试(Benchmark)。 为什么? 因为我们已经有足够的技术方案,只要定义清楚我们要解决的问题(基准测试),就能解决它。 OpenAI 姚顺雨近期提出“AI下半场”的概念,我们已经拥有了 存储大量知识的预训练模型(先验知识),并知道怎么持续训练它 通过这个模型做思考推理并执行动作的 Agent 能力(环境) 强化学习算法 为预训练模型补充先验知识 →...

Browser Use 原理解析-为一个小项目能融1700万美元

about 1 month ago

Browser Use 成为近期的明星项目,两个人的纯技术开源项目,核心代码 8000 行,融资 1700 万美元,让人好奇它具体做了什么,为什么这么值钱。 做了什么? 简单说 Browser Use 让大语言模型对网页的识别和操作的效率、准确度变高了,有利于...

GTC 2025 见闻

about 1 month ago

参加了 NVidia GTC (GPU Technology Conference),由于英伟达的地位,这会也已经成了 AI 开发者最大的交流会,很多公司和业内人士都会过来分享、交流,大概写下会议中相关见闻感受。 Keynote 老黄没提词器洋洋洒洒讲了两个多小时,出了小状况还会开个小玩笑,大佬范很足,也满满的理工男既视感,非常多的数字和未经包装的细节,不过感觉会讲得有些啰嗦。 总的来说,核心论证的是世界对 GPU...

LangChain 作者聊 AI Agent 的几个相关课题

about 2 months ago

参加 NVIDIA GTC 会,其中一场听了 LangChain 的作者 Harrison Chase的分享《AI Agents in Production Insights...

聊聊 Agent 架构 – Single Agent / MCP / Multi-Agent

about 2 months ago

近期在业务中尝试落地 Agent,有一个架构设计问题,应该用单 Agent 架构,还是多 Agent 架构? Single Agent 先来看看单 Agent 架构,在之前的文章里,OpenHands 这里的架构是典型的单...

细看 Claude 3.7 两个重要的 Benchmark:SWE-Bench & TAU-Bench

2 months ago

Claude 3.7 Sonnet 在万众期待中推出了,为什么期待,因为从 Claude 3.5 Sonnet 发布后,一直是AI Coding Agent 领域最好的模型,综合效果没有对手,后面陆续推出的 o1/o3/DeepSeek...

DeepSeek R1 是怎么训练出来的?- R1 论文精读

3 months ago

背景 DeepSeek 里程碑式的爆火,有必要学习下是怎么回事。 大语言模型的发展,之前一直是以预训练为主,虽然性能一直在提升,但主要是小修小补,跨越式的 GPT5 一直出不来。OpenAI 在 24 年 9 月发布的 o1...

500 美元一个月的 Devin 是怎么实现的

4 months ago

使用 这两天有机会体验了下 Devin,感受到一些小小的震撼。 虽然之前已经用过 cursor 和 windsurf,它们用的模型都一样,理论上能完成的任务和智力是差不多的,但用 Devin 感受还是不太一样,有种 AGI 已经实现了的感觉。 Cursor...

2024

4 months ago

又到了 31 号这天,回想起来 24 年过得很快,回顾过去一些事,有的感觉就前几周的事,一看原来已经过去四五个月。照例写篇年终博客记录下。 学习 去年说今年要学下AI,总算有点进展,虽然进度不理想,但也算迈开了步伐。 学习如果没有一些事项引导,就很难进行,最好的学习方式是直接在做的过程中学,真正进去做这个事的过程中会不断遇到一些问题,解决这些问题过程就是很自然的逐渐学习和深入的过程。 没这个条件的话,就退而求其次,用分享输出的方式引导学习,所以我时隔四五年不写博客,今年又开始写了,主要就是让我的学习有个地方做完整的记录,有相应的引导。 在软件工程时代,一个功能能不能实现,原理链路大概是怎样,基本都能知道,上一轮以推荐为主的 AI 也大致能了解原理。而这次的生成式...

带文字的 AI 图片生成是怎么做的?

5 months ago

近期即梦上线了 AI 图片生成文字的能力,在生成海报、封面以及各种场景下渲染文字效果是非常不错的。最开始AI生成的图片中,涉及到文字的基本都是不能看的乱码,需要针对性训练优化才能做到生成清晰的文字并融入图片。那这里是怎么做优化的?对这个原理比较好奇,尝试通过几篇公开论文学习下相关实现思路原理。这个话题资料太少,只能看看论文,算法基础不牢,有些靠猜,有理解错误的地方请指正。 大致思路:Recraft 目前生成文字(英文)最好的模型是 Recraft,官方有篇文章 《How To Create SOTA Image Generation...

客户端大模型进展怎样了?

5 months ago

近期苹果发布的新品,无论是 iPhone 还是 Mac,都一改之前挤牙膏的风格,在最低配机器上都加大了内存,目的很明确,就是支撑 iPhone 和 Mac 上的端 AI 大模型。过去一年,AI手机、AI电脑的概念也一度在炒,在之前写的文章也说过,在客户端上跑大模型,一定是未来趋势。那目前端上大模型情况怎样? 应用近况 总的来说,各家陆续出了不少小模型,相关工具链也能支持它们在客户端上跑起来,但可用的应用几乎没见到。...

谁在用 AI 图片生成

8 months ago

AIGC 图片生成的技术,基本是22年开始爆发,Midjourney 2022年7月推出,Stable Diffusion 2022年8月推出,至今两年发展迅速,已经广泛在很多场景应用,但这个市场上是谁在用图片生成,用来做什么,一直以来在我认知里都有些模糊,这篇文章做下相关调研。 线上线下所有用到图片的地方,都有 AI 图片生成的应用空间,而 AI 图片生成的能力,也会创造出新的领域和行业,就目前能看到的已经在应用的场景,归归类可以分为:生产力工具、大众娱乐、探索创作。 ToB:生产力工具 把...