Follow feeds: blogs, news, RSS and more. An effortless way to read and digest content of your choice.
Get Feederedony.ink
Get the latest updates from Shadow Walker 松烟阁 directly as they happen.
Follow now 18 followers
Last updated 3 days ago
3 days ago
有了MCP,还需要深入研究Agent吗?|唐霜本文讨论了MCP(大模型与工具连接的通用协议)和Agent技术之间的区别及联系。虽然MCP解决了大模型调用工具的问题,但并未解决理解用户真实意图、规划合理任务、阶段化螺旋式任务执行以及自动执行等问题。相比之下,Agent通过记忆、多轮交流、验证和动态调整等机制来更准确地理解和实现用户目标。文章还提到了MCP与Agent的关系,指出MCP可以提升Agent在工具调用层面的能力,但Agent是一个包含调度系统、执行系统和感知系统的综合体系。此外,文章提到未来可能需要一种新的协议架构来标准化不同厂商Agent之间的交互,并预测随着Agent网络的发展,将形成一个自决策自执行的社会网络。原文链接:有了MCP,还需要深入研究Agent吗?|唐霜我其实并不看好远程办公文章讨论了远程办公的利弊,尤其是在后疫情时代。作者刘润指出,尽管远程办公在疫情期间流行起来,并且有很多明显的好处,比如节省通勤时间、提高某些员工的工作效率等,但它也增加了沟通的成本,减少了团队之间的互动和创造力。因此,许多公司开始取消远程办公模式,要求员工返回办公室工作。文章最后提到,真正的创造力往往来源于人与人之间的频繁互动。原文链接:我其实并不看好远程办公人生的意义是什么?这是我听过最好的答案本文探讨了现代人的焦虑与困境,以及如何从中国传统智慧中找到解药。作者赵昱鲲指出,我们这一代人具有“西方脑、中国心”的特点,导致在面对心理问题时产生额外的冲突。他强调,人生的意义并非单纯通过科学可以解答,而是需要通过实际行动和内心感受来实现。中国文化中的整体性思维、辩证型思维、正面情感以及对现实生活的重视,为解决现代人的心理问题提供了有效的方法。原文链接:人生的意义是什么?这是我听过最好的答案怎样避免成为【喂养一线城市】的饲料说实话我自己就是90后小镇青年在大学毕业后来到大城市工作的,随着2016年美团王兴提出“互联网依靠PC网民及移动互联网用户快速增长的人口红利期已过”,互联网进入了“下半场”,我就知道,我可能是上了最后一班时代的快车往后的世代,并不是说机会就完全没有,而是当时代从巨大的增量变成存量竞争,意味着市面上存在“跃迁”的机会总量更少,且获得相同机会需要付出的努力要更多,所以为什么你会发现后来职场充斥了内卷、PUA、35岁歧视等乱象...有人说现在也有很多创新的机会啊,比如AI,但你要知道,至少当前AI的机会和绝大多数普通人是没关系的,比如在AI行业内最引以为豪的就是效能的提升,据说一个AI团队但凡超过40人,在业内都是要被笑话的所以,在这个“青黄不接”的期间,作为背井离乡来大城市打工的普通人,如果还在用上一代的生活理念来指导你自己,很可能就会被“大城市”吃干抹净,比如陷入“中产返贫”三件套所以,建议你可以考虑参考以下6个生活建议:1,存钱,尽可能多存,有多少存多少我曾数次分享过很多金融界大师给年轻人的建议,比如世界最大的对冲基金之一桥水的创始人达利欧和著名投资人吉姆·罗杰斯,都是建议年轻人要存钱“要存钱,尽你所能去多存钱,尤其在你年轻的时候。”,“要考虑你的储蓄,想想你有多少存款。思考这个问题的最好方式是想一想我每个月花多少钱?我已经存了多少钱?重视你的储蓄。因为储蓄就是自由和安全。”2,用存的钱来购买资产存钱不是最终目的,因为钱会“变毛”,持有现金是为了购买资产,而买资产的第一原则是不要亏损(巴菲特),你需要购买足够好的资产来避免被通货膨胀吃掉,并且接受“慢慢变富”(巴菲特X2)我个人是在5-10年的维度主要定投黄金和红利资产来抵抗通胀(我个人的想法不构成任何建议),而你也需要找到适合你自己的资产要知道,赚钱效能是分不同等级的,最高的是资产,其次是土地,再次才是劳动3,远离会让你亏钱的东西巴菲特老爷子说投资最重要的原则只有两个,第一是不要亏钱,第二是永远记住第一条原则。现在最可能会让你亏钱的幻觉是什么?是别人告诉你的让你觉得“应该”有的东西,那些到手就贬值的东西,以下列举部分,你可以不同意,也可以评论补充:市面上99%的房子、非顶级的中低端奢侈品、汽车为主的非必要大件、高溢价潮牌、大部分主动投资类基金、迷信海外学历尤其以就业为目的、不合适的人生伴侣…那什么会让你绝对不亏呢?其实你肉身来到“大城市”,这里最“值钱”的是你身边那些有趣、励志、经历丰富的朋友,记住,你认识了谁,和谁在一起,才是不论你身处大城市还是老家,都能记住一辈子的财富“人的本质,是他一切社会关系的总和。”4,充分利用时间杠杆投资自己每个人的财富可以相差1万倍,但时间都只有24个小时,而且没有任何办法再次补充。如果你想缩小和巨富们的差距,就只能在公平的赛场和他们竞争,也就是“24小时”这个赛场他们24小时可以赚1亿美金,但只能读1本书,你24小时只能赚100美金,但你也能读1本书。对普通人来讲,比钱更珍贵的其实就是你的时间,你每天节省下来的时间花在什么地方,很大程度上累积起来的作用,会比加薪更能改变你的生活轨迹现在停下刷短视频的手,把你的“碎片时间”积累起来,培养你自己的技能,升级思维5,成功一个能独立生存的公民我们从小受的教育很大一部分目的就是把你我这样的普通人,培养成一个合格的打工人,这是工业时代的教育形式,它的目的并不是让你成为一个具有独立思考能力,能独立处理自己生活问题的公民所以真的进入社会后,对于社会运转的基本底层规律,例如法律、医学、经济金融…你如果不是学相关专业,基本是一无所知的,甚至很多相关专业的学生也只是一知半解。所以这些内容你得自己花时间补起来我就亲眼见过普通人在自己权益遭受侵害时是多么不知所措的,就像徐峥的《逆行人生》扮演的外卖员那样,被车撞倒后第一时间想到的还是赶紧去“干活”,而不是如何维护和保护好自己6,保持健康比任何事都重要当时代拔足狂奔的高速发展期过去,各种冲突和乱象都会爆发。但你永远要记住,在任何决策中,身体健康都是第一位的。只要你坚持待在牌桌上,上帝总会重新发牌举个极端的例子,司马懿不就是靠熬死了曹家三代人最终才有机会建立了晋朝…记住,生一次大病就可能让你返贫,而且会极大降低你的生活幸福度,尤其是年轻人,不要等真的发生了你才知道健康的优先级“好好吃饭,坚持锻炼,睡个好觉,几乎能带你走出生活中的任何困境。”原文链接:怎样避免成为【喂养一线城市】的饲料 说实话我自己就是90后 - 即刻App亲密关系中,不是只有“出轨”才叫背叛亲密关系中的背叛不只包括出轨,忽视需求、违背承诺等也可能构成背叛,即“依恋伤害”。依恋伤害指在关键时刻感受到的被抛弃或背叛,可能源于看似微不足道的小事,对个人和关系产生负面影响,如颠覆对关系的看法、怀疑自我价值等。修复依恋伤害需双方共同努力,包括理解和表达情绪、重建信任。情绪聚焦疗法(EFT)可有效解决此类问题,重建更成熟的信任。原文链接:亲密关系中,不是只有“出轨”才叫背叛
8 days ago
语录(凭借记忆复述,没有任何公司敏感数据)- 其实很多事情,做的时候不去想过回报,只是相信这是需要去做的,坚持去做,有一天结出的果实,会让我们无比感动。- 很多人都在担心,AI在带来好处的同时,会对人类社会有超越想象的破坏力。而我是一个坚定的人类相信者,我相信在人与机器的竞争中,人类一定是最后的胜利者。你解决不了,一定有人解决得了;我们这代人解决不了,下一代一定有人能解决得了。- 前几年,人跟AlphaGo下围棋的时候,很多人觉得很沮丧,连围棋都下不过机器。其实这很正常,围棋就是为人类设计,因为你会下臭棋,因为你会生气,这才是下棋的乐趣,干嘛要跟机器去比谁下围棋下得好。人类要学会的不是与机器抗争,而是去驾驭好AI,用好AI,把AI变成人类的朋友、伙伴,而不是敌人。- AI是智能,智能是改变世界的工具,而我一直相信,人类拥有机器和动物不具备的,那就是智慧,而智慧是改变智能的思想。智能来自于大脑,而智慧来自于心脏。更何况今天人类对自己大脑的使用还不到7%,明天的AI也许会部分取代或者超越今天人类的智力和很多的能力,但我还是相信无法超越人类的智慧。- 我们应该帮助人类活得更好、活得更久。我们不是去追求让机器像人,而是让机器去理解人类,像人类一样去思考,做人类做不到的事情。我们应该让机器去破解生命的密码,帮助人类战胜疾病,我相信人类的生命,寿命的长度和质量一定会因为AI有巨大的突破,熬过十年,我们可能就对癌症说拜拜。- 科技要给每一个普通人的生活带来变革,要让每一个普通的人有尊严。- 所谓的高科技,绝不仅是征服星辰大海,更应该呵护人间烟火。我对阿里的印象是刚入职看到几句话:因为相信,所以简单我们的征程是星辰大海先叠个甲:当下的阿里系有诸多争议,甚至招人痛恨。我承认它的不完美,在痛苦的日常工作会对所谓的「阿里味道」心生厌恶和难忍谩骂。总而言之,这篇文章是一段关于自己人生5年的记忆和感慨,无意做「脑袋」、「屁股」相关的口舌之争。为什么有这篇文章,可能是因为自己很久很久没有被富有人格魅力的领导者的一段公开(半公开)演讲鼓舞到了,马老师不愧是当年的商界领袖,风采依旧。出于工作的压力,关于这5年的记忆和思考大多离散,索性这篇文章就「意识流」一些,笔随心动,想到哪里算哪里:从员工的角度来讲,阿里是一家伟大的公司:信任式管理让自己可以放开手脚;相对前列的薪酬待遇让人可以安心投入事业;聚是一团火、散是满天星的情谊和胸怀让人放心交出后背;看过很多公司的使命、愿景、价值观,我还是更喜欢阿里这种富有江湖侠义气息的:让天下没有难做的生意,科技向善,普惠金融,为了无法「计算」的价值马老师的高峰低谷,以及他对自己事业和思考的坚持,让我得出了一个结论:能成事之人的不同之处在于眼界、认知、运气和坚持如果有一天我彻底离开了阿里系,我会给自己和未来保留哪些阿里的印记信任式的处世之道相信相信的力量培养和锻炼眼界、认知和坚持坚定需要去做的事情,相信美好而微小的改变如果有一天我彻底离开阿里系,我会去除哪些不好的阿里味道少一些傲慢,大多数人不需要被「教做人」杜绝PUA,视人为人,管理不应该基于信息差和权力少一点会议,多一点异步沟通先写到这里吧,后面保持更新!
16 days ago
破产后的几点建议 - 即刻App这年头,破边的不要太多。破产后的几点建议:1.千万不要睡天桥、大街、网吧、公园2.过夜就去机场大厅,这里不仅有地方睡觉,还供应热水,手机充电甚至连无线网都可以3.睡醒了直接去麦当劳,找个别人喝剩的咖啡杯,然后去前台无限续杯4.中午在附近找一家酒店,很多房间退完房门都是开着的,找个没人的房间就能冲个热水澡5.下午可以去海底捞吃免费的小零食,晚上去盒马超市无限试吃,等服务员将没卖完的面包丢掉时,你就直接打包带走6.肚子饿了就去肯德基吃别人剩下的汉堡薯条可乐鸡块7.洗衣服,直接用酒店自助洗衣服,携程四钻的,都有自助洗衣机,带洗衣液,洗完还有烘干机,晚上一般都没啥人用。原文链接:这年头,破边的不要太多。破产后的几点建议: 1. 千万不要 - 即刻AppHongKongDoll,愚人节露脸了,还蛮可爱的 - 即刻AppHongKongDoll,愚人节露脸了,还蛮可爱的原文链接:HongKongDoll,愚人节露脸了,还蛮可爱的 - 即刻App整理的微信读书上值得反复看的 10...
20 days ago
MCP的出现,标志着AI从「模型能力竞争」转向「生态协同共建」。它不仅是技术协议,更是一种「连接范式」——通过标准化降低集成成本,通过开源吸引多元参与,最终让AI像水电一样便捷接入各类数据与工具。无论是开发者、企业还是普通用户,MCP都在重塑人与AI、AI与世界的交互方式,其价值将随着智能体生态的爆发持续显现,所以这篇文章打算从MCP来龙去脉和MCP可视化调试两个方面进一步的研究MCP。1. MCP来龙去脉1.1 起源:解决LLM集成碎片化的「AI连接器」需求技术背景:LLM落地的核心痛点2023年前后,随着ChatGPT等大语言模型(LLM)爆发,企业和开发者发现:数据孤岛:LLM需接入本地文件、数据库、云端API等多源数据,但每个数据源接口不同(如SQL、REST API、GraphQL),集成成本高;工具割裂:调用代码补全、支付处理、文档生成等工具需单独开发适配器,且依赖特定厂商(如OpenAI Function Call仅支持自有生态);厂商锁定:切换LLM供应商(如从GPT-4到Claude)需重新开发整套接口,灵活性差。Anthropic(由OpenAI前员工创立,专注安全AI的公司)意识到,需要一个标准化协议来统一LLM与外部资源的交互方式,类似USB-C统一电子设备接口,这就是MCP的核心设想。核心理念:「连接即标准化」MCP的设计目标不是替代现有API,而是在其上层构建抽象层:对LLM:提供统一的「上下文获取」和「工具调用」接口,无需关心底层数据源格式;对开发者:只需开发一次MCP服务器,即可接入所有支持协议的客户端(如Claude Desktop、未来的ChatGPT插件系统);对企业:确保数据在自有基础设施内安全流转,避免敏感数据强制上云(如本地数据库通过MCP服务器加密连接)。1.2 发展历程:从技术验证到生态扩张(2023-2025年)萌芽期(2023年):技术原型与核心架构设计Anthropic内部研发:针对Claude模型的企业级应用(如代码审查、文档生成),开发初代MCP原型,解决本地代码库、Jira等工具的接入问题;关键突破:定义「客户端-服务器」架构,分离LLM宿主(如Claude Desktop)与数据源/工具(MCP服务器),通过标准化JSON格式通信。正式发布(2024年Q1):开源协议与生态启动1.0规范开源:Anthropic在GitHub发布MCP v1.0,包含核心接口定义(如context.fetch()获取数据、tool.execute()调用操作)、安全指南(数据加密、权限控制);首款客户端落地:Claude Desktop内置MCP客户端,支持接入官方服务器(如本地文件、GitHub、Slack),用户可通过自然语言指令让Claude访问本地文档或发送邮件;开发者工具链:推出MCP SDK(Python/TypeScript)、示例服务器模板、调试工具MCP...
26 days ago
一、什么是MCPMCP 起源于 2024 年 11 月 25 日 Anthropic 发布的文章:Introducing the Model...
27 days ago
《📖人一旦开了窍,人生就开了挂》书摘 - 即刻App允许一切如其所是,也允许一切事与愿违如果你没有按你真正想要的那种方式去生活,你的灵魂每天都会喊疼成熟的重要标志是拥有翻篇的能力。谁能给你带来最多的平静,谁就应该得到你最多的时间。命运选择给某某好运气,并不一定是他有多优秀,而是他在遇到问题时,没有躲。行动是产生结果的唯一方式,可惜的是,大多数人在“想”的过程中就已经消耗了100%的精力。失败不是成功之母,成功才是成功之母。不要依赖别人灌输给你的想法和观念去生活,不要遵循别人设计好的软件使用习惯去应用,也不要沉迷于通过消费、娱乐来获取多巴胺。我们无法在消极的想法里活出积极的人生,也无法在拧巴的状态中活出通透的人生很多事情做不成,缺的不是时间和机会,而是专心致志。如果道路本身很美,不要问它通往何方。——要做过程热爱、有生命力的事情"累了就躺一躺,不丢人“——雷军老师 68 17原文链接:《📖人一旦开了窍,人生就开了挂》书摘 允许一切如其所是, - 即刻App很多事情确实经历过一遍以后,再经历就很从容了 - 即刻App很多事情确实经历过一遍以后,再经历就很从容了。每一段过往都是成长的养料,我们要努力做的就是尽可能从中汲取足够多的营养。原文链接:很多事情确实经历过一遍以后,再经历就很从容了。每一段过往都是 - 即刻App有个事儿挺有意思的...
about 1 month ago
如何守护少年心气这篇文章探讨了不同年龄段的人在生活和职业中的不同心态。年轻人往往对未来充满憧憬但又感到迷茫,而中年人则通过资源交换来稳固自己的地位,但也可能失去年轻时的激情。文章还提到,毕业后的几年对一个人的职业生涯和气质有着决定性的影响。作者认为,20-24岁是探索世界的年纪,而25-29岁则开始理解社会运作的方式,但可能会失去一些活力。文章最后强调,现实主义的武器(如金钱)对于保护理想主义的理想至关重要。原文链接:如何守护少年心气餐饮大单品门店的时代谢幕了 - 即刻App这篇文章讨论了餐饮企业是否应该从单一品类扩展到多品类的问题。文章通过分析椒爱水煮鱼的案例,指出餐饮企业需要根据经营条件和环境变化来决定是否扩展品类。单一品类在客流充足时有优势,但当客流下降时,扩展品类可以吸引更多顾客。此外,文章还提到除了扩品类外,还需要扩大场景和时段以增加收入。最后,文章强调了企业经营的核心是建立、保持和发挥优势,而不仅仅是品牌和认知的问题。原文链接:餐饮大单品门店的时代谢幕了 两年前,我们开始服务一个专做水 - 即刻App找不到有价值感的理由做一件事,但又觉得这件事确实应该去做 - 即刻App洛怀找不到有价值感的理由???一件事,但又觉得这件事确实应该去做,那就找一些没价值感的理由也可以,对理由放宽再放宽,比如我就是闲的没事干,我就是为了装逼,我就是功利,我就是虚荣心作祟,我就是为了让xxx看到,我就是为了向xx证明自己,什么都行,你得有个具体的理由,然后别审判自己的理由,接受它带来的推动。做任何事都会遇到很多阻碍,有很多人会审判你,你就先别当自己的绊脚石和判官了。原文链接:找不到有价值感的理由做一件事,但又觉得这件事确实应该去做,那 - 即刻App第一性原理 - 即刻App职场第一性原理是价值,而不是努力;成长第一性原理是反思,而不是经历;投资第一性原理是风控,而不是高回报;招聘第一性原理是筛选,而不是培养;管理第一性原理是激发善意,而不是约束员工;产品第一性原理是击穿痛点,而不是功能叠加;定位第一性原理是心智占领,而不是聚焦细分;利润第一性原理是成本效率,而不是高价暴利;降本第一性原理是消除浪费,而不是减损品质;创业第一性原理是解决真痛点,而不是满足私欲望;战略第一性原理是聚焦关键突破,而不是路径规划;竞争第一性原理是赢得用户,而不是胜过对手;增长第一性原理是价值空间,而不是流量堆砌;组织第一性原理是持续进化,而不是架构流程;营销第一性原理是缩短决策链路,而不是洗脑说服;广告第一性原理是信号刺激,而不是创意精美;品牌第一性原理是构建信任,而不是声量轰炸;创新第一性原理是范式突破,而不是参数进步;定价第一性原理是心理账户,而不是成本加成;供应链第一性原理是保证确定性,而不是追求低价;领导力第一性原理是创造信念感,而不是有人追随;服务第一性原理是产生依赖,而不是言听计从。原文链接:第一性原理...
about 2 months ago
RAG(Retrieval-Augmented Generation)是一种结合了信息检索(Retrieval)和生成(Generation)技术的方法,主要用于提高文本生成的准确性和丰富度。这个方法基于大规模预训练语言模型(LLM),通过在生成文本的过程中,从外部知识库或文档集中检索相关的信息,再将这些信息整合到生成文本中。RAG的核心组成部分:检索器(Retriever):功能:在大量的文档或知识库中,找到与输入提示(Prompt)或者问题相关的信息片段。实现:通常使用向量检索技术,如经过训练的双塔模型(双编码器)来表示查询和文档的向量,然后使用最近邻搜索来检索相关文档。生成器(Generator):功能:基于检索到的信息,生成符合上下文且回答明确的文本。这个过程通常由一个大型预训练语言模型(如GPT-3或T5)完成。实现:接收输入提示和检索到的信息,使用这些信息作为额外的上下文来生成更准确和具体的文本。工作流程:输入提示:用户输入一个提示或者问题。检索步骤:系统使用输入提示来从外部文档集中检索相关的信息。生成步骤:将检索到的信息与输入提示一起输入到生成模型中,由模型生成最终的输出。Generator本质上是prompt template应用,RAG工程实践更多的关注如何搭建Retriever的pipeline,这边文章主要就是讲讲这块的实践。搜索经典的搜索系统从文本、图像和上下文中构建简单的表示形式,并建立高效的索引以从中进行搜索。尽管这些系统可以扩展到处理大量内容,但它们通常在处理内容的含义方面存在困难,往往停留在表面层次。经典搜索和语义搜索的主要区别在于使用向量vector来表示和处理搜索相应的数据,使用embedding(嵌入技术)非常强大,因为它可以用于表示多种类型数据(文本、音频、图片、视频等等),并支持多种类型的查询(有没有发现大模型的多模态其实没有那么神秘)。RAG工程架构先以文本数据相关的RAG为例,我将简单的RAG工程实现架构分为4个pipeline:document chunk splitter pipeline(vector database index pipeline),构建查询数据的索引indicesfirst phase retrieve pipeline,从语义相似性的角度进行粗召回阶段second...
about 2 months ago
100% Unemployment该页面讨论了关于使用机器人军队的法律和道德问题。随着技术的进步,自主武器系统的出现引发了对于战争法则、责任归属以及人工智能决策透明度等方面的担忧。原文链接:hyponymous :: 100% UnemploymentWith AI You Need to Think Much Bigger...
about 2 months ago
至少有两种时间交换模式:「线性交换」和「复利交换」至少有两种时间交换模式:「线性交换」和「复利交换」线性时间交换: 价值 = 时间 × 时薪复利时间交换: 价值 = (1+r)^时间前者,无论你多么聪明、多么高效、多么专业,只要你的价值创造依然与你的「在场」紧密绑定,你就仍然被困在一个严格的价值上限之内。即使笼子镀了金,那仍然是笼子。后者,是一种你不必亲自在场,价值仍能持续产生的关系,是任何能将你的智力、创造力与时间解耦的方式。这不仅是一个经济问题,更是一个存在问题。当我们将有限的生命转化为可以脱离在场而持续产生价值时,在某种程度上实现了对死亡的超越。我们的思想、创造和影响可以在我们离开后继续存在,继续创造价值。热门评论第一种是时间换钱,比如出租车司机、快递员、职场程序员、职场管理者、餐厅服务员等。第二种是资产生钱,比如土地公、投资人、有 IP 的内容创作者、有用户持续付费的产品人等。或许 AI...
about 2 months ago
经过了前面一系列关于DeepSeek的研究:关于DeepSeek我是怎么研究的(1):通识RLM推理模型;关于DeepSeek我是怎么研究的(2):了解推理模型背后的模仿人类的背景知识,system 1 & system 2 thinking;关于DeepSeek我是怎么研究的(3):RLM推理机制的详细拆解;关于DeepSeek我是怎么研究的(4):DeepSeek-V3模型的详细分析;DeepSeek模型的研究系列也接近尾声,不过DeepSeek系列还是会继续写下去,后续更新计划会围绕DeepSeek Day上开源项目展开。相比V3模型R1就相对简单很多,这篇文章我打算研究一下DeepSeek-R1模型:R1模型背景大型语言模型(LLMs)近年来发展迅速逐渐接近人工通用智能(AGI)。后训练阶段是整个训练流程中的一个重要组成部分,它可以提高模型在推理任务上的准确度,使其与社会价值观保持一致,并适应用户偏好,而且与预训练相比,它所需的计算资源相对较少。OpenAI的o1系列模型通过增加推理链(Chain-of-Thought, CoT)的长度,即推理过程,实现了推理时间的扩展,从而在数学、编程和科学推理等任务上取得了显著的进步。然而,有效的测试时间扩展仍然是研究界面临的一个开放性问题。R1模型概述DeepSeek-R1-ZeroDeepSeek-R1-Zero是一个基础模型,通过大规模的强化学习(RL)训练而成,未经过监督微调(SFT)。它展示了强大的推理能力,通过RL自然地涌现出了许多强大而有趣的推???行为。例如,在AIME 2024基准测试中,DeepSeek-R1-Zero的pass@1得分从15.6%提高到了71.0%,并且通过多数投票进一步提高到了86.7%,与OpenAI-o1-0912的表现相当。然而,DeepSeek-R1-Zero也面临着一些挑战,比如可读性差和语言混合问题。DeepSeek-R1为了解决DeepSeek-R1-Zero的问题并进一步提高推理性能,团队引入了DeepSeek-R1,它结合了多阶段训练和冷启动数据。具体来说,研究团队首先收集了数千个冷启动数据来对DeepSeek-V3-Base模型进行微调。然后,他们执行了类似于DeepSeek-R1-Zero的推理导向RL。在RL过程接近收敛时,研究团队通过对RL检查点进行拒绝采样,结合来自DeepSeek-V3的监督数据(涵盖写作、事实问答、自我认知等领域),然后对DeepSeek-V3-Base模型进行了重新训练。经过两次微调和两次RL阶段的训练后,最终得到的DeepSeek-R1模型在各种推理任务上的表现与OpenAI-o1-1217相当。R1并不像R1-Zero那样完全依赖于强化学习过程。训练过程分成四个阶段:冷启动:为了避免RL训练从基础模型开始的早期不稳定冷启动阶段,构建并收集少量长的CoT数据来微调DeepSeek-V3-Base作为RL的起点。推理导向的强化学习:在冷启动数据上微调DeepSeek-V3-Base后,应用与DeepSeek-R1-Zero中相同的RL方法训练。本阶段侧重于增强模型的推理能力,尤其是在编码、数学、科学和逻辑推理等推理密集型任务中,这些任务涉及具有明确解决方案的明确定义的问题。当RL提示涉及多种语言时,CoT经常表现出语言混合现象。为了减轻语言混合问题,在RL训练过程中引入了一种语言一致性奖励。拒绝抽样和监督微调:当2中的RL过程趋于收敛时,利用训练出的临时模型生产用于下一轮训练的SFT数据(600K推理数据)。与1中的冷启动数据区别在于,此阶段既包含用于推理能力提升的600k数据,也包含200k推理无关的数据。使用这800k样本的精选数据集对DeepSeek-V3-Base进行了两个epoch的微调。适用于全场景的强化学习:在3中微调模型的基础上,使用全场景的强化学习数据提升模型回复的有用性和无害性。对于推理数据,遵循 DeepSeek-R1-Zero 的方法,利用基于规则的奖励来指导数学、代码和逻辑推理领域的学习过程。对于一般数据,采用基于模型的奖励来捕捉复杂和细微场景中的人类偏好。R1模型方法Reinforcement Learning...
2 months ago
我相见恨晚的 50 个清洁好物 items Details by 即刻 date 2025-03-04 13:47:08 source 我相见恨晚的...