Everything you care about in one place

Follow feeds: blogs, news, RSS and more. An effortless way to read and digest content of your choice.

Get Feeder

data4fun.cc

Data4Fun

Get the latest updates from Data4Fun directly as they happen.

Follow now 13 followers

Latest posts

Last updated 25 days ago

AI 新手村:Embedding

25 days ago

AI 新手村:Embedding Embedding 随着大型语言模型 (LLM) 的兴起,Embedding 成为了一个备受关注的热词。那什么是 embedding 呢?embedding 中文翻译过来是嵌入,本质上就是一个向量,类似[0.1,0.8,0.6….]这样的形式,在很多文章里,我们可以看到嵌入向量(embedding vector)这样的描述。 Embedding...

AI新手村:Atlas入门

about 1 month ago

MongoDB 作为非结构化数据库的代表,在作为存储载体的数据库家族中一直重要的位置,但是在实际的业务场景中,尤其是互联网业务中,大多数都是 MySQL 或者 PostgresSQL 这种结构化的数据库作为主要技术选型,MongoDB稍显小众。 不过随着 LLM 的火爆,向量数据库作为 RAG 的后端存储,开始频繁出现在各种技术文章里,主流的向量数据如下图所示,在这张表中其实还落了 MongoDB,虽然性能上它不是最强的,但作为个人开发和测试的场景完全不输表中的数据库。...

长沙印象

about 2 months ago

长沙,一座一座既熟悉又陌生的城市,高中的课本里有他,“屈贾谊于长沙,非无圣主;窜梁鸿于海曲,岂乏明时?”,儿时的歌曲里有他,“浏阳河,弯过了几道弯”;小时候爱看的《快乐大本营》拍摄地也在长沙,长大了爱看的纪录片《守护解放西》拍摄地也在长沙。长沙,一直若隐若现的出现在过去的生活中,如今有机会来到长沙,让长沙真正从文字走进了生活。 本以为3 月份的长沙会是春光艳艳,刚出黄花机场看了眼手机天气,30 度的数字着实让我大吃一惊,松雅湖公园里人头攒动,湖边有捞鱼的小孩,也有摆出各种姿势照相的青年;草坪上有搭帐篷野餐的家人,也有放风筝的孩子;湖边的步道上有喝着饮料悠闲散步的情侣,也有骑着自行车说笑打闹的学生,租自行车的地方甚至排起了长队。湖的一角有一个瞭望台,一群孩子上上下下不知在玩着什么游戏,湖的中心还有个小岛,本想登岛去看一看,但很可惜小岛还没有对外开放。 回酒店的路上,看着窗外的景色,感觉长沙的马路好宽,大多都是双向 8 车道,而长沙的住宅楼又好高,基本都是二三十层,而且楼间距感觉很窄,一楼基本上都是各种商户,晚上转到一个比较老旧的住宅区,整个小区的主干道各种街边小吃,像是一个小型夜市,感觉长沙的棋牌室很多,没走几步就能看到一个,再有就是奶茶店、零食店和水果店,也是没走几步就能看到一个。 这次到长沙还认识了 2 种新的食物,一个叫凉薯,脆脆甜甜很好吃,看摆盘一开始以为是萝卜;一个叫捆鸡,感觉就是卤制的豆皮,味道一般。长沙的米感觉很好吃,比较硬有嚼劲,更重要的是米饭可以无限续。 最后还要说一下长沙的天气,除了第一天到长沙看到了太阳,随后的几天都是阴天或是雨天,就像歌中所唱“风带着潮湿,水在讲故事”,把“雾都”这个称号颁给 3...

开始炼丹,如何快速训练一个神经网络

8 months ago

什么是训练 训练是一个不断迭代的过程,每一次迭代,都会计算输出,计算输出的损失(和真实值的差距),收集损失相对参数的导数,然后使用梯度下降优化这些参数。 训练和测试代码 import torch from torch import nn from torchvision import...

如何快速建立一个神经网络

9 months ago

整个网络的搭建基于pytorch的框架,其中 torch.nn 的命名空间包含了所有构建神经网络需要的基础组件。 基本模块 nn.Flatten 层 把二位图像打平成一维数组,tensor第一位置代表的是通道数,并不参与打平的运算 input_image = torch.rand(3,224,224) print(input_image.size()) #...

初探 YOLOv1

9 months ago

YOLO(You Only Look Once),使用CNN方法,一次性检测物体类别 和 位置的算法。是深度学习算法中的一种。突出的优点是端到端检测,速度快。输入为448448的图片,输出为7730的向量(77源自输入切分的Grid,30源自20个类别和2个x,y,w,h,c的加和)。YOLO将物体检测问题看成是回归问题,直接从图片生成图片框坐标和类别。 这里再顺带说一下CNN(卷积神经网络),它是深度学习的一种网络架构,基本结构为:卷积层+池化层+全连接层。其中,卷积层相当于一个过滤器,过滤出图片的某种特征;池化层相当于一个重点提取器,只留下重要的特征;全连接层把上面的网络结构打平,输出分类结果。 另外,YOLO属于计算机视觉领域的一个分支,所处的位置如下图所示。 推理 1.将图片切分成S*S个Grid,并分别输出Bounding Boxes+confidence以及Class probability...

Windows10环境下如何快速搭建python环境

10 months ago

背景 最近公司强制使用window电脑办公,又需要重新初始化开发环境。由于好久没有用window系统,而且还是win10,记录一下python环境的SOP,防止以后又忘了。 步骤 1.安装miniconda 去官网下载安装包 2.一路next 默认地址 C:\ProgramData\miniconda3 3.添加conda的系统变量 4.打开cmder验证 注意: 直接输入磁盘符就可切换路径...

如何通过 LLM 整理 QQ 音乐中收藏的歌曲清单

12 months ago

现在我的主力听歌软件是 QQ 音乐,心里一直有个念头,想把 QQ 音乐上收藏的歌曲导出成表格保存,顺带还可以看一下我收藏的歌曲中哪个歌手的歌曲是最多的。心动不如行动,利用空闲时间我开始了将想法落地的过程。 实现思路 由于QQ 音乐官方一直没有开通个人可以申请的 API 接口,所以我首先尝试了用 Charles 抓包收藏列表展示的接口,但发现返回的数据都是加密数据,具体的加密方式和签名应该写在了...

Spark 入门

12 months ago

从 hadoop 开始 Apache Hadoop 是一个框架,允许跨计算机集群对大型数据集进行分布式处理。Hadoop 的出现打破了单个服务器的限制,服务器从一台扩展到成千上万台。Hadoop 有 3 个核心组件: Hadoop Distributed...

3 种方式实现文本 embedding

about 1 year ago

什么是 embedding embedding 其实就是一种稠密向量的表示形式。在 embedding 大行其道之前 onehot 才是最靓的仔。如果和我们比较熟悉的 oneHot 对比起来理解,顿时会发现 embedding 这个玄里玄乎的概念,实际上...

大语言模型中的回调函数

about 1 year ago

为什么要在大语言模型中使用回调函数 Function Calling的使用是为了克服大语言模型的下述缺点 回答的一致性。在函数调用之前,LLMs 的回复是非结构化且不一致的。如果我们能够更好地控制响应格式,我们就可以更轻松地将响应下游集成到其他系统。(这一点通过调整 prompt 也可以做到) 外部数据。 能够在聊天上下文中使用应用程序其他来源的数据,比如可以让 LLMs 回答诸如“北京现在的天气怎么样的”的问题 架构...

写作营随想

about 1 year ago

上周日参加了腾讯组织的一场写作训练营讲座,听了 4 位老师对写作这件事的一些心得和分享,感觉还不错。讲座的地点是在亚洲金融大厦,就在奥林匹克森林公园边上,腾讯和亚投行的办公地点都在这里,从外边看高端大气,进入后里面的设计也很考究,而且感觉建筑面积很大,从楼里出来的时候转了好大一圈才找到靠近地铁的出口。不过培训现场感觉甲醛的味道还没有散干净,熏得有些头疼。 言归正传,说说这次培训的收获。 祛魅 以前自己写作的时候,总是担心自己的文章没人看,流量不够。会担心写作时间太长,耽误了其他事情。听了这次讲座,发现这些专业人士也会有同样的想法和担心。而面对这样的想法和担心,其实也没有什么特殊的奇技淫巧来突破,唯有坚持写下去,不断迭代,甚至可以把以前写过的文章再重新写一遍。打铁还需自身硬,自己不断学习和实践就好,流量的加持和写作速度的提升,顺其自然就好。 写作,只是为了自己。 一些技巧 听完讲座后,总结一些可以用到以后写作中的技巧和方法 每篇文章的最后,可以加一个小结,概括一下整篇文章的内容 每篇文章写完之后,可以阅读一遍,再朗读一遍(好的文章是有韵律美感的),然后对不满意的地方反复修改。这项工作现在可以利用一些 AI...