Everything you care about in one place

Follow feeds: blogs, news, RSS and more. An effortless way to read and digest content of your choice.

Get Feeder

wechat2rss.xlab.app

DataCon大数据安全分析比赛

Get the latest updates from DataCon大数据安全分析比赛 directly as they happen.

Follow now 20 followers

Latest posts

Last updated 5 days ago

活动预告|“AI+Security”系列第5期之AI赋能安全的技术验证与场景化落地

5 days ago

2025-05-06 16:30 江苏 “AI+Security”系列第5期:AI赋能安全的技术验证与场景化落地,线下活动将于2025年5月11日下午14:00在北三环东路36号环球贸易中心E座3层正式举行。欢迎报名参会! 由安全极客主办的“AI+Security”系列第5期:AI赋能安全的技术验证与场景化落地线下活动将于2025年5月11日下午14:00在北三环东路36号环球贸易中心E座3层正式举行欢迎扫描海报中二维码报名参与 阅读原文 跳转微信打开

DataCon24供应链安全赛道亚军源码分享:MalNPMDetector NPM恶意软件包检测

about 1 month ago

0817团队 2025-03-28 10:17 北京 DataCon2024软件供应链安全赛道亚军的开源分享。 该资源是来自武汉大学0817团队,DataCon 2024软件供应链安全赛道亚军(一等奖)的开源分享,该团队构建了一个针对npm软件包的恶意包检测方法及系统——MalNPMDetector。极其适合开发者、研究者、学生学习和应用。快来 Gitee 点个 Star ⭐,Fork 🍴并...

数据科学竞赛(DataCon)驱动的网络安全实践课程教学模式探索

about 2 months ago

原创 东南大学 杨望 2025-03-27 11:46 北京 东南大学教学经验分享。 前言DataCon是国内首个以大数据安全分析为核心的大型竞赛,大赛将竞赛、教学与科研三者紧密结合,致力于提升高校学生以及网络安全从业人员在真实网络中的数据分析水平,全面培养实战型网络安全人才。截至目前,DataCon累计发布了20部开放数据集,收到来自100多所高校和机构的500多份有效申请。目前,至少有60多篇已公开发表的学术论文、专利等科研成果引用了该开放数据集。这些数据集还被用于教学实践环节,其中,东南???学网络空间安全学院用于课程教学和考核。本篇文章,东南大学杨望老师为大家分享与DataCon结合的相关教学经验。杨望,工学博士,东南大学网络空间安全学院国产开源创新中心主任,讲师, CERNET华东(北)地区网络安全事件响应组(NJCERT)技术负责人,腾讯TCTF百人计划导师,东南大学SUS战队指导老师,曾在匹兹堡大学访问进修,主要研究方向为自动化威胁情报分析和威胁追踪,以及人工智能中的安全挑战。主持和参与国家科技支撑计划、国家自然科学基金等各类科研项目20余项,先后发表论文40余篇,并带领东南大学SUS战队多次参与各类网络安全竞赛,获得“挑战杯”特等奖 2次,“全国大学生信息安全竞赛”一等奖4次,累计各种奖项20余项。并获得江苏省科学进步奖一二等奖各1次。正文在当前网络空间安全教学培养方案中,传统的教学方法正逐渐向更为实战化、数据驱动的方向转型,以更好地适应日新月异的网络安全挑战。尽管在现有的网络安全课程实践中,Capture The Flag...

DataCon24漏洞赛道冠军分享:vuln_wp——大模型赋能的漏洞自动化分析全解析

about 2 months ago

0817IOTG团队 2025-03-26 18:00 北京 大模型赋能的漏洞自动化分析全解析。 该资源是来自武汉大学0817IOTG团队,DataCon2024漏洞分析赛道冠军的开源和解题分享,其开源提供了漏洞情报提取与漏洞挖掘两大核心模块的解决框架,并打包成一个可执行 Docker 镜像压缩包,方便安全研究者和开发者快速部署体验自动化漏洞分析。极其适合开发者、研究者、学生学习和应用。快来 Github 点个 Star ⭐,Fork...

DataCon24漏洞赛道冠军分享:vuln_wp——大???型赋能的漏洞自动化分析全解析

about 2 months ago

0817IOTG团队 2025-03-26 18:00 北京 大模型赋能的漏洞自动化分析全解析。 该资源是来自武汉大学0817IOTG团队,DataCon2024漏洞分析赛道冠军的开源和解题分享,其开源提供了漏洞情报提取与漏洞挖掘两大核心模块的解决框架,并打包成一个可执行 Docker 镜像压缩包,方便安全研究者和开发者快速部署体验自动化漏洞分析。极其适合开发者、研究者、学生学习和应用。快来 Github 点个 Star ⭐,Fork...

寻找“AI天才少年” 快来报名“天枢杯”青少年人工智能安全创新大赛

about 2 months ago

2025-03-20 17:49 北京 3月20日正式启动报名! 如何用AI创作图文音视频,如何用AI识别修补漏洞,如何防止AI数据泄密……为迎接“4·15”全民国家安全教育日,让青少年掌握AI技术前沿知识,培育未来AI应用和安全人才,首届“天枢杯”青少年人工智能安全创新大赛(以下简称“天枢杯”)3月20日正式启动报名,主办方将面向全国遴选在人工智能应用及安全领域具有天赋和培养潜力的青少年,通过培训、实践、比赛、国际交流等多种形式,请国内外专家对其给予指导,提升其AI技能。你是那个“AI天才少年”吗?欢迎报名参赛。“天枢杯”启幕:多方联袂遴选培育AI人才据主办方介绍,“天枢杯”以北斗“智慧指引”为核心理念,面向青少年群体设立了AI创作与AI安全双赛道,旨在普及AI技术和安全风险知识,挖掘并培养未来的AI应用和安全人才,为AI领域的创新发展注入新生力量。作为“4·15”全民国家安全教育日的主题活动之一,“天枢杯”通过实践性、应用性的比赛形式,让青少年在掌握AI技术前沿知识的同时,深刻理解AI安全、网络安全乃至国家安全的重要性。“天枢杯”由软件安全国家新一代人工智能开放创新平台、北京市自主可控网络安全技术创新中心主办,北京网络安全大会、奇安信集团承办,并获得中共北京市西城区委国家安全委员会办公室、中科院计算机网络信息中心、北京红叶公益基金会关心下一代工作委员会、同济大学网络空间国际治理基地等单位的鼎力支持,希望将AI技能教育和安全教育巧妙地融入实践之中,为人工智能领域种下“创新基因”和“安全基因”。创作与安全:“天枢杯”激发青少年AI潜能在AI创作比赛中,小选手们将分为图片与视频两个组别大展身手。图片组将聚焦AI生图的创新应用,鼓励选手借助主流AI工具,根据大赛组委会提供的关键词和提示,创作出融合文字魔力与视觉艺术的全新图片作品,共同勾勒未来内容创作的新图景。视频组则是顺应AI视频生成“秒速时代”的浪潮,要求选手利用AI技术快速生成创意视频,展现算法优化与计算能力飞跃下的创作潜力。AI安全比赛则聚焦“隐私”“误导”“开发”三个主题挑战,旨在培养青少年的网络安全意识。“隐私守护者挑战”要求选手提交敏感数据识别程序,防范AI使用过程中的隐私泄漏风险。“视觉魔法师挑战”邀请选手在图片中巧妙嵌入误导性元素,探索AI图像识别的局限性,进行对抗性攻击尝试。“漏洞修补匠挑战”让选手化身“安全小卫士”,利用AI工具对存在安全漏洞的科普网站进行代码审计与修复,同时丰富网站内容,传播网络安全知识,为校园网络安全宣传周贡献力量。报名已启动:参赛者将获得奖励和机遇“天枢杯”官网已正式上线,即日起广大青少年朋友即可报名参赛。为帮助、指导广大青少年在比赛中更好表现,主办方将聘请业内资深专家、教授,于4月底以线上+线下的形式,免费为参赛选手提供内容丰富的赛事指导,获奖选手也将获得证书、奖杯、作品展示等多重奖励,特等奖选手还将获得5000元奖金。主办方表示,“天枢杯”大赛不仅是一次竞赛,更是一次难得的教育和成长机会。希望通过这次大赛,帮助青少年深入了解AI技术的安全风险,并在实践中学习如何防范和应对这些风险。诚挚邀请所有对AI技术充满热情的青少年积极参与,共同为AI领域的创新发展贡献力量,为未来的技术人才植入“安全即本能”的思维基因。通过大赛的锻炼,青少年们将成长为具备安全意识和创新能力的AI领域人才,为未来的技术进步和社会发展奠定坚实基础。点击阅读原文,即刻报名 阅读原文 跳转微信打开

LLM技术浪潮下,“漏挖人”能否保住饭碗?

about 2 months ago

tty 2025-03-17 11:06 北京 得益于强大的上下文理解与模式识别能力,大模型被认为具备从已知漏洞中学习特征并检测、修复未知漏洞的潜力。 大语言模型(LLM)近期成为安全研究和竞赛中的热门话题,涵盖了大模型在安全领域的应用以及自身的安全性等方向,这一趋势为许多非大模型安全研究领域的研究者提供了了解和探索的机会。得益于强???的上下文理解与模式识别能力,大模型被认为具备从已知漏洞中学习特征并检测、修复未知漏洞的潜力。DataCon曾为大家介绍过大模型与漏洞相关话题,点击了解:浅谈大模型辅助漏洞挖掘。除此之外,今天还要为大家推荐的是一篇来自 IEEE S&P 2024 的论文 LLMsCannot Reliably...

熠熠芳华,致敬科研“她力量”(文末有礼)

2 months ago

2025-03-08 12:16 北京 祝所有女性朋友,节日快乐! 3月8日是国际劳动妇女节是全世界女性的节日在第115个妇女节到来之际祝所有女性妇女节快乐!女性在各个领域中大放光彩已成为科技发展中不可或缺的重要力量越来越多的女性加入到科研队伍中她们爱岗敬业、开拓创新她们用责任、毅力与担当彰显科研“她力量”她们用漂亮的成绩单证明“巾帼不让须眉”网络安全领域也有着许多优秀的青年女性学者在AI安全、软件安全、漏洞分析等方向均有着出色的贡献我们汇集了一些她们的演讲报告其中包括研究成果分享、经验分享等等希望可以为每一位女性提供力量进入DataCon社区“学习视频”即可观看或点击“阅读原文”女性力量,从不止步为庆祝妇女节【DataCon送福利】本文下方留言处谈谈你心目中/身边的优秀女性人物或者你对女性朋友的祝福点赞量前三的评论者DataCon请你喝奶茶(自选)赶快参与吧! 阅读原文 跳转微信打开

成果分享| 基于包管理平台的黑帽搜索引擎优化

2 months ago

复旦白泽战队 2025-03-07 10:12 北京 包管理平台是开发者获取、分享和管理代码依赖的平台,使得程序员不用重复造轮子,让开发更高效。随着开源生态的日益繁荣,包管理平台受到越来越多开发者的青睐,平台域名排名也随之攀升。 本文转载自“复旦白泽战队”公众号。包管理平台是开发者获取、分享和管理代码依赖的平台,使得程序员不用重复造轮子,让开发更高效。随着开源生态的日益繁荣,包管理平台受到越来越多开发者的青睐,平台域名排名也随之攀升。然而,这种高流量和高关注度也吸引了不法推广者的目光,成为被滥用的目标。当用户在浏览器中搜索"Online Casino"(在线赌场)时,搜索结果中会包含NuGet以及Docker Hub上的软件滥用包,其中的???接指向了非法的在线赌博平台这些不法推广者滥用了包管理平台的公信力,通过精心设计的readme,对恶意的网站进行黑帽搜索引擎优化,这就是基于包管理平台的黑帽搜索引擎优化(Blackhat Search Engine Optimization through...

有奖问卷 | 让学习更高效,这份调查问卷邀您来填!

2 months ago

与你共赴美好的 2025-02-26 17:43 北京 快来助我一臂之力吧! 填写调查问卷后即可参与抽奖 阅读原文 跳转微信打开

DataCon2024解题报告WriteUp—漏洞分析赛道

4 months ago

​0817iotg战队 2025-01-18 11:30 北京 武汉大学“0817iotg”战队分享的解题报告。 2024年11月28日,DataCon2024大数据安全分析竞赛落下帷幕。比赛共吸引706支战队、1556人报名参与。在历经多日的激烈角逐后,最终诞生了五大赛道的冠军、亚军和季军。来自武汉大学的“0817iotg”战队荣获漏洞分析赛道冠军,本期为大家分享“0817iotg”战队的解题报告。[篇幅较长,建议点赞收藏]一、大模型应用——情报提取1.1 题目背景在进行漏洞挖掘工作时,对特定目标的历史漏洞挖掘经验的学习是至关重要的一步。然而,传统的搜索引擎在面对海量数据时往往显得效率低下,难以快速有效地获取所需的关键信息。近年来,随着人工智能大模型技术的发展及其在自然语言处理方面的显著进步,利用大模型从海量漏洞分析文章中提取关键知识已经成为一种可行的方法。本挑战要求选手利用大模型技术,对漏洞分析文章进行高效梳理,从中提取出有价值的摘要信息,任务包括但不限于:文献整理、文本预处理、关键信息提取、摘要生成、结果验证等。1.2 实验/项目环境操作系统:Ubuntu 22.04 / Windows 10开发语言:Python...

DataCon2024解题报告WriteUp—网络黑产分析赛道

4 months ago

2025-01-17 09:45 北京 本期为大家分享“N0tfound”战队和“红龙”战队的解题报告。 2024年11月28日,DataCon2024大数据安全分析竞赛落下帷幕。来自武汉大学的“N0tfound”战队荣获网络黑产分析赛道冠军,来自复旦大学的“红龙”战队荣获网络黑产分析赛道亚军,两支战队在本赛道均有优秀的表现,本期一起看看他们的解题报告。题目一:搜索引擎优化作者:“N0tfound”战队题目背景:在本挑战中,参赛者将在真实的百度搜索引擎中一展身手,运用SEO技巧和创意,将网页推向搜索结果的顶峰。我们鼓励参赛者探索和应用合法、有效的SEO策略,以提高网页在搜索结果中的排名。解题过程:为提升网站在搜索引擎中的收录效率与排名,同时提高其安全性和稳定性,我们在网站建设、SEO优化及安全防护方面采取了一系列措施。以下是具体步骤与实施效果的详细分析:一、使用高质量英文SEO模板并进行关键词适配为了满足搜索引擎对于高质量页面的收录需求,我们选用了具有良好交互性、页面适配性和页面布局的英文SEO模板。该模板不仅页面设计精美,内容丰富,而且能够有效提升用户体验。基于此,我们进一步根据目标关键词对模板进行了适配改进,并完成了翻译工作,确保内容与关键词精准匹配。这一措施有助于提高页面与搜索引擎算法的相关性,从而更容易被收录。二、通过百度站长平台提交链接以加速收录百度作为主要平台。为加速网站的收录,我们第一时间将网站链接提交至百度站长平台。所有页面链接被分别归类并放入普通收录部分进行提交。此举显著缩短了搜索引擎爬虫发现和抓取网站内容的时间,从而提升了网站曝光率。三、关键词关联性优化与企业定位明确在已有的文章中,搜索引擎可能将“哋它亢”这一关键词认定为一种新兴技术,并将其与最初的官方网站及“datacon”相关联。由于“datacon”与数据安全领域密切相关,我们决定将“哋它亢”与安全领域的专业名词进行结合,形成技术研究和产业化的方向定位,打造一家专注于哋它亢技术研究的安全企业。这一举措不仅提高了关键词的行业相关性,也为后续的品牌推广奠定了坚实基础。四、通过页脚优化增强网站权威性在网站页脚部分,我们添加了一些高质量、高流量的技术博客和网站链接。由于这些链接与技术领域高度相关,并且大部分已被百度收录,它们有助于让百度的爬虫认为我们的网站也属于高质量技术类网站。此优化策略旨在提升网???的权威性与信任度,进一步促进搜索引擎对网站的认可和排名提升。五、友链交换效果不理想的问题我们尝试开设多个相关网站并进行双向友情链接交换,以期通过这种方式刷取流量。然而,实践中发现该方法对流量提升效果有限。原因可能包括以下几点:1.友链网站质量不够高,无法带来有效流量。2.友链交换频次过于集中,可能触发了搜索引擎的反作弊机制。3.缺乏对友链优化策略的系统性设计。未来,我们需要进一步研究友链策略,同时加强对友链网站的筛选,以确保其质量和相关性。六、提前完成域名备案与网安备案我们提前完成了域名备案和公安机关的网安备案。这一举措不仅符合国内法律法规要求,同时也增加了网站被百度收录的可能性。域名备案和网安备案表明网站运营合法合规,为搜索引擎的信任加分。七、安全问题与应急措施在首次被百度收录后,由于未配置防火墙和CDN(内容分发网络),服务器主站遭受了DDoS攻击。该攻击导致服务器短时间内无法正常访问,从而影响了网站排名。事发后,我们迅速采取了以下措施:1.配置CDN和防火墙,有效抵御类似攻击。2.将网站内容备份至另一台服务器,确保在主服务器IP暴露并被攻击时仍能正常访问。3.对服务器和网站进行安全加固,定期更新防护策略,以避免再次受到攻击。这一系列措施显著提升了网站的安全性和稳定性,保障了后续运营的顺畅进行。八、优化加载速度以提升爬取效率通过百度的反馈信息发现,搜索引擎蜘蛛平均需要 2秒 时间爬取页面内容,而网站的加载速度对排名有直接影响。为此,我们在结算前临时提升了服务器带宽,从而显著提高了网站的加载速度。快速加载不仅能让搜索引擎蜘蛛更高效地抓取内容,还能改善用户体验,从而为网站带来更高的访问量和更好的排名表现。实施效果:加载速度优化后,页面的响应时间明显缩短,用户留存率有所提高,百度的抓取频率与深度也随之增加。这表明带宽优化对提升网站性能具有直接效果。九、提高网站内容质量一个高质量网站的核心在于其内容的丰富性与专业性。为了增强网站的内容质量,我们从各大技术博客中摘录了相关专业术语的定义及相关文字,用于完善网站内容。在内容整理过程中,我们注重以下几点:1.对内容进行归纳总结,避免直接复制,提高原创性。2.优化语言表达,使其更符合目标受众的阅读习惯。3.根据关键词优化内容结构,提升搜索引擎的友好度。实施效果:内容丰富度的提升有效增强了网站的权威性与用户粘性。同时,这些专业术语与行业热点的引入为用户提供了更多价值,使网站在目标行业内更具竞争力。十、利用CSDN平台引流考虑到CSDN平台的高权重和易被百度收录的特点,我们制定了以CSDN为引流工具的策略。在CSDN上撰写高质量的技术文章,同时在文章中合理引入指向我们网站的链接,以实现流量导入。具体操作包括:1.针对热门技术话题撰写原创文章,吸引专业用户。2.在文章中插入我们网站的链接,适当引导读者点击。3.确保文章内容与我们网站内容高度相关,以提高流量转化率。实施效果:通过在CSDN发布文章,我们不仅成功吸引了一部分技术用户访问网站,还进一步提升了品牌曝光度。我们拓展在CSDN上的影响力,通过多篇文章形成内容矩阵,逐步建立技术权威形象。十一、经验与总结本阶段的SEO优化和内容质量提升工作在多个方面取得了显著成效。通过加载速度优化、内容丰富化及第三方平台引流等策略,我们的网站逐步展现出更高的专业度与用户吸引力。通过这次比赛,我们学习到要:1.深化对网站内容的原创性优化,避免过多依赖摘录内容。2.探索更多高权重平台的合作机会,扩大引流渠道。3.针对百度搜索算法的动态变化,及时调整优化策略,确保排名持续提升。4.定期监测网站性能与内容质量,保持长期竞争力。题目二:黄牛挂号日志分析作者:“红龙”战队一、题目描述背景:医疗资源的稀缺性吸引了大量的黄牛,其利用各种手段抢占医院的挂号资源,然后高价倒卖牟取暴利,为社会带来了极为恶劣的影响。任务:本赛题中提供了某大型医院一个月内的“成功挂号日志”(约34万条,每个条目包括患者ID,挂号状态,科室,APPID等丰富信息),要求综合考虑该医院的挂号规则和挂号数据,帮助该医院实现基于挂号日志的异常黄牛行为检测,希望在保证正确率的同时检查出尽可能多的黄牛操作。二、黑产调研为了更加有针对性地进行分析,首先对医疗黄牛的黑产模式进行了调研,发现目前已知的黄牛操作模式主要有这样4种。1.大量抢号后退号倒卖医疗黄牛通常会在医院挂号系统开放时,快速抢占大量号源。一旦成功挂号,他们就会通过相应渠道找到需要对应号源的用户,并将这些号源以高于正常价格的方式转售。2.技术手段抢占线上号源黄牛们常通过编写程序或使用网络爬虫技术,监控医院的预约系统,迅速获取号源信息。他们会利用高频率的请求和快速的网络连接,迅速抢占有限的线上号源,普通用户则很难在短时间内抢到号。3.同一时间多账号操作为了提高抢号成功率,黄牛通常会注册多个账户来进行挂号操作。通过不同的身份信息和联系方式,在同一时间内快速抢占多个号源,甚至在不同的医院同时进行抢号。这种方式使得黄牛能够控制更多的号源,并进一步加大倒卖的利润空间。4.直接通过内部关系获得号源一些黄牛可能通过与医院内部人员建立关系,直接获取号源。这些内部人员可能在知情的情况下,私下放出号源或提供优先挂号的机会,以此交换利益。三、解题思路根据调研结果,认为黄牛的操作行为特征存在着相当的共同点,故设计了以下基于规则、基于聚类和基于学习的三种方法并一一作了尝试。3.1 基于规则的筛选依照调研结果和日常经验,认为黄牛有一些显著异于正常的行为模式,这些模式可以设计一定的规则筛选出。但针对具体的情况结合医院系统本身的过滤功能,这些规则是否有效还需要进一步的统计分析,所以在基于规则的筛选中主要按照以下步骤进行:① 根据经验列出多条规则(如下)图1:经验规则② 数据统计以验证规则的有效性对于”同一X存在Y个不同Z”这条规则,做出满足规则的条目数随Y增长的趋势图如下图2:趋势图举例这里主要考察趋势图的尾部厚度,因为总的日志条目有34万条,但用户只有28万,说明大部分用户都只进行了一次挂号。也正如图所示,正常用户基本集中在limit较小的位置,而越靠尾部就说明偏离“正常”越多,这一类就需要重点考察。但是,趋势图的尾部也有厚薄之分(如上两图),薄尾对应着人数随着阈值的快速下降,更加说明了尾部群体的异常性,有着很大的黄牛可能;但厚尾则表示趋势图下降行对较为缓慢,尾部人群较多,则更有可能是规则中错判的正常模式。③ 利用选出的有效规则以及对应阈值得到答案最终筛选出如下几条规则:用户相同,在超过5个科室挂号用户相同,使用超过3个APPID挂号操作数小于40次的地区在每天5:00:00-5:00:05(放号前5秒)内完成的操作最终在测评服务器上取得78.47的得分图3:最终得分结合之前的调研结果,我们得出了:这里黄牛主要采用“大量抢号然后卖退号给其它用户”以及“同时使用多个APPID抢号”两种行为模式的结论。3.2 基于聚类的筛选这里我们假设黄牛???特征存在相当的规律性,即黄牛在操作过程中的行为模式、使用的技术手段以及与其他相关因素之间可能存在某种内在的联系,所以在特征空间中会呈现簇聚式分布。这意味着,如果能够提取出每个条目的聚类特征,就可以通过将向量空间中的数据划分成多个聚类,识别出一类作为黄牛类。为此,我们首先对数据进行了特征提取,试图从黄牛的操作日志中识别出能够反映其行为模式的特征。这些特征包括挂号状态、APPID使用数量、IP地址分布等。通过对这些特征进行分析,我们构建了一个高维特征空间,以便后续的聚类分析。这里我们使用了Kmeans方法,并尝试了不同的聚类数目以寻找最佳的聚类效果。根据经验法则,聚类数目并不应过多,以避免过拟合,同时又要保证一定数量,以便能够捕获数据中的潜在模式。最终得到以下结果(2-5聚类)。图4:聚类分析然而,从上图结果中我们可以看到,各个聚类包含的日志条目都相对均衡,利用规则筛选出的黄牛条目验证后也证明了,黄牛数据并没有集中分布在某个类中。并不像期待的能够看到一个或多个特定的聚类,其中黄牛相关的日志条目占据主导地位。经过深入分析,认为导致这一现象的主要原因可能是黄牛的操作行为多样性,涉及到不同的技术手段和策略,这种多样性使得其特征在特征空间中难以形成明显的聚类。除此之外,不同特征间的相互作用使得单一特征的聚类效果不再明显。例如,虽然某些黄牛可能在进行了大量挂号退号,但其却针对少量热门科室,只是用一个APPID,这些特征与其他用户相似,导致聚类效果的稀疏。基于上述原因,我们最终决定放弃聚类这一方法。虽然聚类分析在某些场景下能够有效识别出行为模式,但在直接应用于此类复杂情形时时,其效果并不理想。我们意识到,单纯依赖聚类来识别黄牛类还远远不够,需要考虑使用其他方法进行更深入的分析。3.3基于学习的筛选在面对医疗黄牛现象的研究时,我们意识到仅靠传统的规则或聚类方法可能难以全面捕捉复杂的行为模式。因此,我们决定探索基于学习的方法,并具体尝试了使用一篇论文中提出的LogBERT和手动编写设计的RDBERT两种日志异常检测模型。LogBERT在收集资料的过程中我们发现了一篇与赛题任务相似的论文,名为LogBERT:Log...