Everything you care about in one place

Follow feeds: blogs, news, RSS and more. An effortless way to read and digest content of your choice.

Get Feeder

techno-edge.net

techno-edge

Get the latest updates from techno-edge directly as they happen.

Follow now 66 followers

Latest posts

Last updated about 22 hours ago

ネトフリが消す前に『バンダースナッチ』を観てくれ。極上のぞわぞわ感が楽しい無二の分岐型映画。ブラック・ミラーのクリエータが手掛けるインタラクティブ体験

about 22 hours ago

Netflix最後のインタラクティブ映画『ブラック・ミラー:バンダースナッチ』が、週明け5月13日にも視聴できなくなるようです。

ヨドバシでSwitch 2抽選予約開始、周辺機器セットはどれが正解?早い締切に注意。過去1年で5万円購入が条件・黒カード優遇

2 days ago

公式のマイニンテンドーストアに続き、各店舗のNintendo Switch 2抽選結果がネットを騒がせるなか、本命?のヨドバシカメラが抽選販売の受付を開始しました。期間は5月12日(月)午前10時59分まで。

世界最先端の自動運転を体験。無人タクシーはちょっとドキドキしたけど想像以上に快適だった(スマホ沼)

2 days ago

深センで無人タクシーを体験し、自動運転の利便性と不思議さを実感。周囲状況への反応が良好で、利用者に便利なサービスだが、道路環境の再設計も必要。

AIに繰り返し自己議論させる→考えが深くなり精度が向上する「CoRT 」、1ビットLLMの進化版「BitNet v2」登場など生成AI技術5つを解説(生成AIウィークリー)

2 days ago

この1週間の気になる生成AI技術・研究をいくつかピックアップして解説する「生成AIウィークリー」(第94回)では、1ビットLLMの進化版「BitNet v2」と、AIに何度も自己議論させることで精度が向上していく手法「CoRT 」を取り上げます。

携帯マニアのロマンが眠る深セン“ノキアの墓場”を10年ぶりに訪問(スマホ沼)

3 days ago

香港在住の研究家が深センの中古スマートフォン市場を紹介。ノキアの古いモデルが多く、レア品は高値で取引される。歴史を伝える場所としての意味も持つ。

日本語ボーカル曲をSuno並に高速生成できるオープンソース作曲AI「ACE-Step」が自分のPCでビュンビュン動くのだ(CloseBox)

3 days ago

YuEやDiffRhythmなど、オープンソース版も充実してきた楽曲生成AIですが、また中国から新しいソフトが公開されました。「ACE-Step」は、英語、日本語を含む19言語の歌詞に対応し、Lyrics to Musicの生成が可能。

ASUSの次世代携帯ゲーミングPC『ROG Ally 2』が認証DB登録。Ryzen Z2搭載の「Xbox PC」に期待

4 days ago

ASUSの次世代ポータブルゲーミングPCとみられる『ROG Ally 2』の名称が、各国の許認可データベースから見つかっています。

Google Pixel 9a を「AIスマホ」として試す。AIでできること・上位モデルとの差

4 days ago

Google のスマートフォン Pixel 9a を「AIスマホ」として試してみました。

鵜呑みにできない、AIモデルの世界評価ランキング「Chatbot Arena」の闇と幻想 不公平を解き明かす(生成AIクローズアップ)

4 days ago

山下裕毅(Seamless) 1週間の気になる生成AI技術・研究をいくつかピックアップして解説する連載「生成AIウィークリー」から、特に興味深いAI技術や研究にスポットライトを当てる生成AIクローズアップ。今回は、現在AIモデル評価の業界標準とされているランキング形式(リーダーボード)のAIベンチマーク「Chatbot Arena」における問題を明らかにした研究「The Leaderboard Illusion」を取り上げます。▲Chatbot Arenaの問題を明らかにすることで、より公平で透明性のある評価プラットフォームとなるための改善策を提案するこの研究では、米国に本部があるAI企業の研究機関Cohere Labsの研究者らが主導し、プリンストン大学やスタンフォード大学など複数の大学の研究者らが参加し調査しました。Chatbot Arenaは2023年に創設され、人間のユーザーが任意の質問を入力し、2つの異なるAIモデルからの匿名回答を比較評価するというテストでAIモデルのランキングを行っています。このプラットフォームは、世界中のAIチームがモデルの精度を競い合う重要な場として機能しています。研究チームは200万以上のテストと42のAIチームによる243のAIモデルを詳細に分析しました。その結果、いくつかの問題が特定されました。最初の問題は、一部のAIチームが複数のモデルバリアント(モデルの変種や派生バージョン)を非公開でテストし、最良のスコアだけを公開できるという未公表の方針が存在することです。研究者たちが2025年1月から3月の間にChatbot Arenaを定期的に調査したところ、Metaは27の非公開モデル、Googleは10の非公開モデル、Amazonは7つの非公開モデルをテストしていました。特にMetaの場合、Llama 4リリースに先立つ1カ月間だけで27もの非公開モデルをテストし、さらにビジョン専用のリーダーボードで追加の16モデルをテストしていたことが判明し、合計43のバリアントに達していました。▲各AIチームが非公開でテストしていた件数次に別の問題として、プロプライエタリ(独自)モデルとオープンソース/オープンウェイトモデルの間に顕著なデータアクセス(テストに選ばれる頻度)の格差が存在しています。分析によれば、GoogleとOpenAIはそれぞれArenaの全テストプロンプトの19.2%と20.4%を取得している一方で、41のオープンソースモデルが受け取っているのは合わせても全体のわずか8.8%に過ぎませんでした。さらに詳しく見ると、大手AIチーム(OpenAI、Google、Meta、Anthropic)の4社だけでArenaデータの62.8%を占めており、これはAllen AI、Stanford、Princeton、UC Berkeleyといった主要な学術機関や非営利研究所の合計シェアの68倍という圧倒的な差があります。▲各AIチームの公開モデル数と最大Arenaスコアの関係を示しており、円の大きさはデータアクセス数を表し、プロプライエタリモデルの方が多くのテスト機会を得てより高いスコアを獲得する傾向が見られるこのデータアクセス格差の重要性を調べるため、言語モデルのトレーニングにおけるArenaデータの割合を変えた実験を実施しました。結果は、その使用率を増加させることで、モデルの勝率が23.5%から49.9%へと最大112%も向上することが示されました。このことから、テストに選ばれる頻度が高いプロプライエタリモデルは、実質的な性能向上という形で優位性を得ていることが分かります。さらに、モデルの廃止(リーダーボードからの除外)もプロプライエタリモデルとオープンソース/オープンウェイトモデルに対して不均衡に適用されており、これがテストプロンプトのアクセス頻度の優位性の長期的な不公平を生み出しています。公式に廃止されているモデルは47個ですが、実際には205個のモデルがデータアクセスをほぼゼロに削減されています。これは提供者への通知なしにリーダーボードから“除外”されているのと同等を意味します。具体的には、オープンウェイトモデルの87.8%とオープンソースモデルの89%が廃止されているのに対し、プロプライエタリモデルの廃止率は80%と低くなっています。▲2025年3月~4月の期間中、リーダーボードの統計に基づき、除外となったプロプライエタリモデルとオープンモデルの割合この不均衡な廃止は、Bradley-Terryモデル(ランキングの基礎となる数学モデル)の前提条件を崩し、ランキングの信頼性を低下させます。研究チームのシミュレーションによれば、モデルが廃止されると、そのモデルのデータアクセス履歴が最新の評価条件を反映しなくなり、残りのモデル間のランキングが歪められる結果となります。他に分かった点として、Arenaのプロンプト(質問)に高い重複率があることが示されています。2024年11月から2025年4月の間で、月内での重複率は平均20.14%に達し、月をまたいだ重複も約7.3%存在しました。これは、過去のデータにアクセスできるAIチームが次の月のテストでより良い性能を発揮できる可能性を示唆しています。今回の研究はChatbotArenaの欠陥を指摘していますが、研究者たちはリーダーボードの価値そのものを否定するのではなく、より公平で透明性のある評価プラットフォームとなるための改善策を提案しています。

激薄スマホ時代の幕開け「Galaxy S25 Edge」いよいよ予約開始に(スマホ沼)

5 days ago

サムスンの薄型スマホ「Galaxy S25 Edge」が予約開始。5月13日に発表予定で、事前予約は5月20日まで。発売日は5月21日で、カラーはブルー、ブラック、シルバー。

今度はIntelで組んでみようか。PS5 Proクラス性能目指す『OS代込みで12万円のゲーミング自作PC』はどの程度まで行けるか。オンラインイベント第3弾を5月6日開催

5 days ago

テクノロジージャーナリストの西川善司さんを講師に、すでに組み上げ済みのPS5 Pro同予算自作ゲーミングPCの実演と解説をを行うワークショップの第3弾です。

世界最薄折りたたみ「OPPO Find N5」の付属ケースがイマイチ不安だったので探しに行った(スマホ沼)

6 days ago

OPPOの折りたたみスマホ「Find N5」の純正ケースは背面のみの保護に不安を感じ、深センでアラミド繊維ケースを購入。薄さを保ちつつしっかり保護できるケースを探求した。