Follow feeds: blogs, news, RSS and more. An effortless way to read and digest content of your choice.
Get Feedertechno-edge.net
Get the latest updates from techno-edge directly as they happen.
Follow now 66 followers
Last updated about 22 hours ago
about 22 hours ago
Netflix最後のインタラクティブ映画『ブラック・ミラー:バンダースナッチ』が、週明け5月13日にも視聴できなくなるようです。
2 days ago
公式のマイニンテンドーストアに続き、各店舗のNintendo Switch 2抽選結果がネットを騒がせるなか、本命?のヨドバシカメラが抽選販売の受付を開始しました。期間は5月12日(月)午前10時59分まで。
2 days ago
深センで無人タクシーを体験し、自動運転の利便性と不思議さを実感。周囲状況への反応が良好で、利用者に便利なサービスだが、道路環境の再設計も必要。
2 days ago
この1週間の気になる生成AI技術・研究をいくつかピックアップして解説する「生成AIウィークリー」(第94回)では、1ビットLLMの進化版「BitNet v2」と、AIに何度も自己議論させることで精度が向上していく手法「CoRT 」を取り上げます。
3 days ago
香港在住の研究家が深センの中古スマートフォン市場を紹介。ノキアの古いモデルが多く、レア品は高値で取引される。歴史を伝える場所としての意味も持つ。
3 days ago
YuEやDiffRhythmなど、オープンソース版も充実してきた楽曲生成AIですが、また中国から新しいソフトが公開されました。「ACE-Step」は、英語、日本語を含む19言語の歌詞に対応し、Lyrics to Musicの生成が可能。
4 days ago
ASUSの次世代ポータブルゲーミングPCとみられる『ROG Ally 2』の名称が、各国の許認可データベースから見つかっています。
4 days ago
Google のスマートフォン Pixel 9a を「AIスマホ」として試してみました。
4 days ago
山下裕毅(Seamless) 1週間の気になる生成AI技術・研究をいくつかピックアップして解説する連載「生成AIウィークリー」から、特に興味深いAI技術や研究にスポットライトを当てる生成AIクローズアップ。今回は、現在AIモデル評価の業界標準とされているランキング形式(リーダーボード)のAIベンチマーク「Chatbot Arena」における問題を明らかにした研究「The Leaderboard Illusion」を取り上げます。▲Chatbot Arenaの問題を明らかにすることで、より公平で透明性のある評価プラットフォームとなるための改善策を提案するこの研究では、米国に本部があるAI企業の研究機関Cohere Labsの研究者らが主導し、プリンストン大学やスタンフォード大学など複数の大学の研究者らが参加し調査しました。Chatbot Arenaは2023年に創設され、人間のユーザーが任意の質問を入力し、2つの異なるAIモデルからの匿名回答を比較評価するというテストでAIモデルのランキングを行っています。このプラットフォームは、世界中のAIチームがモデルの精度を競い合う重要な場として機能しています。研究チームは200万以上のテストと42のAIチームによる243のAIモデルを詳細に分析しました。その結果、いくつかの問題が特定されました。最初の問題は、一部のAIチームが複数のモデルバリアント(モデルの変種や派生バージョン)を非公開でテストし、最良のスコアだけを公開できるという未公表の方針が存在することです。研究者たちが2025年1月から3月の間にChatbot Arenaを定期的に調査したところ、Metaは27の非公開モデル、Googleは10の非公開モデル、Amazonは7つの非公開モデルをテストしていました。特にMetaの場合、Llama 4リリースに先立つ1カ月間だけで27もの非公開モデルをテストし、さらにビジョン専用のリーダーボードで追加の16モデルをテストしていたことが判明し、合計43のバリアントに達していました。▲各AIチームが非公開でテストしていた件数次に別の問題として、プロプライエタリ(独自)モデルとオープンソース/オープンウェイトモデルの間に顕著なデータアクセス(テストに選ばれる頻度)の格差が存在しています。分析によれば、GoogleとOpenAIはそれぞれArenaの全テストプロンプトの19.2%と20.4%を取得している一方で、41のオープンソースモデルが受け取っているのは合わせても全体のわずか8.8%に過ぎませんでした。さらに詳しく見ると、大手AIチーム(OpenAI、Google、Meta、Anthropic)の4社だけでArenaデータの62.8%を占めており、これはAllen AI、Stanford、Princeton、UC Berkeleyといった主要な学術機関や非営利研究所の合計シェアの68倍という圧倒的な差があります。▲各AIチームの公開モデル数と最大Arenaスコアの関係を示しており、円の大きさはデータアクセス数を表し、プロプライエタリモデルの方が多くのテスト機会を得てより高いスコアを獲得する傾向が見られるこのデータアクセス格差の重要性を調べるため、言語モデルのトレーニングにおけるArenaデータの割合を変えた実験を実施しました。結果は、その使用率を増加させることで、モデルの勝率が23.5%から49.9%へと最大112%も向上することが示されました。このことから、テストに選ばれる頻度が高いプロプライエタリモデルは、実質的な性能向上という形で優位性を得ていることが分かります。さらに、モデルの廃止(リーダーボードからの除外)もプロプライエタリモデルとオープンソース/オープンウェイトモデルに対して不均衡に適用されており、これがテストプロンプトのアクセス頻度の優位性の長期的な不公平を生み出しています。公式に廃止されているモデルは47個ですが、実際には205個のモデルがデータアクセスをほぼゼロに削減されています。これは提供者への通知なしにリーダーボードから“除外”されているのと同等を意味します。具体的には、オープンウェイトモデルの87.8%とオープンソースモデルの89%が廃止されているのに対し、プロプライエタリモデルの廃止率は80%と低くなっています。▲2025年3月~4月の期間中、リーダーボードの統計に基づき、除外となったプロプライエタリモデルとオープンモデルの割合この不均衡な廃止は、Bradley-Terryモデル(ランキングの基礎となる数学モデル)の前提条件を崩し、ランキングの信頼性を低下させます。研究チームのシミュレーションによれば、モデルが廃止されると、そのモデルのデータアクセス履歴が最新の評価条件を反映しなくなり、残りのモデル間のランキングが歪められる結果となります。他に分かった点として、Arenaのプロンプト(質問)に高い重複率があることが示されています。2024年11月から2025年4月の間で、月内での重複率は平均20.14%に達し、月をまたいだ重複も約7.3%存在しました。これは、過去のデータにアクセスできるAIチームが次の月のテストでより良い性能を発揮できる可能性を示唆しています。今回の研究はChatbotArenaの欠陥を指摘していますが、研究者たちはリーダーボードの価値そのものを否定するのではなく、より公平で透明性のある評価プラットフォームとなるための改善策を提案しています。
5 days ago
サムスンの薄型スマホ「Galaxy S25 Edge」が予約開始。5月13日に発表予定で、事前予約は5月20日まで。発売日は5月21日で、カラーはブルー、ブラック、シルバー。
5 days ago
テクノロジージャーナリストの西川善司さんを講師に、すでに組み上げ済みのPS5 Pro同予算自作ゲーミングPCの実演と解説をを行うワークショップの第3弾です。
6 days ago
OPPOの折りたたみスマホ「Find N5」の純正ケースは背面のみの保護に不安を感じ、深センでアラミド繊維ケースを購入。薄さを保ちつつしっかり保護できるケースを探求した。