株式会社ずんだもん技術室AI放送局 podcast 20241114
Description
関連リンク
本記事は、AWSのAIサービスと生成AIサービスを利用して、ブラウザ上でライブストリームのリアルタイム文字起こし、翻訳、要約を行うChrome拡張機能について説明しています。 世界中で人気が高まっているライブストリームにおいて、言語の壁やアクセシビリティの課題を解決することを目的としています。
この拡張機能は、Amazon Transcribe(音声認識)、Amazon Translate(翻訳)、Amazon Bedrock(生成AI、AnthropicのClaude 3モデルなどを使用)といったAWSサービスを活用しています。 ライブストリームの音声をリアルタイムでテキスト化し、複数の言語に翻訳、さらに要約まで行います。 これにより、騒音環境下でも内容を理解したり、母語ではない言語のライブストリームでも容易に内容を把握したり、重要なポイントを効率的に確認することが可能になります。
システム構成は、Amazon Cognito(認証)、API Gateway、AWS Lambda、Amazon S3などを含むバックエンドと、AWS SDK for JavaScriptおよびAWS Amplify JavaScriptライブラリを用いたフロントエンドのChrome拡張機能で構成されています。 バックエンドはAWS CDKを用いてデプロイされます。
導入手順の概要:
- 前提条件: Google Chrome、AWSアカウント、Amazon Bedrockへのアクセス権、AWS CLI、AWS CDK、Node.jsとnpmが必要です。
- バックエンドのデプロイ: GitHubリポジトリからコードをクローンし、AWS CDKを用いて必要なAWSリソース(Cognito、S3、Lambdaなど)を自動的にプロビジョニングします。
config.json
ファイルでリージョンや使用するBedrockモデルIDなどを設定します。 - 拡張機能の設定: デプロイ後、CloudFormationの出力値を用いて拡張機能の
config.js
ファイルを設定します。 その後、Chrome拡張機能をインストールし、必要な権限(マイク、画面記録)を付与します。 さらに、Amazon Cognitoユーザープールにユーザーを作成する必要があります。 - 拡張機能の使用: 拡張機能を起動し、ログイン後、ライブストリームのURLを開きます。 設定で言語(自動言語識別も可能)を選択し、「Start recording」で記録を開始します。「Get summary」で要約を取得できます。
制約事項:
翻訳言語は、記録開始前に設定する必要があります。記録開始後に変更することはできません。 また、要約生成には多少の遅延があります。
本記事では、詳細な使用方法やトラブルシューティング、クリーンアップ手順についても説明されていますが、本要約では割愛しています。 詳細な手順については、原文を参照ください。
引用元: https://aws.amazon.com/blogs/machine-learning/transcribe-translate-and-summarize-live-streams-in-your-browser-with-aws-ai-and-generative-ai-services/
OpenAI、Google、Anthropicといった大手AI企業が、より高度なAI開発で困難に直面しているという記事です。 OpenAIが開発中の大規模言語モデル「Orion」は、期待された性能を達成しておらず、コーディング問題への回答精度が不十分でした。これは、十分なトレーニングデータの不足が原因の一つとされています。
Googleの次世代モデル「Gemini」も内部目標を下回っており、Anthropicの「Claude 3.5 Opus」もリリースが遅れています。これらの企業は、高品質なトレーニングデータの枯渇、莫大な開発・運用コスト、そして「大幅な性能向上」というブランドイメージへの期待とのギャップに苦戦しています。
近年、シリコンバレーでは「スケーリング則」に基づき、計算能力、データ量、モデルサイズを増やすことでAI性能が向上するという考え方が主流でした。しかし、今回の事例は、この「スケーリング則」だけでは限界があることを示唆しています。 単純にデータ量を増やすだけでは不十分で、データの質と多様性が重要であると、複数のAI専門家が指摘しています。合成データの活用も試みられていますが、人間によるガイドなしでは高品質なデータの作成は難しいのが現状です。
OpenAI、Google、Anthropicは、モデルのサイズを追求するだけでなく、AIエージェントのような新たな応用分野に注力し始めています。 OpenAI CEOのSam Altmanは、GPT-5のリリースは当面見送ることを示唆し、次のブレークスルーはAIエージェントによるものになると述べています。 Anthropic CEOのDario Amodeiも、スケーリング則は万能ではなく、データ不足などのリスクも存在すると認めています。
つまり、現状ではAIの進化は停滞期に入っている可能性があり、単純な規模拡大ではなく、新たなトレーニング手法やデータ収集方法の開発が今後のAI開発において重要になってくるでしょう。 AGI(人工汎用知能)の実現も、以前の予測よりも困難である可能性が示唆されています。
引用元: https://finance.yahoo.com/news/openai-google-anthropic-struggling-build-100020816.html
MITのMarkus Buehler教授が開発した新しいAIモデルは、一見無関係な科学・芸術分野間の隠れた繋がりを発見し、革新的な材料設計を提案できることが発表されました。このモデルは、生成AI、グラフベースの計算ツール、多様なデータの推論を統合しています。
このAIは、圏論に着想を得たグラフ構造を用いて、科学における象徴的な関係性を理解します。圏論とは、対象とそれらの間の関係(射)に焦点を当てる数学の一分野です。このアプローチにより、AIは異なる分野の抽象的な構造をマッピングする高度な推論を行うことが可能になります。
具体的には、1000編の生物材料に関する論文をグラフ化し、情報間の繋がりを可視化しました。その結果、スケールフリーで高密度なネットワークが得られ、グラフ推論に有効であることが示されました。 このグラフを用いて、研究者は複雑な問題への解答、知識のギャップの発見、新しい材料設計の提案、材料挙動の予測、そしてこれまで繋がっていない概念の関連付けを行うことができます。
興味深い実験として、ベートーベンの交響曲第9番と生物組織の類似性を発見したり、カンディンスキーの絵画「コンポジションVII」から着想を得て、新しい菌糸体ベースの複合材料の設計を提案しました。この材料は、強度と機能性に加え、適応性と多様な役割を果たす能力を備えています。これは、持続可能な建築資材、生分解性プラスチック代替品、ウェアラブルテクノロジー、バイオメディカルデバイスなどの開発につながる可能性があります。
このグラフベースの生成AIは、従来のアプローチよりも高い新規性と探求能力を達成し、隠れた繋がりを明らかにすることで幅広いイノベーションの枠組みを確立します。 音楽、芸術、技術からの知見を統合することで、材料設計、研究、さらには音楽や視覚芸術においても、革新的な可能性を生み出すことが期待されます。 本研究はバイオミメティクス材料と力学の分野に貢献するだけでなく、AIと知識グラフを活用した学際的研究の未来を示唆しています。
引用元: https://news.mit.edu/2024/graph-based-ai-model-maps-future-innovation-1112
この投稿は、高校生の時に漫画家になりたいと三者面談で担任に相談した投稿者が、担任から「一作も完成させていないのに、なぜ漫画家になりたいのか?」と問われ、完成させた漫画をジャンプに持ち込んだものの不採用だった経験について述べています。
投稿者は、最初は漫画制作をサボっていましたが、家族会議で「漫画の進捗はどうなのか?」と問われ、持っていたネタを説明する中で、完成させなければいけないというプレッシャーを感じ、必死に漫画を完成させたと語っています。 ジャンプへの持ち込みは失敗に終わりましたが、この経験を通して、目標達成のためには最後までやり遂げることの大切さを学び、現実的な進路選択をすることができたと振り返っています。
投稿に対する多くの反応は、担任の指導方法や投稿者の行動力、そして目標達成への努力を称賛するものでした。 厳しい指導にも関わらず、「漫画をやめろ」とは言われなかった環境や、家族のサポートがあったことにも感謝の言葉が寄せられています。 また、挑戦することの重要性や、完成させることの難しさ、そして目標達成のために最後までやり抜くことの価値を再確認する声が多く見られました。 いくつかのコメントでは、作者の経験が、仕事における「完成させる」ことの大切さを示唆する事例として捉えられています。 これは、新人エンジニアにとっても、プロジェクトを完遂することの重要性を示す良い例と言えるでしょう。 目標達成には、周囲のサポートと、自身の努力の両方が不可欠であることを示唆しています。
引用元: https://togetter.com/li/2464412
(株式会社ずんだもんは架空の登場組織です)