Discover
某データサイエンティストと某コンサルによる雑トーーーーーーーク!!!

11 Episodes
Reverse
https://www.kaggle.com/competitions/lmsys-chatbot-arena
【音楽・効果音】
BGMer
https://bgmer.net
On-Jin ~音人~
https://on-jin.com/
【しんいちろうプロフィール】
- データサイエンティスト的な仕事
- SaaS企業勤務
- 前職、前々職はSIer
【ばらっとプロフィール】
- ITコンサル
- 元々SIer
※ ばらっとさんの声にはボイスチェンジャーをかけています。
個人情報保護法について話しました。
参考資料
個人情報保護委員会事務局レポート
https://www.ppc.go.jp/aboutus/minutes/2021/20220330/
Kaggle PII Data Detection
https://www.kaggle.com/competitions/pii-detection-removal-from-educational-data
Kaggle PII Data Detectionの振り返り
https://zenn.dev/sinchir0/articles/396967387196dc
【音楽・効果音】
BGMer
https://bgmer.net
On-Jin ~音人~
https://on-jin.com/
【しんいちろうプロフィール】
- データサイエンティスト的な仕事
- SaaS企業勤務
- 前職、前々職はSIer
【ばらっとプロフィール】
- ITコンサル
- 元々SIer
※ ばらっとさんの声にはボイスチェンジャーをかけています。
個人情報保護法について話しました。
【参考】
https://www.ppc.go.jp/index.html
【音楽・効果音】
BGMer
https://bgmer.net
On-Jin ~音人~
https://on-jin.com/
【しんいちろうプロフィール】
- データサイエンティスト的な仕事
- SaaS企業勤務
- 前職、前々職はSIer
【ばらっとプロフィール】
- ITコンサル
- 元々SIer
※ ばらっとさんの声にはボイスチェンジャーをかけています。
UTF-8とSHIFT_JIS、Unicodeなどの文字コードの違いについて話しました。
【参考】
形態素解析の理論と実装 (実践・自然言語処理シリーズ) 工藤 拓 (著)
https://www.kindaikagaku.co.jp/book_list/detail/9784764905771/
【音楽・効果音】
BGMer
https://bgmer.net
On-Jin ~音人~
https://on-jin.com/
【しんいちろうプロフィール】
- データサイエンティスト的な仕事
- SaaS企業勤務
- 前職、前々職はSIer
【ばらっとプロフィール】
- ITコンサル
- 元々SIer
※ ばらっとさんの声にはボイスチェンジャーをかけています。
皆受けたことがあるケンシンについて、その種類とデータ保管に関する国の取り組みについて話しました。
参考URL
- https://www.mhlw.go.jp/content/10901000/000682242.pdf
- https://note.com/fm4645/n/n005981fe63da
- https://www.mhlw.go.jp/content/11908000/000958027.pdf
- https://www.meti.go.jp/shingikai/mono_info_service/kenko_iryo/kenko_toshi/pdf/006_s01_00.pdf
MeCabによる形態素解析について話しました。
【参考】
形態素解析の理論と実装 (実践・自然言語処理シリーズ) 工藤 拓 (著)
日本語形態素解析の裏側を覗く!MeCab はどのように形態素解析しているか
MeCab
【音楽・効果音】
BGMer
【しんいちろうプロフィール】
- データサイエンティスト的な仕事
- SaaS企業勤務
- 前職、前々職はSIer
【ばらっとプロフィール】
- ITコンサル
- 元々SIer
※ ばらっとさんの声にはボイスチェンジャーをかけています。
ベースレジストリについて話しました。ばらっとさんとしんいちろうの声が少し音ズレしています。すみません。
whisperによる文字起こし→GPT4による要約
「TheStalk」というポッドキャストで、データサイエンティストとコンサルタントが自由に話す。今回はバラッツさんが主に話す日。議題はベースレジストリーに関するもので、国が進めるデジタル化政策の一環として、公的機関が信頼できるデータをデジタル形式で整理するプロジェクトについて話し合う。具体的には、企業情報、土地情報、行政情報などの整理と、それらの情報のアクセスと活用について議論する。また、政府データの分類やオープンデータの取り組みについても触れる。このプロジェクトの難しさと、それが整備されると便利になる可能性についても話す。
音楽
BGMer
https://bgmer.net
効果音
On-Jin ~音人~
https://on-jin.com/
【参考】
デジタル庁:データ戦略推進ワーキンググループ
https://www.digital.go.jp/councils/data-strategy-wg
デジタル庁:レジストリカタログ
https://catalog.registries.digital.go.jp/rc/dataset/
日経XTECH:事業所データの整備が中断 調達の着手後に「実現困難」と知る
https://xtech.nikkei.com/atcl/nxt/mag/nc/18/020600011/050600107/
【話した内容】
- 身近でNLPが使われている例
- UberにてNLPが利用されていチケット管理PJについて
【参考】
実践 自然言語処理
―実世界NLPアプリケーション開発のベストプラクティス
https://www.oreilly.co.jp/books/9784873119724/
【音楽・効果音】
BGMer https://bgmer.net
【しんいちろうプロフィール】
- データサイエンティスト的な仕事
- SaaS企業勤務
- 前職、前々職はSIer
【ばらっとプロフィール】
- ITコンサル
- 元々SIer
※ ばらっとさんの声にはボイスチェンジャーをかけています。
※ 最後10分程度に、ばらっとさん環境で蛍の光が流れてしまった + ボイスチェンジャーの影響で、ホラーゲームのようなBGMが流れてしまいます、申し訳ありません。
マイナ保険証の問題について話しました。
【参考】
我が国の医療保険について
https://www.mhlw.go.jp/stf/seisakunitsuite/bunya/kenkou_iryou/iryouhoken/iryouhoken01/index.htm
マイナンバーカードと健康保険証の一体化に関する検討会(第3回)| デジタル庁
https://www.digital.go.jp/councils/card-integration-mynumber-and-insurance/66956b07-867d-4802-9d2b-943caaf55f60/
【音楽・効果音】
BGMer
https://bgmer.net
On-Jin ~音人~
https://on-jin.com/
【しんいちろうプロフィール】
- データサイエンティスト的な仕事
- SaaS企業勤務
- 前職、前々職はSIer
【ばらっとプロフィール】
- ITコンサル
- 元々SIer
※ ばらっとさんの声にはボイスチェンジャーをかけています。
【話した内容】
- 大規模言語モデルとは何か
- 大規模言語モデルは何を可能にするか
- どのような方法で生成をしているか
- 今までと何が違うか
- GPT3からのパラメータが大量に増加
- べき条則
- RLHF(reinforcement learning from human feedback)
【参考】
大規模言語モデルは新たな知能か――ChatGPTが変えた世界 (岩波科学ライブラリー)
https://amzn.asia/d/1AL1AaZ
JSAI2023 Tutorial 「基盤モデルの技術と展望」
https://speakerdeck.com/yusuke0519/jsai2023-tutorial-ji-pan-moderunoji-shu-tozhan-wang
【音楽・効果音】
BGMer
https://bgmer.net
On-Jin ~音人~
https://on-jin.com/
【しんいちろうプロフィール】
- データサイエンティスト的な仕事
- SaaS企業勤務
- 前職、前々職はSIer
【ばらっとプロフィール】
- ITコンサル
- 元々SIer
※ ばらっとさんの声にはボイスチェンジャーをかけています。
Comments