#author("2024-03-04T12:54:18+09:00","default:irrp","irrp") #author("2024-03-16T22:34:12+09:00","default:irrp","irrp") →文字コード関連 →正規表現 →自然言語処理/全文検索 #contents *サブトピック [#yd76620e] -データベース関連 -データサイエンス -データ移行 -開発に役立つデータ -データ形式/データフォーマット -AWS データ処理系サービス *データ処理 [#cab95ee0] -[[データウェアハウスのデータモデリングを整理してみた #Databricks - Qiita>https://qiita.com/zumax/items/41458d3509859f310ed8]] 2024.3 -[[無料で大量のデータを自動で見やすいグラフなどで可視化し定期的に更新反映されるダッシュボードをオープンソースでセルフホスト可能なアプリ「Metabase」を使ってみた - GIGAZINE>https://gigazine.net/news/20230915-metabase/]] 2023.9 -[[データマネジメントにおけるメタデータ管理についてまとめてみた | DevelopersIO>https://dev.classmethod.jp/articles/data-management-metadata-think/]] 2023.2 -[[私が妄想している最強のデータ基盤2023>https://zenn.dev/jimatomo/articles/ed4865d0f5a9a8]] 2023.1 -[[データ分析プロジェクトに使用するクラウドサービス完全まとめガイド - Qiita>https://qiita.com/hryk_nu/items/256a5392893e03b58ef6]] 2022.12 -[[Python + BigQuery の始め方 - RevComm Tech Blog>https://tech.revcomm.co.jp/get-started-bigquery-with-python]] 2022.12 -[[東京都の人口統計データ(CSV)をGoogle Mapsで可視化してみた | DevelopersIO>https://dev.classmethod.jp/articles/to-visualize-demographic-data-csv-of-tokyo-with-google-maps/]] 2022.8 -[[東京都の人口統計データをAmazon QuickSightのpoints mapで可視化してみた | DevelopersIO>https://dev.classmethod.jp/articles/to-visualize-the-demographic-data-of-tokyo-with-amazon-quicksights-points-map/]] 2022.8 -[[Fundamentals of Data Visualization>https://clauswilke.com/dataviz/]] 2022.6 --オライリー本 --The book is meant as a guide to making visualizations that accurately reflect the data, tell a story, and look professional. -[[Apache Beam (Dataflow) 実践入門【Python】>https://qiita.com/esakik/items/3c5c18d4a645db7a8634]] 2020.9 -[[米国大統領選に見るソーシャルとビッグデータの役割>http://www.kddi-ri.jp/pdf/KDDI-RA-201212-01-PRT.pdf]] 2013.1.4 -[[ビッグデータ予測が16人中15人的中――AKB48選抜総選挙>http://business.nikkeibp.co.jp/article/nmgp/20120607/233038/]] 2012.6.7 -[[「ビッグデータ」のビッグ(Big)は「ビッグマック」のビッグとは違う。でも、やっぱり、数(量)は力なり・・なのだ。>http://newmktg.typepad.jp/blog/2012/03/%E3%83%93%E3%83%83%E3%82%B0%E3%83%87%E3%83%BC%E3%82%BF%E3%81%AE%E3%83%93%E3%83%83%E3%82%B0big%E3%81%AF%E3%83%93%E3%83%83%E3%82%B0%E3%83%9E%E3%83%83%E3%82%AF%E3%81%AE%E3%83%93%E3%83%83%E3%82%B0%E3%81%A8%E3%81%AF%E9%81%95%E3%81%86%E3%81%A7%E3%82%82%E5%A4%A7%E3%81%8D%E3%81%84%E3%81%93%E3%81%A8%E3%81%AF%E3%82%84%E3%81%A3%E3%81%B1%E3%82%8A%E3%81%84%E3%81%84%E3%81%93.html]] 2012.3.12 -[[ビッグデータ処理の常識をJavaで身につける>http://www.atmarkit.co.jp/fjava/index/index_bigdata_java.html]] *データ可視化/ビジュアライズ [#u1d94985] -[[データ表示に円グラフを使うのは避けるべきという主張、その理由とは? - GIGAZINE>https://gigazine.net/news/20240113-almost-never-use-a-pie-chart/]] 2024.1 -[[大規模小説データをOpenAI Embedding APIで特徴抽出してUMAPで可視化してみた>https://zenn.dev/tellernovel_inc/articles/62d70afb097176]] 2023.11 -[[Yahoo APIで取得した現在の降水量をstreamlitで地図上に3D棒グラフ表示する - Qiita>https://qiita.com/miso_taku/items/7d532d87b3a7d675466c]] 2023.1 -[[Plotly.pyによるデータ可視化のすすめ | フューチャー技術ブログ>https://future-architect.github.io/articles/20221116a/]] 2022.11 -[[はじめに — マンガと学ぶデータビジュアライゼーション>https://kakeami.github.io/viz-madb/index.html]] 2022.5 -[[データの可視化シリーズ 第1弾 - はじめに>https://qiita.com/takatoshiroto/items/281f777ebc9945ecb0c6]] 2019.8 *Apache Spark [#b98f0914] -[[Pandas API on SparkでpandasとSparkの良いところ取り #pandas - Qiita>https://qiita.com/taka_yayoi/items/43bd3935f77828c4e33e]] 2023.11 -[[Apache Sparkとは何か - Qiita>https://qiita.com/taka_yayoi/items/31190da754106b2d284e]] 2023.8 -[[逆引きPySpark (3.文字列編) - Qiita>https://qiita.com/motokazu_ishikawa/items/88af3d3b92f7e1e22bb7]] 2023.1 -[[Apache Sparkの概要>https://qiita.com/whata/items/8915182cbd3759eebe6d]] 2020.6 --Apache Sparkは大規模なデータ処理のための統合分析エンジンである。 *Snowflake [#dec7f22c] -[[おい、誰も騒いでないから騒ぐけどExternal Network AccessっていうSnowflakeから外部へアクセスできる機能、データサイロ完全にぶっ壊せるぞ。 - dely Tech Blog>https://tech.dely.jp/entry/snowflake-external-network-access]] 2023.10 -[[Snowflakeさわってみた。Excelから接続してデータ取得してみた。|分析屋|note>https://note.com/bunsekiya_tech/n/n77f6ce04c236]] 2023.2 -[[SnowflakeのSEQ関数は、慎重に使いましょう。 - REVISIO Tech Blog>https://tech.revisio.co.jp/entry/2023/02/01/094600]] 2023.2 -[[Snowflakeに中森明菜データレイク(通称NADL)を構築しました | DevelopersIO>https://dev.classmethod.jp/articles/nadl/]] 2023.2 -[[Snowflakeさわってみた。|分析屋|note>https://note.com/bunsekiya_tech/m/m3ef515172097]] 2022 --[[Snowflakeさわってみた。Snowparkのpython試してみた。|分析屋|note>https://note.com/bunsekiya_tech/n/n0875ad8045fb]] 2023.1 -[[Snowflakeドキュメントへようこそ — Snowflake Documentation>https://docs.snowflake.com/ja/index.html]] 2023.1 -[[2022年末、改めて「Snowflakeとは?」を簡単に説明する #SnowflakeDB | DevelopersIO>https://dev.classmethod.jp/articles/snowflake-advent-calendar-2022-benefis-of-snowflake/]] 2022.12 *データレイク/DWH/ETL [#c81b9dd4] →AWS データ処理系サービス <AWS Glueについてはこちら →データ移行 -[[モダンなタスク管理を可能にするSnowflake Python API>https://zenn.dev/dataheroes/articles/4d35c4e85a2cfb]] 2024.3 -[[【Databricks】dbdemos(lakehouse-fsi-fraud) 解説マニュアル - Qiita>https://qiita.com/Sugiyama_Shingo/items/0e633cd3266ee2b22cc0]] 2023.4 -[[Google Cloud:BigQueryについてIT未経験者向けに解説します | DevelopersIO>https://dev.classmethod.jp/articles/google-cloud-bigquery-firsttime-person/]] 2023.3 **ETL/ELT [#hd1df911] -[[dbtのPython modelを手軽に使い始めるには - ユニファ開発者ブログ>https://tech.unifa-e.com/entry/2023/03/14/112518]] 2023.3 -[[AWSが提唱するゼロETLとは何か?概念と登場の背景の推察 - NRIネットコムBlog>https://tech.nri-net.com/entry/what_is_a_zero_etl_future]] 2023.2 -[[データ変換処理をモダンな手法で開発できる「dbt」を使ってみた | DevelopersIO>https://dev.classmethod.jp/articles/dbt-tutorial/]] 2020 -[[What is ELT (Extract, Load, Transform)? | IBM>https://www.ibm.com/cloud/learn/elt]] 2021 --What is ELT (Extract, Load, Transform)? | IBM>https://www.ibm.com/cloud/learn/elt -[[なぜETLではなくELTが流行ってきたのか - Qiita>https://qiita.com/hiro_koba_jp/items/f7f85511937cb6603a65]] 2022.12 -ETL (Extract, Transform, Load) と ELT (Extract, Load, Transform) は、データの移動と変換に関する異なるアプローチを指します。 --ETLは、データを抽出し、それを変換し、それからデータベースやデータウェアハウスにロードすることを意味します。これは、データソースからのデータを特定のフォーマットに変換し、分析やレポーティングのために使用できるようにするために使用されます。 --ELTは、データを抽出し、それをデータベースやデータウェアハウスにロードし、その後変換することを意味します。これは、データベースやデータウェアハウスが変換処理を行うことができる場合に使用されます。 --ETLよりもELTは、データベースやデータウェアハウスが持つ高度な機能を使用して変換処理を行うため、処理が高速になります。 **データレイク [#z65c6642] -[[【書籍】AWSではじめるデータレイク: クラウドによる統合型データリポジトリ構築入門>https://amzn.to/3FKOJ1r]] -[[データ基盤のアーキテクチャ進化を追っていく。|分析屋|note>https://note.com/bunsekiya_tech/n/nb8a119ec2f62]] 2023.1 -[[新しいデータ基盤アーキテクチャである「データレイクハウス」について調べてみた - Taste of Tech Topics>https://acro-engineer.hatenablog.com/entry/2022/11/24/120000]] 2022.11 -[[Delta Lake とは何か - connecting the dots>https://ktksq.hatenablog.com/entry/deltalake]] 2022.9 -[[データレイクの概念について理解する - connecting the dots>https://ktksq.hatenablog.com/entry/datalake]] 2022.2 * Hadoop [#u67c5cc4] -http://hadoop.apache.org/ -[[日々進化するHadoop。これまでのおさらいと最近の動向(前編)>http://www.publickey1.jp/blog/12/hadoop_2.html]] 2012.8.27 -[[Writing An Hadoop MapReduce Program In Python>http://www.michael-noll.com/tutorials/writing-an-hadoop-mapreduce-program-in-python/]] 2012.6.5 -[[Hadoopの現在>http://d.hatena.ne.jp/okachimachiorz/20110918/1316356041]] 2011.9.18 -[[いまさら聞けないHadoopとテキストマイニング入門>http://www.atmarkit.co.jp/fjava/rensai4/hadoop_tm01/01.html]] 2011.6.11 --[[実践! 「MapReduceでテキストマイニング」徹底解説>http://www.atmarkit.co.jp/fjava/rensai4/hadoop_tm02/01.html]] -[[連載:企業で使われるHadoop>http://thinkit.co.jp/book/2010/06/04/1574]] -[[そろそろHadoopについてひとこと言っておくか>http://d.hatena.ne.jp/nokuno/20110103/1294013318]] 2011.1.3 --HadoopとはGoogleのMapReduce/GFSのオープンソースのクローンです。 * MapReduce [#o4b4bcf8] -[[MapReduceは今後どうなるのか?>http://d.hatena.ne.jp/okachimachiorz/20121008/1349693422]] 2012.10.8 -[[MapReduceできる10個のアルゴリズム>>http://d.hatena.ne.jp/isseing333/20120528/1338130933]] 2012.5.28 -[[Mapreduce2.0>http://d.hatena.ne.jp/okachimachiorz/20111020/1319116614]] 2011.10.20 -[[key-valueストアの基礎知識>http://www.shudo.net/article/201002-Software-Design-KVS/]] 2010.1.5