データ処理関連の履歴ソース(No.11)

#author("2023-02-07T17:54:32+09:00","default:irrp","irrp")
→文字コード関連

→正規表現

→自然言語処理／全文検索



#contents


*サブトピック [#yd76620e]
-データベース関連
-データサイエンス
-データ移行
-開発に役立つデータ
-データ形式／データフォーマット
-AWS データ処理系サービス


*データ処理 [#cab95ee0]
-[[データマネジメントにおけるメタデータ管理についてまとめてみた | DevelopersIO>https://dev.classmethod.jp/articles/data-management-metadata-think/]] 2023.2

-[[私が妄想している最強のデータ基盤2023>https://zenn.dev/jimatomo/articles/ed4865d0f5a9a8]] 2023.1

-[[データ分析プロジェクトに使用するクラウドサービス完全まとめガイド - Qiita>https://qiita.com/hryk_nu/items/256a5392893e03b58ef6]] 2022.12

-[[Python + BigQuery の始め方 - RevComm Tech Blog>https://tech.revcomm.co.jp/get-started-bigquery-with-python]] 2022.12

-[[東京都の人口統計データ（CSV）をGoogle Mapsで可視化してみた | DevelopersIO>https://dev.classmethod.jp/articles/to-visualize-demographic-data-csv-of-tokyo-with-google-maps/]] 2022.8
-[[東京都の人口統計データをAmazon QuickSightのpoints mapで可視化してみた | DevelopersIO>https://dev.classmethod.jp/articles/to-visualize-the-demographic-data-of-tokyo-with-amazon-quicksights-points-map/]] 2022.8

-[[Fundamentals of Data Visualization>https://clauswilke.com/dataviz/]] 2022.6
--オライリー本
--The book is meant as a guide to making visualizations that accurately reflect the data, tell a story, and look professional.

-[[Apache Beam (Dataflow) 実践入門【Python】>https://qiita.com/esakik/items/3c5c18d4a645db7a8634]] 2020.9

-[[逆引きPySpark (3.文字列編) - Qiita>https://qiita.com/motokazu_ishikawa/items/88af3d3b92f7e1e22bb7]] 2023.1
-[[Apache Sparkの概要>https://qiita.com/whata/items/8915182cbd3759eebe6d]] 2020.6
--Apache Sparkは大規模なデータ処理のための統合分析エンジンである。

-[[米国大統領選に見るソーシャルとビッグデータの役割>http://www.kddi-ri.jp/pdf/KDDI-RA-201212-01-PRT.pdf]] 2013.1.4

-[[ビッグデータ予測が16人中15人的中――AKB48選抜総選挙>http://business.nikkeibp.co.jp/article/nmgp/20120607/233038/]] 2012.6.7

-[[「ビッグデータ」のビッグ（Big）は「ビッグマック」のビッグとは違う。でも、やっぱり、数（量）は力なり・・なのだ。>http://newmktg.typepad.jp/blog/2012/03/%E3%83%93%E3%83%83%E3%82%B0%E3%83%87%E3%83%BC%E3%82%BF%E3%81%AE%E3%83%93%E3%83%83%E3%82%B0big%E3%81%AF%E3%83%93%E3%83%83%E3%82%B0%E3%83%9E%E3%83%83%E3%82%AF%E3%81%AE%E3%83%93%E3%83%83%E3%82%B0%E3%81%A8%E3%81%AF%E9%81%95%E3%81%86%E3%81%A7%E3%82%82%E5%A4%A7%E3%81%8D%E3%81%84%E3%81%93%E3%81%A8%E3%81%AF%E3%82%84%E3%81%A3%E3%81%B1%E3%82%8A%E3%81%84%E3%81%84%E3%81%93.html]] 2012.3.12

-[[ビッグデータ処理の常識をJavaで身につける>http://www.atmarkit.co.jp/fjava/index/index_bigdata_java.html]]


*Snowflake [#dec7f22c]
-[[Snowflakeに中森明菜データレイク（通称NADL）を構築しました | DevelopersIO>https://dev.classmethod.jp/articles/nadl/]] 2023.2

-[[Snowflakeさわってみた。Snowparkのpython試してみた。｜分析屋｜note>https://note.com/bunsekiya_tech/n/n0875ad8045fb]] 2023.1

-[[Snowflakeドキュメントへようこそ &#8212; Snowflake Documentation>https://docs.snowflake.com/ja/index.html]] 2023.1
-[[2022年末、改めて「Snowflakeとは？」を簡単に説明する #SnowflakeDB | DevelopersIO>https://dev.classmethod.jp/articles/snowflake-advent-calendar-2022-benefis-of-snowflake/]] 2022.12


*データレイク/DWH/ETL [#c81b9dd4]
→AWS データ処理系サービス ＜AWS Glueについてはこちら


**ETL/ELT [#hd1df911]
-[[データ変換処理をモダンな手法で開発できる「dbt」を使ってみた | DevelopersIO>https://dev.classmethod.jp/articles/dbt-tutorial/]] 2020

-[[What is ELT (Extract, Load, Transform)? | IBM>https://www.ibm.com/cloud/learn/elt]] 2021
--What is ELT (Extract, Load, Transform)? | IBM>https://www.ibm.com/cloud/learn/elt
-[[なぜETLではなくELTが流行ってきたのか - Qiita>https://qiita.com/hiro_koba_jp/items/f7f85511937cb6603a65]] 2022.12

-ETL (Extract, Transform, Load) と ELT (Extract, Load, Transform) は、データの移動と変換に関する異なるアプローチを指します。
--ETLは、データを抽出し、それを変換し、それからデータベースやデータウェアハウスにロードすることを意味します。これは、データソースからのデータを特定のフォーマットに変換し、分析やレポーティングのために使用できるようにするために使用されます。
--ELTは、データを抽出し、それをデータベースやデータウェアハウスにロードし、その後変換することを意味します。これは、データベースやデータウェアハウスが変換処理を行うことができる場合に使用されます。
--ETLよりもELTは、データベースやデータウェアハウスが持つ高度な機能を使用して変換処理を行うため、処理が高速になります。


**データレイク [#z65c6642]
-[[データ基盤のアーキテクチャ進化を追っていく。｜分析屋｜note>https://note.com/bunsekiya_tech/n/nb8a119ec2f62]] 2023.1

-[[新しいデータ基盤アーキテクチャである「データレイクハウス」について調べてみた - Taste of Tech Topics>https://acro-engineer.hatenablog.com/entry/2022/11/24/120000]] 2022.11
-[[Delta Lake とは何か - connecting the dots>https://ktksq.hatenablog.com/entry/deltalake]] 2022.9
-[[データレイクの概念について理解する - connecting the dots>https://ktksq.hatenablog.com/entry/datalake]] 2022.2


* Hadoop [#u67c5cc4]
-http://hadoop.apache.org/

-[[日々進化するHadoop。これまでのおさらいと最近の動向（前編）>http://www.publickey1.jp/blog/12/hadoop_2.html]] 2012.8.27

-[[Writing An Hadoop MapReduce Program In Python>http://www.michael-noll.com/tutorials/writing-an-hadoop-mapreduce-program-in-python/]] 2012.6.5

-[[Hadoopの現在>http://d.hatena.ne.jp/okachimachiorz/20110918/1316356041]] 2011.9.18

-[[いまさら聞けないHadoopとテキストマイニング入門>http://www.atmarkit.co.jp/fjava/rensai4/hadoop_tm01/01.html]] 2011.6.11
--[[実践！ 「MapReduceでテキストマイニング」徹底解説>http://www.atmarkit.co.jp/fjava/rensai4/hadoop_tm02/01.html]]

-[[連載：企業で使われるHadoop>http://thinkit.co.jp/book/2010/06/04/1574]]

-[[そろそろHadoopについてひとこと言っておくか>http://d.hatena.ne.jp/nokuno/20110103/1294013318]] 2011.1.3
--HadoopとはGoogleのMapReduce/GFSのオープンソースのクローンです。


* MapReduce [#o4b4bcf8]
-[[MapReduceは今後どうなるのか？>http://d.hatena.ne.jp/okachimachiorz/20121008/1349693422]] 2012.10.8

-[[MapReduceできる10個のアルゴリズム>>http://d.hatena.ne.jp/isseing333/20120528/1338130933]] 2012.5.28

-[[Mapreduce2.0>http://d.hatena.ne.jp/okachimachiorz/20111020/1319116614]] 2011.10.20

-[[key-valueストアの基礎知識>http://www.shudo.net/article/201002-Software-Design-KVS/]] 2010.1.5
データ処理関連 の履歴ソース(No.11)

データ処理関連の履歴ソース(No.11)