#author("2024-03-21T19:10:34+09:00","default:irrp","irrp")
#author("2024-04-17T23:43:08+09:00","default:irrp","irrp")
→データ処理関連

→Python関連

#contents


*一般 [#ud0bdac5]
-[[[python / pandas] DataFrame を扱う人が覚えておきたい、ちょっとレアな便利技16選 #Python - Qiita>https://qiita.com/siruku6/items/4bd337d80d7aaceae542]] 2024.3

-[[データ解析用ライブラリ #Python - Qiita>https://qiita.com/inoshun/items/0f3630a1f3828d477acd]] 2024.3
--Dask,Polars,Vaex,Xarray,Bottleneck,PyTables,Blaze,Numba,Swifter,Modin

-[[【Python】pandasでEUC-JPの全角ハイフンがUTF-8に上手く変換できない際の対処法 | DevelopersIO>https://dev.classmethod.jp/articles/python-euc-jp-hyphen/]] 2024.1

-[[新しいデータ処理ライブラリの学習はもう不要! Python 初学者のための Ibis 100 本ノック #Python - Qiita>https://qiita.com/kunishou/items/e0244aa2194af8a1fee9]] 2024.1

-[[Pandasでメモリを効率的に扱うテクニック5選 - RAKSUL TechBlog>https://techblog.raksul.com/entry/2023/12/22/110601]] 2023.12
--サンプリングをしデータの行数を減らす
--サブセットを抽出しデータの列数を減らす
--データを分割して読み込む
--扱うデータタイプを変える
--Parquet形式で保存をする

-[[知っていますか?Pandasをノーコーディングで高速化(CPU環境でも)できるらしい #Python - Qiita>https://qiita.com/DeepTama/items/09b5f57654aa7a8af6a7]] 2023.12
--FireDucks

-[[Pythonの機械学習ライブラリ(pandas)を使って、回帰アルゴリズムで不動産価格を予測しよう|CodeZine(コードジン)>https://codezine.jp/article/detail/18632]] 2023.11

-[[Import を変更するだけで高速化!? Pandas 互換ライブラリ FireDucks を検証する #Python - Qiita>https://qiita.com/key353/items/92eb323a82a6f3e2a284]] 2023.10

-[[pandasにそっと左手を添えるだけで処理速度が爆速に - Qiita>https://qiita.com/inoshun/items/d3e0a8041551edb30fea]] 2023.8
--Swifter

-[[Pandasの繰り返し処理を最適化してiterrowsの約1000倍速くする話 - Qiita>https://qiita.com/admjgptw1357/items/4a12934fdeca2125a7e2]] 2023.4

-[[Pandas 49本かんたんノック! - Qiita>https://qiita.com/DeepTama/items/f70aaebae130b1c19485]] 2023.4

-[[PandasにおけるDataFrameが空かどうかを確認する | Men of Letters(メン・オブ・レターズ) – 論理的思考/業務改善/プログラミング>https://laboratory.kazuuu.net/determine-if-the-dataframe-in-pandas-is-empty/]]
--df.empty プロパティで判定する。len(df) は良くない

-[[【データ分析入門】 Pandas DataFrameの使い方をマスターしよう! | キカガクの技術ブログ>https://blog.kikagaku.co.jp/pandas-dataframe]] 2023.7
-[[これだけ覚えたいPandas DataFrame操作 - Qiita>https://qiita.com/yulily/items/d8d15af6dce84a4bea35]] 2023.2

-[[Pandasのメモリ削減方法を整理した - Taste of Tech Topics>https://acro-engineer.hatenablog.com/entry/2022/12/12/124822]] 2022.12

-[[お前らのpandasの使い方は間違っている - Qiita>https://qiita.com/141sksk/items/9883be05a3851c90d1d1]] 2022.12
--DataFrameをforループで使うな
--メモリを浪費するな
--警告を無視するな
--「とりあえずpandasで処理しよう」はやめろ
--pandasでデータを扱う際にはNaN(欠損値)を見逃すな

-[[【Python】文字列から数値への変換|Pandasデータフレーム | Pyhoo(パイフー)>https://pyhoo.jp/str-int#Python%E3%81%AB%E3%82%88%E3%82%8B%E6%96%87%E5%AD%97%E5%88%97%E3%81%8B%E3%82%89%E6%95%B0%E5%80%A4%E3%81%B8%E3%81%AE%E5%A4%89%E6%8F%9B%E3%81%AB%E3%81%A4%E3%81%84%E3%81%A6]] 2022.11

-[[Pandasのよく使われる処理をSnowparkにマッピングしてみた - Qiita>https://qiita.com/takada_tf/items/62f0337d80508631db57]] 2022.11

-[[Pandas_Cheat_Sheet.pdf>https://pandas.pydata.org/Pandas_Cheat_Sheet.pdf]] 2022.11

-[[Pandas DataFrame のセルの値を取得する方法 | Delft スタック>https://www.delftstack.com/ja/howto/python-pandas/how-to-get-a-value-from-a-cell-of-a-dataframe/]] 2020

-[[Pandas卒業?大規模データを様々なパッケージで高速処理してみる/pyconjp2022-hpc - Speaker Deck>https://speakerdeck.com/mhrtech/pyconjp2022-hpc]] 2022.10
--Pandas, dask, vaex, Apache Spark

-[[Pandas DataFrame の列の平均を取得する方法 | Delft スタック>https://www.delftstack.com/ja/howto/python-pandas/how-to-get-average-of-a-column-of-a-pandas-dataframe/]] 2020
 ret:float = df['数量'].mean()

-[[Pandas.DataFrameの表示設定を変更する | 分析ノート>https://analytics-note.xyz/programming/pandas-options-display/]] 2022.3
--表示の横幅は下記のように設定
 pandas.set_option('display.width', 120)

-[[【Python】Pandasのデータフレームを省略せずに表示する方法を紹介!│Python初心者の備忘録>https://py-memo.com/python/pandas-display/]] 
 pd.set_option('display.max_rows', 150)
 pd.set_option('display.max_columns', 5)

-[[pandas-datareader — pandas-datareader 0.10.0 documentation>https://pandas-datareader.readthedocs.io/en/latest/]] 2021
--Includes data for stocks, FX, economic indicators, Fama-French factors, and many others.

-[[【pandas】前処理でよく使うコード - Qiita>https://qiita.com/takesssssy/items/049f6028ee73a2c96611]] 2022.8


*Pandas AI [#l70e8876]
-[[Pandas AIとは何か?>https://zenn.dev/voicy/articles/878b07ec84acc8]] 2023.7
-[[pandasにAIのチカラが宿る?PandasAIを試してみた | DevelopersIO>https://dev.classmethod.jp/articles/tried-pandas-ai/]] 2023.5



* 日付処理 [#a8cacfb5]
-対象月の末日を求める
 # yyyymm には YYYY/MM 形式で年月が入っている前提
 s2: str = yyyymm + "/" + str(pd.Period(yyyymm).days_in_month)

-[[メモ:pythonで月末日を取得する方法 (月初日も追記) - Qiita>https://qiita.com/peketamin/items/c38de79e2a3946ec2358#datetimetimedeltadays1-%E3%82%92%E4%BD%BF%E3%81%86%E6%96%B9%E6%B3%95]]


* DataFrameのソート [#od1a0cc1]
-[[図解!Pandas DataFrameのソート徹底解説(sort_values・index) - AI-interのPython3入門>https://ai-inter1.com/pandas-dataframe_sort/]] 2022.9

-[[pandas.DataFrame, Seriesをソートするsort_values, sort_index | note.nkmk.me>https://note.nkmk.me/python-pandas-sort-values-sort-index/]] 2018


* DataFrame行の抽出,結合 [#y2deaa05]
-[[Pandas: How to Use Groupby and Count with Condition - Statology>https://www.statology.org/pandas-groupby-count-with-condition/]] 2022.6
-[[pandas Tutorial => Select distinct rows across dataframe>https://riptutorial.com/pandas/example/26077/select-distinct-rows-across-dataframe]] 2022.12

-[[pandasのDataFrameから期間を範囲指定して抽出する - Qiita>https://qiita.com/mSpring/items/6ec1ab28dcb261db2c73]] 2019

-[[pandas.DataFrameを結合するmerge, join(列・インデックス基準) | note.nkmk.me>https://note.nkmk.me/python-pandas-merge-join/]] 2022.10

-[[pandasでデータ加工をおこなうには - Qiita>https://qiita.com/hiroaki_yoshida/items/e5e8551222046b5df03d]] 2022.10
--select, left joinなど

-[[[Python]PandasのSeriesの使い方 - Qiita>https://qiita.com/yudsuzuk/items/37062cadb52daa604d9f]] 2016

-[[How to Use "NOT IN" Filter in Pandas (With Examples) - Statology>https://www.statology.org/pandas-not-in/]] 2021

-[[PandasのDataFrameで条件抽出する方法まとめ - DeepAge>https://deepage.net/features/pandas-cond-extraction.html]] 2018

-[[pandasで特定の文字列を含む行を抽出(完全一致、部分一致) | note.nkmk.me>https://note.nkmk.me/python-pandas-str-contains-match/]] 2022.10
 cond: Series = am.data_frame['商品名'].str.contains(wid, na=False)



*ファイル読み込み [#d40d5a72]
-[[pandasでのファイル読み込みで、デフォルトパラメータを使うことに注意したほうがよいもの #pandas - Qiita>https://qiita.com/h_hiro_/items/281eafec889334540764]] 2024.1

-[[pandasで外部ファイルを読み込むときのdtype=strに気を付けろ - Qiita>https://qiita.com/nicco_mirai/items/f54383e8e2ecfbf16ead]]
--nullの扱いがcsv, xlsx, json で異なる

-Pandas で csv 読み込みする例
    with open(csv_file_name, 'r', encoding='utf-8-sig', errors='strict', newline='') as csv_file:
        df = pd.read_csv(filepath_or_buffer=csv_file, encoding="utf-8-sig", sep=",", dtype=str)


*入門記事 [#e49ae64f]
-[[ChatGPT-4と始める Python CSVデータ可視化 & 爆速Webアプリ化 - Qiita>https://qiita.com/key353/items/ae6131ffea178c960fdd]] 2023.4

-[[pandas/doc/cheatsheet at main · pandas-dev/pandas · GitHub>https://github.com/pandas-dev/pandas/tree/main/doc/cheatsheet]] 2022.4
-[[pandasチュートリアル on Jupyter Notebook - Qiita>https://qiita.com/DeepTama/items/c2566f41e09470aeb661]] 2022.1
-[[pandasチュートリアル - Qiita>https://qiita.com/DeepTama/items/983dcee3d522f4e9f07a]] 2022.1



*Polars [#i93a35f6]
-[[PandasからPolarsへ移行した方がいいのか #Python - Qiita>https://qiita.com/inoshun/items/30e4e78cbf221bf11a86]] 2024.4

-[[import polars as pd でどこまでいけるか! #Python - Qiita>https://qiita.com/yururoi/items/4d1690bdce77dcfab33a]] 2023.11

-[[Polarsの並列処理に触れてみる - Intelligent Technology's Technical Blog>https://iti.hatenablog.jp/entry/2023/09/05/131746]] 2023.9

-[[Pandas → Polars 早見表>https://zenn.dev/bee2/articles/e8623a603752ff]] 2023.5

-[[テーブルデータ処理に悩むあなたに朗報!Polarsの使い方を徹底解説 その3:UDF・日付型 | DevelopersIO>https://dev.classmethod.jp/articles/polars-tutorial-003-datetime-udf/]] 2023.2

-[[Polars, 旬の13のお役立ち機能 - Qiita>https://qiita.com/hkzm/items/8427829f6aa7853e6ad8]] 2023.2

-[[テーブルデータ処理に悩むあなたに朗報!Polarsの使い方を徹底解説 その2:重複・欠損処理編、ほか | DevelopersIO>https://dev.classmethod.jp/articles/2023-02-16_polars-tutorial-002-duplicate-null/]] 2023.2

-[[Python初学者のためのPolars100本ノック - Qiita>https://qiita.com/kunishou/items/1386d14a136f585e504e]] 2023.2

-[[超高速、、だけじゃない!Pandasに代えてPolarsを使いたい理由 - Qiita>https://qiita.com/_jinta/items/fac13f09e8e8a5769b79]] 2022.12

-[[pandasから移行する人向け polars使用ガイド - Qiita>https://qiita.com/nkay/items/9cfb2776156dc7e054c8]] 2022.10

トップ   編集 差分 履歴 添付 複製 名前変更 リロード   新規 一覧 検索 最終更新   ヘルプ   最終更新のRSS