為何需要把 Excel 巨集加入自動化產生報表的流程? 全部都用 Python 不香嗎?

很多時候分析師與資料科學家在產出報表時,需要考慮到報表使用者的習慣,例如是否進行資料篩選、產出樞紐報表和資料排序...等。而 Excel 正是非程式專業的人最常用的資料分析工具,特別是樞紐分析表,給了分析者在敘述統計領域上很大的操作空間。

Dataframe 的基本操作

  1. 在本地主機載入和儲存 dataframe
import pandas# csv
df = pd.read_csv('./file_name.csv')
# j …
如果你的電腦沒有足夠的內存幫你處理大量的數據,也許Python 的 Generator 可以幫助到你

為何會需要使用 Generator?

如果你是一名資料科學家,也許你時常會需要處理大量的資料,但如果電腦沒有足夠的內存時,就會容易發生 memory error,以下就舉兩個可能的情境(我瞎想的):


假設今天有一部小說要改編成電影,電影公司想要藉由機器學習的方法預測哪一些章節串連起來可能可以讓觀看者在觀看電影時有足夠的情緒起伏,但一本小說會有多個章節,每個章節又都有大量的文字,若想要一 …

If you want to know the visualization method, please refer to this article. I will only present the results and my findings. Or you can find the code on my Github.

Why do we need to understand parallel processing?

I think the direct reason is we can use computational resources sufficiently on our machines. It is meant to reduce the overall processing time. But not every task is suitable for parallel processing. Even it is feasible, ways of parallel processing have different timing to apply.

Explain the principle of parallel processing

In Python, we have…

“I hope this article can help someone who interesting in natural language processing (NLP).”

1. import libraries and load data

# basic libraries
import pandas as pd
import numpy as np
# help data frame can show side by side
from IPython.display import display,HTML
# statistic libraries
import seaborn as sns
from scipy import stats

