05 ten_years_stock

06 Nov 2017 | 242 Minute Read on Visualization

10 Years Korea Stock Price¶

KOSPI 200 종목을 대상으로 10년 동안 수익률에 대해 시각화 하였음
200종목을 11개의 산업으로 분류 하였음(gics 기준)
주가는 Yahoo Finance에서 다운을 받아 수정 종가가 아닌 일반 종가를 사용하여 수익률을 계산하였음

In [1]:

%matplotlib inline
import matplotlib 
import matplotlib.pyplot as plt
import pandas as  pd
from pandas_datareader import data, wb  
from datetime import datetime
import seaborn as sns
import squarify

import matplotlib.font_manager as fm
import matplotlib
font_location = "/usr/share/fonts/truetype/nanum/NanumGothic.ttf"
font_name = fm.FontProperties(fname=font_location).get_name()
matplotlib.rc('font', family=font_name)

from pylab import rcParams
rcParams['figure.figsize'] = 16, 10

from pandas_datareader import data as pdr
import fix_yahoo_finance as yf
import numpy as np

/home/bono/anaconda3/lib/python3.5/site-packages/fix_yahoo_finance/__init__.py:43: DeprecationWarning: 
    Auto-overriding of pandas_datareader's get_data_yahoo() is deprecated and no longer available.
    Use pdr_override() to explicitly override it.
  DeprecationWarning)

In [3]:

df_prices = pd.read_csv("yahoo_prices.csv")
startday = datetime(2007, 1, 1)
endday = datetime(2017, 9, 18)
# download dataframe
df_kospi = pdr.get_data_yahoo('^KS11', start=startday, end=endday)
#gics = pd.read_excel("gics.xlsx", converters={'상장주식수(주)':float})
gics = pd.read_excel("gics.xlsx", converters={'scode':str})
gics = gics.rename(columns={'업종': 'sector','종목명': 'asset','거래대금(원)':'tr_vol','상장시가총액(원)':'mar_cap'})
gics = gics[['sector', 'scode', 'asset','mar_cap', 'tr_vol' ]]
gics['sector'][gics['sector'].str.contains('정보')] = '정보기술'
gics.head(10)

Out[3]:

	sector	scode	asset	mar_cap	tr_vol
0	소재	006840	AK홀딩스	895535123600	1646716200
1	소재	155660	DSR	87040000000	441700520
2	소재	037370	EG	75750000000	11451526990
3	소재	032860	GMR 머티리얼즈	37745233280	162892924
4	소재	036640	HRS	71634024000	275362300
5	소재	036670	KCI	76748700000	39083330
6	소재	109070	KGP	26720613920	4758607500
7	소재	001390	KG케미칼	236143543500	3483761950
8	소재	001940	KISCO홀딩스	269016092800	106181500
9	소재	083420	KPX그린케미칼	92400000000	21469310

In [4]:

#gics.rename(columns={'업종':'sector','종목명':'asset'},inplace=True)

df_prices.rename(columns={'Date':'date','sname':'asset','Cl':'close'},inplace=True)
df_prices = df_prices.merge(gics[['sector','asset','mar_cap']], left_on='asset', right_on='asset' )
df_prices = df_prices[['date','sector','asset','close','mar_cap']]

In [5]:

df_170901 = df_prices[df_prices['date'] == '2017-09-01']

WordCloud를 사용하여 Kospi200 종목들을 표시함¶

In [6]:

from wordcloud import WordCloud
df_170901['asset'].values
dlist = (df_170901['asset'].values)
#wordcloud = WordCloud(font_path= "/usr/share/fonts/truetype/nanum/NanumGothic.ttf" ).generate(str(dlist))
wordcloud = WordCloud(font_path= "/usr/share/fonts/truetype/nanum/NanumGothic.ttf", relative_scaling = 0.2, 
                    min_font_size = 5, max_font_size = 20 ).generate(str(dlist))

fig = plt.figure(1)
plt.imshow(wordcloud)
plt.axis('off')
plt.show()
fig.savefig("word1.png", dpi=900)

/home/bono/anaconda3/lib/python3.5/site-packages/wordcloud/wordcloud.py:32: ResourceWarning: unclosed file <_io.TextIOWrapper name='/home/bono/anaconda3/lib/python3.5/site-packages/wordcloud/stopwords' mode='r' encoding='UTF-8'>
  os.path.join(os.path.dirname(__file__), 'stopwords')).read().split('\n')])

In [7]:

grby1 = df_170901.groupby('sector').count().reset_index()

In [8]:

grby1  = grby1.sort_values('date',ascending=True)
df_170901.head()

Out[8]:

	date	sector	asset	close	mar_cap
2654	2017-09-01	금융	우리은행	18550.0	12201800000000
5320	2017-09-01	자유소비재	경방	14700.0	371476908500
7986	2017-09-01	필수소비재	삼양홀딩스	105500.0	829877859900
9949	2017-09-01	필수소비재	하이트진로	24850.0	1767366997200
12615	2017-09-01	산업재	대림산업	85400.0	2832720000000

산업별 분류¶

In [9]:

height = grby1['date']
bars = grby1['sector']
y_pos = np.arange(len(bars))

plt.bar(y_pos, height)
plt.xticks(y_pos, bars)
plt.show()
#https://python-graph-gallery.com/1-basic-barplot/

시가총액별 TreeMap¶

In [10]:

squarify.plot(sizes=df_170901['mar_cap'], label=df_170901['asset'], alpha=.8,  ) 
plt.axis('off')

Out[10]:

(0.0, 100.0, 0.0, 100.0)

In [11]:

df_prices.head()

Out[11]:

	date	sector	asset	close	mar_cap
0	2007-01-02	금융	우리은행	21486.900391	12201800000000
1	2007-01-03	금융	우리은행	21039.300781	12201800000000
2	2007-01-04	금융	우리은행	20591.599609	12201800000000
3	2007-01-05	금융	우리은행	20342.900391	12201800000000
4	2007-01-08	금융	우리은행	19994.800781	12201800000000

df_prices(Kospi200 종목들 데이터)와 df_kospi를 merge¶

In [12]:

#df_prices를 피봇 처리
df_prices= df_prices.pivot_table(values= 'close', index = 'date', columns= ['sector','asset'])

In [13]:

df_prices.head()

Out[13]:

sector	건강관리										...	필수소비재
asset	JW중외제약	JW홀딩스	광동제약	녹십자	녹십자홀딩스	대웅제약	동아쏘시오홀딩스	동아에스티	보령제약	부광약품	...	아모레퍼시픽	에이블씨엔씨	오뚜기	오리온	이마트	코스맥스	팜스코	하이트진로	한국콜마	현대그린푸드
date
2007-01-02	17956.699219	NaN	3020.0	52449.800781	5954.549805	49160.300781	58425.699219	NaN	15046.599609	9416.349609	...	56300.0	NaN	100500.0	12771.900391	NaN	NaN	1990.0	NaN	NaN	7300.0
2007-01-03	17210.900391	NaN	3030.0	51072.000000	5927.270020	48825.300781	57111.898438	NaN	14940.099609	9227.480469	...	53800.0	NaN	98000.0	12452.599609	NaN	NaN	1965.0	NaN	NaN	7010.0
2007-01-04	17466.000000	NaN	2970.0	51255.699219	5918.180176	48909.101563	56143.898438	NaN	14922.400391	9308.419922	...	52500.0	NaN	95900.0	12231.599609	NaN	NaN	1895.0	NaN	NaN	6830.0
2007-01-05	17073.500000	NaN	2960.0	49694.101563	5909.089844	48574.101563	54899.398438	NaN	14886.900391	9443.330078	...	52500.0	NaN	94000.0	12354.400391	NaN	NaN	1930.0	NaN	NaN	6900.0
2007-01-08	16582.900391	NaN	2970.0	49326.699219	5909.089844	47150.398438	53931.398438	NaN	14940.099609	9227.480469	...	53400.0	NaN	94000.0	12477.200195	NaN	NaN	1930.0	NaN	NaN	6780.0

5 rows × 200 columns

In [14]:

df_kospi.rename(columns={'Date':'date','Close':'kospi'},inplace=True)
df_kospi = df_kospi[['kospi']]
df_kospi.columns = pd.MultiIndex.from_tuples([('index','kospi')])
df_pr = df_kospi.merge(df_prices, left_index = True, right_index = True)

In [15]:

df_pr.head(5)

Out[15]:

	index	건강관리									...	필수소비재
	kospi	JW중외제약	JW홀딩스	광동제약	녹십자	녹십자홀딩스	대웅제약	동아쏘시오홀딩스	동아에스티	보령제약	...	아모레퍼시픽	에이블씨엔씨	오뚜기	오리온	이마트	코스맥스	팜스코	하이트진로	한국콜마	현대그린푸드
2007-01-02	1435.260010	17956.699219	NaN	3020.0	52449.800781	5954.549805	49160.300781	58425.699219	NaN	15046.599609	...	56300.0	NaN	100500.0	12771.900391	NaN	NaN	1990.0	NaN	NaN	7300.0
2007-01-03	1409.349976	17210.900391	NaN	3030.0	51072.000000	5927.270020	48825.300781	57111.898438	NaN	14940.099609	...	53800.0	NaN	98000.0	12452.599609	NaN	NaN	1965.0	NaN	NaN	7010.0
2007-01-04	1397.290039	17466.000000	NaN	2970.0	51255.699219	5918.180176	48909.101563	56143.898438	NaN	14922.400391	...	52500.0	NaN	95900.0	12231.599609	NaN	NaN	1895.0	NaN	NaN	6830.0
2007-01-05	1385.760010	17073.500000	NaN	2960.0	49694.101563	5909.089844	48574.101563	54899.398438	NaN	14886.900391	...	52500.0	NaN	94000.0	12354.400391	NaN	NaN	1930.0	NaN	NaN	6900.0
2007-01-08	1370.810059	16582.900391	NaN	2970.0	49326.699219	5909.089844	47150.398438	53931.398438	NaN	14940.099609	...	53400.0	NaN	94000.0	12477.200195	NaN	NaN	1930.0	NaN	NaN	6780.0

5 rows × 201 columns

월별 수익률 계산¶

In [16]:

#  일별 시계열을 월별로 resample 함
df_prm = df_pr.resample('BM').apply(lambda x:x[-1])

In [17]:

df_prm.head(5)

Out[17]:

	index	건강관리									...	필수소비재
	kospi	JW중외제약	JW홀딩스	광동제약	녹십자	녹십자홀딩스	대웅제약	동아쏘시오홀딩스	동아에스티	보령제약	...	아모레퍼시픽	에이블씨엔씨	오뚜기	오리온	이마트	코스맥스	팜스코	하이트진로	한국콜마	현대그린푸드
2007-01-31	1360.229980	15503.599609	NaN	2705.0	48408.101563	6072.729980	45140.398438	49782.800781	NaN	13840.000000	...	56200.0	NaN	86000.0	12084.200195	NaN	NaN	1830.0	NaN	NaN	6540.0
2007-02-28	1417.339966	16013.799805	NaN	2910.0	49326.699219	6272.729980	49495.300781	NaN	NaN	12828.599609	...	55400.0	NaN	86200.0	11273.700195	NaN	NaN	1775.0	NaN	NaN	6340.0
2007-03-30	1452.550049	16092.299805	NaN	3305.0	47122.199219	6227.270020	53180.300781	50474.199219	NaN	13840.000000	...	51800.0	NaN	88200.0	11445.599609	NaN	NaN	2005.0	NaN	NaN	6270.0
2007-04-30	1542.239990	15464.299805	NaN	3095.0	51990.500000	6545.450195	44637.898438	45841.699219	NaN	14620.799805	...	60200.0	NaN	109500.0	12501.799805	NaN	NaN	2000.0	NaN	NaN	9250.0
2007-05-31	1700.910034	19232.300781	NaN	3850.0	60533.101563	7227.270020	49997.800781	54346.199219	NaN	15543.400391	...	78000.0	NaN	126000.0	12919.299805	NaN	NaN	2300.0	NaN	NaN	12350.0

5 rows × 201 columns

In [18]:

# 중간에 수익율이 비어 있으면 보간
df_prm =df_prm.interpolate()
# 전월에 수익률이 없으면 다음월의 수익률로 대체 
df_prm= df_prm.fillna(method='bfill')
# 수익률 계산
df_m_ret = df_prm.pct_change()
# 첫월 수익률 NA이므로 제거
df_m_ret = df_m_ret.dropna()

In [19]:

# 누적수익률 계산
df_m_cumret = (df_m_ret + 1).cumprod() -1

In [20]:

df_m_cumret.head(5)

Out[20]:

	index	건강관리									...	필수소비재
	kospi	JW중외제약	JW홀딩스	광동제약	녹십자	녹십자홀딩스	대웅제약	동아쏘시오홀딩스	동아에스티	보령제약	...	아모레퍼시픽	에이블씨엔씨	오뚜기	오리온	이마트	코스맥스	팜스코	하이트진로	한국콜마	현대그린푸드
2007-02-28	0.041986	0.032908	0.0	0.075786	0.018976	0.032934	0.096475	0.006944	0.0	-0.073078	...	-0.014235	0.0	0.002326	-0.067071	0.0	0.0	-0.030055	0.0	0.0	-0.030581
2007-03-30	0.067871	0.037972	0.0	0.221811	-0.026564	0.025448	0.178109	0.013888	0.0	0.000000	...	-0.078292	0.0	0.025581	-0.052846	0.0	0.0	0.095628	0.0	0.0	-0.041284
2007-04-30	0.133808	-0.002535	0.0	0.144177	0.074004	0.077843	-0.011132	-0.079166	0.0	0.056416	...	0.071174	0.0	0.273256	0.034557	0.0	0.0	0.092896	0.0	0.0	0.414373
2007-05-31	0.250458	0.240506	0.0	0.423290	0.250475	0.190119	0.107607	0.091666	0.0	0.123078	...	0.387900	0.0	0.465116	0.069107	0.0	0.0	0.256831	0.0	0.0	0.888379
2007-06-29	0.281842	0.365009	0.0	0.489834	0.404176	0.354789	0.227273	0.285417	0.0	0.308504	...	0.302491	0.0	0.453488	0.121953	0.0	0.0	0.122951	0.0	0.0	0.605505

5 rows × 201 columns

업종 평균을 계산후 그래프¶

In [21]:

#
#df_m_cumret.plot()
df_m_cumret.groupby(level=[0], axis =1).mean().plot()

Out[21]:

<matplotlib.axes._subplots.AxesSubplot at 0x7fcfaaa4c128>

In [22]:

df_m_cumret.groupby(level=[0], axis =1).mean().tail(5)

Out[22]:

	index	건강관리	금융	산업재	소재	에너지	유틸리티	자유소비재	정보기술	통신서비스	필수소비재
2017-05-31	0.725723	2.846987	0.334286	0.785663	2.434208	2.072675	0.207237	2.485150	1.215918	-0.065931	3.776401
2017-06-30	0.758372	2.702623	0.409283	0.709301	2.467252	1.890364	0.218022	2.319440	1.397933	-0.054106	3.368240
2017-07-31	0.766400	2.566201	0.505821	0.695275	2.581116	2.102938	0.220774	2.294298	1.319207	-0.000284	3.159197
2017-08-31	0.737346	2.551741	0.431197	0.638242	2.648780	2.074962	0.133474	2.201778	1.435864	-0.114425	3.062538
2017-09-29	0.777795	2.482436	0.416049	0.611651	2.672735	1.991307	0.090668	2.116870	1.629204	-0.138203	2.684909

그래프와 표를 통해서 지난 10년동안 업종별로 건강관리, 필수소비재, 자유소비재, 에너지 정보, 소재 등이 높은 수익률을 보임.

섹터별 종목별 수익률 그래프¶

In [23]:

fig, axes = plt.subplots(4,3, figsize = (18,50))

grby2 = df_m_cumret.groupby(level=[0], axis = 1)
for i, (name, group) in enumerate(grby2):
    group.plot(ax = axes[i // 3][i % 3])

상위 15종목 월간 Heatmap¶

In [24]:

df_15 = df_m_cumret.sort_values('2017-09-29 00:00:00', ascending=0, axis = 1)

In [25]:

df_15 = df_15.iloc[:,:15]
df_15.columns = df_15.columns.droplevel()

In [26]:

df_15.columns.values

Out[26]:

array(['한샘', '한국타이어월드와이드', 'SPC삼립', '에이블씨엔씨', 'AK홀딩스', '한솔케미칼', 'CJ',
       'LG화학', '한미사이언스', '오뚜기', '제일파마홀딩스', '아모레G', '엔씨소프트', 'LG생활건강',
       '넥센타이어'], dtype=object)

In [27]:

df_m_15 = df_m_ret
df_m_15.columns = df_m_15.columns.droplevel()

In [28]:

df_m_15 = df_m_15[df_15.columns.values]

In [29]:

#df15 = df15.iloc[:,:15]
#df_m_15.columns = df_m_15.columns.droplevel()
df_m_15.columns.name = 'asset'
df_m_15.index.name = 'date'

In [30]:

import plt_m_heat
plt_m_heat.plot_monthly_ic_heatmap(df_m_15)
plt.show()

년도별 상위 10 종목¶

In [31]:

# 월별 수익률을 복리로 처리하는 것이 맞지만 계산의 편의를 위한 단순합함
df_m_ret.groupby(df_m_ret.index.year).sum()

Out[31]:

	kospi	JW중외제약	JW홀딩스	광동제약	녹십자	녹십자홀딩스	대웅제약	동아쏘시오홀딩스	동아에스티	보령제약	...	아모레퍼시픽	에이블씨엔씨	오뚜기	오리온	이마트	코스맥스	팜스코	하이트진로	한국콜마	현대그린푸드
date
2007	0.352611	0.110864	-0.248017	0.573519	0.602259	0.364772	0.598849	0.422509	0.000000	0.250920	...	0.328724	0.000000	0.569232	0.057332	0.000000	0.000000	0.051357	0.000000	0.000000	0.532617
2008	-0.465137	-0.669974	-0.905024	-0.334121	0.058210	-0.352819	-0.408124	0.053888	0.000000	-0.744674	...	-0.028607	0.070923	0.095940	-0.212040	0.000000	0.000000	-0.215663	0.000000	0.000000	-0.307858
2009	0.437545	0.893817	0.784461	0.176725	0.444883	0.425933	0.012124	0.383336	0.000000	0.805876	...	0.406215	2.412818	0.097506	0.567228	0.000000	0.000000	0.723673	-0.088571	0.000000	0.443642
2010	0.209841	-0.054441	0.412211	0.156843	0.187532	0.317965	0.025854	-0.001189	0.000000	0.452043	...	0.241632	0.686354	-0.113382	0.329003	0.000000	0.000000	0.210615	-0.102332	0.000000	0.362564
2011	-0.096329	0.135295	0.108442	0.128991	0.081572	0.428808	-0.399130	-0.259923	0.000000	-0.257736	...	-0.045220	0.218771	0.218832	0.604265	0.152021	0.000000	0.645478	-0.263168	0.000000	0.399118
2012	0.098361	0.092179	0.034416	0.530930	-0.015730	0.080742	0.656881	0.247652	0.000000	0.480906	...	0.173847	1.307382	0.395251	0.510014	-0.140140	0.000000	0.092327	0.265495	-0.015291	0.066591
2013	0.012083	0.253410	0.154523	0.268752	-0.016487	-0.177421	0.570320	0.734049	-0.339696	0.478674	...	-0.173476	-0.677780	0.790499	-0.111660	0.139098	0.000000	0.949751	-0.290314	0.014109	-0.005679
2014	-0.045805	-0.051265	0.019707	0.377469	0.108357	0.598052	-0.094252	-0.149440	-0.033394	0.297083	...	0.865662	-0.007356	0.243849	0.103179	-0.247515	0.435017	0.485382	0.084766	0.559220	0.156352
2015	0.027490	1.452329	1.865117	0.131147	0.379421	0.847744	0.268646	0.451406	0.567172	0.448240	...	0.676727	0.276116	1.002920	0.220711	-0.045645	0.690265	0.245232	0.013173	0.865597	0.302906
2016	0.034646	0.667228	0.275045	-0.243803	-0.087004	-0.489370	0.081616	0.015437	-0.251747	0.213116	...	-0.232800	0.049627	-0.531977	-0.521620	-0.003523	-0.256902	-0.250692	-0.061262	-0.296037	-0.452852
2017	0.180327	-0.152669	0.002391	-0.008188	0.179346	0.441559	0.439802	-0.235396	-0.251354	-0.437211	...	-0.210657	-0.181259	0.136870	0.707643	0.212085	-0.040110	-0.029725	0.182166	-0.029876	0.050472

11 rows × 201 columns

In [32]:

grby5= df_m_ret.groupby(df_m_ret.index.year)

In [33]:

fig, axes = plt.subplots(4,3, figsize = (18,50))
import matplotlib.cm as cm
for i, (name, group) in enumerate(grby5):
    srz = group.sum()
    srz[srz.rank(pct=True)>0.95].sort_values(ascending =False).plot(kind= 'barh' ,cmap=cm.RdYlGn,  
                                                                    ax = axes[i // 3][i % 3], title  = (" Return {} ".format(name)))