๐Ÿš€ ํŒŒ์ด์ฌ ๋ฐ์ดํ„ฐ ๊ณผํ•™์˜ ๋ณด๋ฌผ์ฐฝ๊ณ : scikit-learn๊ณผ seaborn ๋ฐ์ดํ„ฐ์…‹ ์™„์ „ ์ •๋ณต!

 ์•ˆ๋…•ํ•˜์„ธ์š”, ๋ฐ์ดํ„ฐ ๊ณผํ•™์— ๊ด€์‹ฌ ์žˆ๋Š” ์—ฌ๋Ÿฌ๋ถ„! ์˜ค๋Š˜์€ ํŒŒ์ด์ฌ์˜ ๋‘ ๊ฐ•๋ ฅํ•œ ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ, scikit-learn๊ณผ seaborn์—์„œ ์ œ๊ณตํ•˜๋Š” ํฅ๋ฏธ์ง„์ง„ํ•œ ๋ฐ์ดํ„ฐ์…‹๋“ค์„ ํƒํ—˜ํ•ด๋ณผ ๊ฑฐ์˜ˆ์š”. ์ด ๋ฐ์ดํ„ฐ์…‹๋“ค์€ ๋งˆ์น˜ ๋ณด๋ฌผ ์ƒ์ž ๊ฐ™์•„์„œ, ์—ด์–ด๋ณผ ๋•Œ๋งˆ๋‹ค ์ƒˆ๋กœ์šด ์ธ์‚ฌ์ดํŠธ๋ฅผ ๋ฐœ๊ฒฌํ•  ์ˆ˜ ์žˆ๋‹ต๋‹ˆ๋‹ค. ์ž, ๊ทธ๋Ÿผ ์šฐ๋ฆฌ์˜ ๋ฐ์ดํ„ฐ ๋ชจํ—˜์„ ์‹œ์ž‘ํ•ด๋ณผ๊นŒ์š”? ๐Ÿ—บ️


 ๐ŸŒธ seaborn์˜ ๋งค๋ ฅ์ ์ธ ๋ฐ์ดํ„ฐ์…‹๋“ค


seaborn์€ ํ†ต๊ณ„์  ๋ฐ์ดํ„ฐ ์‹œ๊ฐํ™”๋ฅผ ์œ„ํ•œ ํŒŒ์ด์ฌ ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ๋กœ, ๋‹ค์–‘ํ•œ ์ƒ˜ํ”Œ ๋ฐ์ดํ„ฐ์…‹์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค. ๊ทธ ์ค‘์—์„œ๋„ ๊ฐ€์žฅ ์œ ๋ช…ํ•œ ๊ฒƒ์€ ๋ฐ”๋กœ 'Titanic' ๋ฐ์ดํ„ฐ์…‹์ด์—์š”!


 Titanic ๋ฐ์ดํ„ฐ์…‹: ์—ญ์‚ฌ ์† ๋น„๊ทน์„ ๋ฐ์ดํ„ฐ๋กœ ๋งŒ๋‚˜๋‹ค ๐Ÿšข


Titanic ๋ฐ์ดํ„ฐ์…‹์€ 1912๋…„ ์นจ๋ชฐํ•œ ํƒ€์ดํƒ€๋‹‰ ํ˜ธ์˜ ์Šน๊ฐ ์ •๋ณด๋ฅผ ๋‹ด๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. ์ด ๋ฐ์ดํ„ฐ์…‹์˜ ๋งค๋ ฅ์€ ๋ฌด์—‡์ผ๊นŒ์š”?


1. ๋‹ค์–‘ํ•œ ๋ณ€์ˆ˜: ์Šน๊ฐ ๋“ฑ๊ธ‰, ์„ฑ๋ณ„, ๋‚˜์ด, ๊ฐ€์กฑ ๊ด€๊ณ„ ๋“ฑ ํ’๋ถ€ํ•œ ์ •๋ณด๊ฐ€ ๋‹ด๊ฒจ ์žˆ์–ด์š”.

2. ์‹ค์ œ ์—ญ์‚ฌ์  ์‚ฌ๊ฑด: ์‹ค์ œ ์‚ฌ๊ฑด์„ ๋ฐ”ํƒ•์œผ๋กœ ํ•ด์„œ ๋”์šฑ ํฅ๋ฏธ๋กญ์ฃ !

3. ๋‹ค์–‘ํ•œ ๋ถ„์„ ๊ฐ€๋Šฅ์„ฑ: ์ƒ์กด ์˜ˆ์ธก๋ถ€ํ„ฐ ๋‹ค์–‘ํ•œ ํ†ต๊ณ„ ๋ถ„์„๊นŒ์ง€, ๋ฌด๊ถ๋ฌด์ง„ํ•œ ๋ถ„์„์ด ๊ฐ€๋Šฅํ•ด์š”.


Titanic ๋ฐ์ดํ„ฐ์…‹์œผ๋กœ "๋ˆ„๊ฐ€ ์‚ด์•„๋‚จ์•˜์„๊นŒ?"๋ผ๋Š” ์งˆ๋ฌธ์— ๋‹ตํ•ด๋ณด๋Š” ๊ฑด ์–ด๋–จ๊นŒ์š”? ๐Ÿ•ต️‍♀️


 ๋ฐ์ดํ„ฐ์…‹ ๋ชฉ๋ก ํ™•์ธ

```python

import seaborn as sns

print(sns.get_dataset_names())

```

['anagrams', 'anscombe', 'attention', 'brain_networks', 'car_crashes', 'diamonds', 'dots', 'dowjones', 'exercise', 'flights', 'fmri', 'geyser', 'glue', 'healthexp', 'iris', 'mpg', 'penguins', 'planets', 'seaice', 'taxis', 'tips', 'titanic']


 ๋ฐ์ดํ„ฐ์…‹ ๋กœ๋“œ

```python

df = sns.load_dataset('๋ฐ์ดํ„ฐ์…‹_์ด๋ฆ„')

```


์ฃผ์š” ๋ฐ์ดํ„ฐ์…‹: iris, titanic, tips, flights, diamonds ๋“ฑ


 ๐Ÿค– scikit-learn: ๋จธ์‹ ๋Ÿฌ๋‹์˜ ๋†€์ดํ„ฐ


scikit-learn์€ ๋จธ์‹ ๋Ÿฌ๋‹์„ ์œ„ํ•œ ํŒŒ์ด์ฌ ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ๋กœ, ๋‹ค์–‘ํ•œ ๋ฐ์ดํ„ฐ์…‹์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค. ๊ทธ ์ค‘ ๊ฐ€์žฅ ์œ ๋ช…ํ•˜๊ณ  ์œ ์šฉํ•œ ๊ฒƒ์€ ๋‹จ์—ฐ 'Iris' ๋ฐ์ดํ„ฐ์…‹์ด์—์š”!


 Iris ๋ฐ์ดํ„ฐ์…‹: ๊ฝƒ์œผ๋กœ ๋ฐฐ์šฐ๋Š” ๋จธ์‹ ๋Ÿฌ๋‹์˜ ๊ธฐ์ดˆ ๐ŸŒบ


Iris ๋ฐ์ดํ„ฐ์…‹์€ ์„ธ ์ข…๋ฅ˜์˜ ๋ถ“๊ฝƒ์— ๋Œ€ํ•œ ์ธก์ • ๋ฐ์ดํ„ฐ๋ฅผ ๋‹ด๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. ์™œ ์ด๋ ‡๊ฒŒ ์ธ๊ธฐ๊ฐ€ ๋งŽ์„๊นŒ์š”?


1. ์ดˆ๋ณด์ž ์นœํ™”์ : ์ž‘๊ณ  ๊น”๋”ํ•œ ๋ฐ์ดํ„ฐ์…‹์ด๋ผ ์ž…๋ฌธ์ž๋„ ์‰ฝ๊ฒŒ ๋‹ค๋ฃฐ ์ˆ˜ ์žˆ์–ด์š”.

2. ๋‹ค์–‘ํ•œ ์•Œ๊ณ ๋ฆฌ์ฆ˜ ์ ์šฉ: ๋ถ„๋ฅ˜ ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ์‹คํ—˜ํ•˜๊ธฐ์— ์™„๋ฒฝํ•œ ๋ฐ์ดํ„ฐ์…‹์ด์ฃ .

3. ์‹œ๊ฐํ™”์˜ ๊ฟˆ: 4๊ฐœ์˜ ํŠน์„ฑ๋งŒ์œผ๋กœ ์•„๋ฆ„๋‹ค์šด ์‹œ๊ฐํ™”๋ฅผ ๋งŒ๋“ค ์ˆ˜ ์žˆ์–ด์š”.


Iris ๋ฐ์ดํ„ฐ์…‹์œผ๋กœ ๊ฝƒ์„ ๋ถ„๋ฅ˜ํ•˜๋Š” AI๋ฅผ ๋งŒ๋“ค์–ด๋ณด๋Š” ๊ฑด ์–ด๋–จ๊นŒ์š”? ๐ŸŒท๐ŸŒผ๐ŸŒป


 20 Newsgroups: ํ…์ŠคํŠธ์˜ ๋ฐ”๋‹ค์—์„œ ๋ณด๋ฌผ ์ฐพ๊ธฐ ๐Ÿ“ฐ


ํ…์ŠคํŠธ ๋ถ„๋ฅ˜์— ๊ด€์‹ฌ ์žˆ๋‹ค๋ฉด, 20 Newsgroups ๋ฐ์ดํ„ฐ์…‹์„ ์ฃผ๋ชฉํ•ด์•ผ ํ•ด์š”!


1. ๋‹ค์–‘ํ•œ ์ฃผ์ œ: 20๊ฐœ์˜ ๋‰ด์Šค ์นดํ…Œ๊ณ ๋ฆฌ๋กœ ์‹ค์ œ ํ…์ŠคํŠธ ๋ถ„๋ฅ˜ ๋ฌธ์ œ๋ฅผ ๊ฒฝํ—˜ํ•  ์ˆ˜ ์žˆ์–ด์š”.

2. ์‹ค์ œ ๋ฐ์ดํ„ฐ: ์ง„์งœ ๋‰ด์Šค๊ทธ๋ฃน ๊ฒŒ์‹œ๋ฌผ๋กœ ๊ตฌ์„ฑ๋˜์–ด ํ˜„์‹ค ์„ธ๊ณ„์˜ ํ…์ŠคํŠธ๋ฅผ ๋‹ค๋ฃฐ ์ˆ˜ ์žˆ์ฃ .

3. ์ ๋‹นํ•œ ํฌ๊ธฐ: ์•ฝ 18,000๊ฐœ์˜ ์ƒ˜ํ”Œ๋กœ, ์ถฉ๋ถ„ํžˆ ํฌ์ง€๋งŒ ๋ถ€๋‹ด์Šค๋Ÿฝ์ง€ ์•Š์•„์š”.


20 Newsgroups๋กœ AI ๋‰ด์Šค ์—๋””ํ„ฐ๋ฅผ ๋งŒ๋“ค์–ด๋ณผ๊นŒ์š”? ๐Ÿค”


 ๋ฐ์ดํ„ฐ์…‹ ๋กœ๋“œ

```python

from sklearn.datasets import load_iris

iris = load_iris()

```

์ฃผ์š” ๋ฐ์ดํ„ฐ์…‹: load_boston, load_iris, load_diabetes, load_digits, load_wine ๋“ฑ24


 ๐ŸŽญ ๊ธฐํƒ€ ํฅ๋ฏธ๋กœ์šด ๋ฐ์ดํ„ฐ์…‹๋“ค


1. RCV1: 80๋งŒ ๊ฐœ ์ด์ƒ์˜ ๋‰ด์Šค ๊ธฐ์‚ฌ๋กœ ๊ตฌ์„ฑ๋œ ๋Œ€๊ทœ๋ชจ ๋ฐ์ดํ„ฐ์…‹. ๋น…๋ฐ์ดํ„ฐ ๋ถ„์„์˜ ๊ฟˆ์„ ์ด๋ค„๋ณด์„ธ์š”! ๐Ÿ“Š

2. Labeled Faces in the Wild (LFW): ์–ผ๊ตด ์ธ์‹ AI๋ฅผ ๋งŒ๋“ค๊ณ  ์‹ถ๋‹ค๋ฉด ์ด ๋ฐ์ดํ„ฐ์…‹์œผ๋กœ ์‹œ์ž‘ํ•ด๋ณด์„ธ์š”! ๐Ÿ˜ƒ๐Ÿ˜Ž๐Ÿค“


 Statsmodels

ํ†ต๊ณ„ ๋ชจ๋ธ๋ง๊ณผ ๊ณ„๋Ÿ‰๊ฒฝ์ œํ•™์„ ์œ„ํ•œ Statsmodels ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ๋Š” R์˜ ๋ฐ์ดํ„ฐ์…‹์„ ํฌํ•จํ•ฉ๋‹ˆ๋‹ค.


๋ฐ์ดํ„ฐ์…‹ ๋กœ๋“œ

```python

import statsmodels.api as sm

data = sm.datasets.get_rdataset("Duncan", "car").data

```


 Vega-Datasets

Vega-Datasets ํŒจํ‚ค์ง€๋Š” ๋‹ค์–‘ํ•œ ์˜ˆ์ œ ๋ฐ์ดํ„ฐ์…‹์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.


์„ค์น˜

```text

pip install vega_datasets

```


๋ฐ์ดํ„ฐ์…‹ ๋กœ๋“œ

```python

from vega_datasets import data

df = data.iris()

# ๋ฐ์ดํ„ฐ์…‹ ๋ชฉ๋ก ํ™•์ธ: 

data.list_datasets()

```

['7zip', 'airports', 'annual-precip', 'anscombe', 'barley', 'birdstrikes', 'budget', 'budgets', 'burtin', 'cars', 'climate', 'co2-concentration', 'countries', 'crimea', 'disasters', 'driving', 'earthquakes', 'ffox', 'flare', 'flare-dependencies', 'flights-10k', 'flights-200k', 'flights-20k', 'flights-2k', 'flights-3m', 'flights-5k', 'flights-airport', 'gapminder', 'gapminder-health-income', 'gimp', 'github', 'graticule', 'income', 'iowa-electricity', 'iris', 'jobs', 'la-riots', 'londonBoroughs', 'londonCentroids', 'londonTubeLines', 'lookup_groups', 'lookup_people', 'miserables', 'monarchs', 'movies', 'normal-2d', 'obesity', 'ohlc', 'points', 'population', 'population_engineers_hurricanes', 'seattle-temps', 'seattle-weather', 'sf-temps', 'sp500', 'stocks', 'udistrict', 'unemployment', 'unemployment-across-industries', 'uniform-2d', 'us-10m', 'us-employment', 'us-state-capitals', 'volcano', 'weather', 'weball26', 'wheat', 'windvectors', 'world-110m', 'zipcodes']


 ๐ŸŒŸ ๊ฒฐ๋ก : ๋ฐ์ดํ„ฐ๋กœ ์—ฌ๋Š” ์ƒˆ๋กœ์šด ์„ธ์ƒ


์ด๋ ‡๊ฒŒ ๋‹ค์–‘ํ•˜๊ณ  ํฅ๋ฏธ๋กœ์šด ๋ฐ์ดํ„ฐ์…‹๋“ค์ด ์—ฌ๋Ÿฌ๋ถ„์„ ๊ธฐ๋‹ค๋ฆฌ๊ณ  ์žˆ์–ด์š”. ๊ฐ ๋ฐ์ดํ„ฐ์…‹์€ ๊ทธ ์ž์ฒด๋กœ ํ•˜๋‚˜์˜ ์ด์•ผ๊ธฐ๋ฅผ ๋‹ด๊ณ  ์žˆ๊ณ , ์—ฌ๋Ÿฌ๋ถ„์˜ ๋ถ„์„์„ ํ†ตํ•ด ์ƒˆ๋กœ์šด ์ฑ•ํ„ฐ๊ฐ€ ์‹œ์ž‘๋  ๊ฑฐ์˜ˆ์š”.


ํƒ€์ดํƒ€๋‹‰์˜ ๋น„๊ทน์—์„œ ๊ตํ›ˆ์„ ์–ป๊ณ , ๋ถ“๊ฝƒ์œผ๋กœ ์ž์—ฐ์˜ ํŒจํ„ด์„ ์ดํ•ดํ•˜๊ณ , ๋‰ด์Šค ๊ธฐ์‚ฌ๋กœ ์ •๋ณด์˜ ๋ฐ”๋‹ค๋ฅผ ํ•ญํ•ดํ•ด๋ณด์„ธ์š”. ๋ฐ์ดํ„ฐ ๊ณผํ•™์˜ ์—ฌ์ •์€ ์—ฌ๊ธฐ์„œ ์‹œ์ž‘๋ฉ๋‹ˆ๋‹ค!


์ž, ์ด์ œ ์–ด๋–ค ๋ฐ์ดํ„ฐ์…‹์œผ๋กœ ์—ฌ๋Ÿฌ๋ถ„์˜ ์ฒซ ํ”„๋กœ์ ํŠธ๋ฅผ ์‹œ์ž‘ํ•ด๋ณผ๊นŒ์š”? ๐Ÿ’ป๐Ÿš€




#DataScience #Python #MachineLearning #Seaborn #Scikit-learn #DataAnalysis #AI #Data Visualization #Bigdata #Statistics


0 ๋Œ“๊ธ€