์๋ ํ์ธ์, ๋ฐ์ดํฐ ๊ณผํ์ ๊ด์ฌ ์๋ ์ฌ๋ฌ๋ถ! ์ค๋์ ํ์ด์ฌ์ ๋ ๊ฐ๋ ฅํ ๋ผ์ด๋ธ๋ฌ๋ฆฌ, scikit-learn๊ณผ seaborn์์ ์ ๊ณตํ๋ ํฅ๋ฏธ์ง์งํ ๋ฐ์ดํฐ์ ๋ค์ ํํํด๋ณผ ๊ฑฐ์์. ์ด ๋ฐ์ดํฐ์ ๋ค์ ๋ง์น ๋ณด๋ฌผ ์์ ๊ฐ์์, ์ด์ด๋ณผ ๋๋ง๋ค ์๋ก์ด ์ธ์ฌ์ดํธ๋ฅผ ๋ฐ๊ฒฌํ ์ ์๋ต๋๋ค. ์, ๊ทธ๋ผ ์ฐ๋ฆฌ์ ๋ฐ์ดํฐ ๋ชจํ์ ์์ํด๋ณผ๊น์? ๐บ️
๐ธ seaborn์ ๋งค๋ ฅ์ ์ธ ๋ฐ์ดํฐ์ ๋ค
seaborn์ ํต๊ณ์ ๋ฐ์ดํฐ ์๊ฐํ๋ฅผ ์ํ ํ์ด์ฌ ๋ผ์ด๋ธ๋ฌ๋ฆฌ๋ก, ๋ค์ํ ์ํ ๋ฐ์ดํฐ์ ์ ์ ๊ณตํฉ๋๋ค. ๊ทธ ์ค์์๋ ๊ฐ์ฅ ์ ๋ช ํ ๊ฒ์ ๋ฐ๋ก 'Titanic' ๋ฐ์ดํฐ์ ์ด์์!
Titanic ๋ฐ์ดํฐ์ : ์ญ์ฌ ์ ๋น๊ทน์ ๋ฐ์ดํฐ๋ก ๋ง๋๋ค ๐ข
Titanic ๋ฐ์ดํฐ์ ์ 1912๋ ์นจ๋ชฐํ ํ์ดํ๋ ํธ์ ์น๊ฐ ์ ๋ณด๋ฅผ ๋ด๊ณ ์์ต๋๋ค. ์ด ๋ฐ์ดํฐ์ ์ ๋งค๋ ฅ์ ๋ฌด์์ผ๊น์?
1. ๋ค์ํ ๋ณ์: ์น๊ฐ ๋ฑ๊ธ, ์ฑ๋ณ, ๋์ด, ๊ฐ์กฑ ๊ด๊ณ ๋ฑ ํ๋ถํ ์ ๋ณด๊ฐ ๋ด๊ฒจ ์์ด์.
2. ์ค์ ์ญ์ฌ์ ์ฌ๊ฑด: ์ค์ ์ฌ๊ฑด์ ๋ฐํ์ผ๋ก ํด์ ๋์ฑ ํฅ๋ฏธ๋กญ์ฃ !
3. ๋ค์ํ ๋ถ์ ๊ฐ๋ฅ์ฑ: ์์กด ์์ธก๋ถํฐ ๋ค์ํ ํต๊ณ ๋ถ์๊น์ง, ๋ฌด๊ถ๋ฌด์งํ ๋ถ์์ด ๊ฐ๋ฅํด์.
Titanic ๋ฐ์ดํฐ์ ์ผ๋ก "๋๊ฐ ์ด์๋จ์์๊น?"๋ผ๋ ์ง๋ฌธ์ ๋ตํด๋ณด๋ ๊ฑด ์ด๋จ๊น์? ๐ต️♀️
๋ฐ์ดํฐ์ ๋ชฉ๋ก ํ์ธ
```python
import seaborn as sns
print(sns.get_dataset_names())
```
['anagrams', 'anscombe', 'attention', 'brain_networks', 'car_crashes', 'diamonds', 'dots', 'dowjones', 'exercise', 'flights', 'fmri', 'geyser', 'glue', 'healthexp', 'iris', 'mpg', 'penguins', 'planets', 'seaice', 'taxis', 'tips', 'titanic']
๋ฐ์ดํฐ์ ๋ก๋
```python
df = sns.load_dataset('๋ฐ์ดํฐ์
_์ด๋ฆ')
```
์ฃผ์ ๋ฐ์ดํฐ์ : iris, titanic, tips, flights, diamonds ๋ฑ
๐ค scikit-learn: ๋จธ์ ๋ฌ๋์ ๋์ดํฐ
scikit-learn์ ๋จธ์ ๋ฌ๋์ ์ํ ํ์ด์ฌ ๋ผ์ด๋ธ๋ฌ๋ฆฌ๋ก, ๋ค์ํ ๋ฐ์ดํฐ์ ์ ์ ๊ณตํฉ๋๋ค. ๊ทธ ์ค ๊ฐ์ฅ ์ ๋ช ํ๊ณ ์ ์ฉํ ๊ฒ์ ๋จ์ฐ 'Iris' ๋ฐ์ดํฐ์ ์ด์์!
Iris ๋ฐ์ดํฐ์ : ๊ฝ์ผ๋ก ๋ฐฐ์ฐ๋ ๋จธ์ ๋ฌ๋์ ๊ธฐ์ด ๐บ
Iris ๋ฐ์ดํฐ์ ์ ์ธ ์ข ๋ฅ์ ๋ถ๊ฝ์ ๋ํ ์ธก์ ๋ฐ์ดํฐ๋ฅผ ๋ด๊ณ ์์ต๋๋ค. ์ ์ด๋ ๊ฒ ์ธ๊ธฐ๊ฐ ๋ง์๊น์?
1. ์ด๋ณด์ ์นํ์ : ์๊ณ ๊น๋ํ ๋ฐ์ดํฐ์ ์ด๋ผ ์ ๋ฌธ์๋ ์ฝ๊ฒ ๋ค๋ฃฐ ์ ์์ด์.
2. ๋ค์ํ ์๊ณ ๋ฆฌ์ฆ ์ ์ฉ: ๋ถ๋ฅ ์๊ณ ๋ฆฌ์ฆ์ ์คํํ๊ธฐ์ ์๋ฒฝํ ๋ฐ์ดํฐ์ ์ด์ฃ .
3. ์๊ฐํ์ ๊ฟ: 4๊ฐ์ ํน์ฑ๋ง์ผ๋ก ์๋ฆ๋ค์ด ์๊ฐํ๋ฅผ ๋ง๋ค ์ ์์ด์.
Iris ๋ฐ์ดํฐ์ ์ผ๋ก ๊ฝ์ ๋ถ๋ฅํ๋ AI๋ฅผ ๋ง๋ค์ด๋ณด๋ ๊ฑด ์ด๋จ๊น์? ๐ท๐ผ๐ป
20 Newsgroups: ํ ์คํธ์ ๋ฐ๋ค์์ ๋ณด๋ฌผ ์ฐพ๊ธฐ ๐ฐ
ํ ์คํธ ๋ถ๋ฅ์ ๊ด์ฌ ์๋ค๋ฉด, 20 Newsgroups ๋ฐ์ดํฐ์ ์ ์ฃผ๋ชฉํด์ผ ํด์!
1. ๋ค์ํ ์ฃผ์ : 20๊ฐ์ ๋ด์ค ์นดํ ๊ณ ๋ฆฌ๋ก ์ค์ ํ ์คํธ ๋ถ๋ฅ ๋ฌธ์ ๋ฅผ ๊ฒฝํํ ์ ์์ด์.
2. ์ค์ ๋ฐ์ดํฐ: ์ง์ง ๋ด์ค๊ทธ๋ฃน ๊ฒ์๋ฌผ๋ก ๊ตฌ์ฑ๋์ด ํ์ค ์ธ๊ณ์ ํ ์คํธ๋ฅผ ๋ค๋ฃฐ ์ ์์ฃ .
3. ์ ๋นํ ํฌ๊ธฐ: ์ฝ 18,000๊ฐ์ ์ํ๋ก, ์ถฉ๋ถํ ํฌ์ง๋ง ๋ถ๋ด์ค๋ฝ์ง ์์์.
20 Newsgroups๋ก AI ๋ด์ค ์๋ํฐ๋ฅผ ๋ง๋ค์ด๋ณผ๊น์? ๐ค
๋ฐ์ดํฐ์ ๋ก๋
```python
from sklearn.datasets import load_iris
iris = load_iris()
```
์ฃผ์ ๋ฐ์ดํฐ์ : load_boston, load_iris, load_diabetes, load_digits, load_wine ๋ฑ24
๐ญ ๊ธฐํ ํฅ๋ฏธ๋ก์ด ๋ฐ์ดํฐ์ ๋ค
1. RCV1: 80๋ง ๊ฐ ์ด์์ ๋ด์ค ๊ธฐ์ฌ๋ก ๊ตฌ์ฑ๋ ๋๊ท๋ชจ ๋ฐ์ดํฐ์ . ๋น ๋ฐ์ดํฐ ๋ถ์์ ๊ฟ์ ์ด๋ค๋ณด์ธ์! ๐
2. Labeled Faces in the Wild (LFW): ์ผ๊ตด ์ธ์ AI๋ฅผ ๋ง๋ค๊ณ ์ถ๋ค๋ฉด ์ด ๋ฐ์ดํฐ์ ์ผ๋ก ์์ํด๋ณด์ธ์! ๐๐๐ค
Statsmodels
ํต๊ณ ๋ชจ๋ธ๋ง๊ณผ ๊ณ๋๊ฒฝ์ ํ์ ์ํ Statsmodels ๋ผ์ด๋ธ๋ฌ๋ฆฌ๋ R์ ๋ฐ์ดํฐ์ ์ ํฌํจํฉ๋๋ค.
๋ฐ์ดํฐ์ ๋ก๋
```python
import statsmodels.api as sm
data = sm.datasets.get_rdataset("Duncan", "car").data
```
Vega-Datasets
Vega-Datasets ํจํค์ง๋ ๋ค์ํ ์์ ๋ฐ์ดํฐ์ ์ ์ ๊ณตํฉ๋๋ค.
์ค์น
```text
pip install vega_datasets
```
๋ฐ์ดํฐ์ ๋ก๋
```python
from vega_datasets import data
df = data.iris()
# ๋ฐ์ดํฐ์
๋ชฉ๋ก ํ์ธ:
data.list_datasets()
```
['7zip', 'airports', 'annual-precip', 'anscombe', 'barley', 'birdstrikes', 'budget', 'budgets', 'burtin', 'cars', 'climate', 'co2-concentration', 'countries', 'crimea', 'disasters', 'driving', 'earthquakes', 'ffox', 'flare', 'flare-dependencies', 'flights-10k', 'flights-200k', 'flights-20k', 'flights-2k', 'flights-3m', 'flights-5k', 'flights-airport', 'gapminder', 'gapminder-health-income', 'gimp', 'github', 'graticule', 'income', 'iowa-electricity', 'iris', 'jobs', 'la-riots', 'londonBoroughs', 'londonCentroids', 'londonTubeLines', 'lookup_groups', 'lookup_people', 'miserables', 'monarchs', 'movies', 'normal-2d', 'obesity', 'ohlc', 'points', 'population', 'population_engineers_hurricanes', 'seattle-temps', 'seattle-weather', 'sf-temps', 'sp500', 'stocks', 'udistrict', 'unemployment', 'unemployment-across-industries', 'uniform-2d', 'us-10m', 'us-employment', 'us-state-capitals', 'volcano', 'weather', 'weball26', 'wheat', 'windvectors', 'world-110m', 'zipcodes']
๐ ๊ฒฐ๋ก : ๋ฐ์ดํฐ๋ก ์ฌ๋ ์๋ก์ด ์ธ์
์ด๋ ๊ฒ ๋ค์ํ๊ณ ํฅ๋ฏธ๋ก์ด ๋ฐ์ดํฐ์ ๋ค์ด ์ฌ๋ฌ๋ถ์ ๊ธฐ๋ค๋ฆฌ๊ณ ์์ด์. ๊ฐ ๋ฐ์ดํฐ์ ์ ๊ทธ ์์ฒด๋ก ํ๋์ ์ด์ผ๊ธฐ๋ฅผ ๋ด๊ณ ์๊ณ , ์ฌ๋ฌ๋ถ์ ๋ถ์์ ํตํด ์๋ก์ด ์ฑํฐ๊ฐ ์์๋ ๊ฑฐ์์.
ํ์ดํ๋์ ๋น๊ทน์์ ๊ตํ์ ์ป๊ณ , ๋ถ๊ฝ์ผ๋ก ์์ฐ์ ํจํด์ ์ดํดํ๊ณ , ๋ด์ค ๊ธฐ์ฌ๋ก ์ ๋ณด์ ๋ฐ๋ค๋ฅผ ํญํดํด๋ณด์ธ์. ๋ฐ์ดํฐ ๊ณผํ์ ์ฌ์ ์ ์ฌ๊ธฐ์ ์์๋ฉ๋๋ค!
์, ์ด์ ์ด๋ค ๋ฐ์ดํฐ์ ์ผ๋ก ์ฌ๋ฌ๋ถ์ ์ฒซ ํ๋ก์ ํธ๋ฅผ ์์ํด๋ณผ๊น์? ๐ป๐
#DataScience #Python #MachineLearning #Seaborn #Scikit-learn #DataAnalysis #AI #Data Visualization #Bigdata #Statistics
0 ๋๊ธ