728x90

분류 전체보기 153

[프로보노프로젝트/딥러닝] 텍스트 데이터 양 늘리기 (Text Data Augmentation)

데이터 전처리 개발을 어느정도 완료하고 다음 단계인 머신러닝 trian_data 학습과정으로 넘어가려 하니, 보이스피싱과 관련된 데이터 셋 개수가 너무 적었다. 우리가 사용할 수 있는 금융감독원에 공개된 보이스피싱 텍스트 데이터 셋은 168개 정도인데, 멘토님께 여쭤보니 머신러닝을 학습시킬 때 1만개 이하의 데이터는 의미가 없다고 하셨다. 따라서 현재까지는 머신러닝(딥러닝RNN) 엔진 개발 (1) 데이터 전처리 개발 (2)로 나누었던 팀원의 역할을 재분배하였는데, 그 중 나는 보이스피싱 데이터 셋의 양을 늘리는 프로그램 개발을 맡게 되었다. *또한, 기존 모델 RNN에서 우리의 프로젝트 진행 상황에 따라 로지스틱 회귀 모델로 변경하기로 하였다. 모든게 처음이라.. 잘 할 수 있을지 모르겠지만 우선 구글링..

[네트워크] 네트워크 계층 구조 - OSI 7계층, TCP/IP

*양대일_네트워크 해킹과 보안 책 참고 *공부 백업하는 이유 : 분명 난 여러번 봐야 이해할 것이기 때문에 내 언어로 정리한 글 보고 쉽게 이해하려고 책 참고 + 그림 정보는 구글링 + 공부하다가 모르는 내용도 구글링으로 덧붙임 1. 네트워크 계층화가 필요한 이유 : 어떤 웹사이트에서 파일을 다운받는다고 하자 그렇게 하기 위해서는 해당 웹사이트 네트워크 주소를 확인하고 몇 개의 라우터와 네트워크를 지나 웹사이트에 원하는 페이지를 요청한다. 웹 서버는 이 일을 여러번 반복할 것이다. 이것을 한번에 한다고 생각해보면, 중간에 있는 많은 네트워크 장비들을 한 번에 통제할 수 있는 프로토콜을 만들어서 데이터 전송을 성공시킬 수 있을까? 거의 불가능하다. 이해할 수 있는 쉬운 단위로 쪼개야 한다. ->네트워크계층..

[네트워크] 프로토콜의 기능

참고: 네트워크 해킹과 보안 pp.41-45 프로토콜 : 컴퓨터들은 상호간에 통신을 하기 위해서 미리 정해놓은 규칙이 있다. 서로 무작위로 통신하기 된다면 데이터를 서로 전달하면서 손실이 발생하거나 제대로 전달받더라도 읽어들이지 못하는 등 여러 문제가 생길 수 있다. 컴퓨터 상호간의 데이터를 원활하게 주고 받을 수 있도록 정해놓은 규칙을 통신규약이라고 한다. 통신규약에는 접속방식이나 데이터의 전달방식 및 자료의 형식과 전송속도 등을 포함한다. 예를들어, 한국 대통령과 아랍 대통령이 대화를 하는데 통역원이 영어와 모국어만 사용할 수 있다고 하자. 한국과 아랍 대통령이 통역원에게 모국어로 이야기 하면, 통역원끼리 영어로 이야기 할 것이다. 이때, 한국 대통령과 아랍 대통령이 이야기를 나누는 과정에서 영어가 ..

[프로보노프로젝트/딥러닝] 자연어 처리(NLP) 토큰화(Tokenization)

*개인적으로 공부한 내용을 백업한 것으로 설명이 불친절합니다. 위키독스(https://wikidocs.net/21698) 를 보고 공부한 내용입니다. 프로보노 프로젝트에서 머신러닝 엔진을 정한 후 전처리 개발을 맡아 개발하던 중 전처리를 해야 하는 이유와 자연어를 토큰화하고 인덱싱해야하는 근본적인 이유에 대해 의문점이 생겨 개인적으로 공부하게 되었다. 또한 우리가 사용하고자 하는 데이터 셋은 한국어로 된 자연어이기 때문에 기존 영어 파이썬 자연어 처리(Natural Language Processing, NLP) 라이브러리를 사용했을 때 제대로 처리가 되지 않았다. 그 이유도 함께 알아보고자 하였다. 토큰화를 한다는게 뭐지? 토큰화란? 자연어 처리에서 크롤링 등으로 얻어낸 코퍼스 데이터가 필요에 맞게 전처..

[프로보노프로젝트/딥러닝] RNN과 LSTM

7월 2주차 프로보노 프로젝트 회의에서 머신러닝 모델(알고리즘)을 드디어 확정했다. STT의 결과물인 Text 데이터의 맥락을 파악한 후 보이스피싱인지 아닌지 판별해야하기 때문에, 순차적인 데이터 처리가 필요하다고 생각했고, RNN 모델이 적합하다고 판단하여 RNN으로 확정하게 되었다. 이 글은 RNN와 그 발전 모델인 LSTM 에 대한 공부가 필요하다고 생각해 작성한 글이며 개인적인 공부 백업용이다. 전통적인 신경망은 앞뒤 맥락을 파악하지 못한다는 한계점이 있다. 예를 들어, 영화의 매 순간 일어나는 사건을 분류하고 싶다고 해보자. 전통적인 neural network는 이전에 일어난 사건을 바탕으로 나중에 일어나는 사건을 생각하지 못한다. 1. RNN RNN (Recurrent neural networ..

[프로보노프로젝트/딥러닝] 딥러닝 기초

*개인적으로 공부하고 메모 형식으로 작성한 글이라 내용이 불친절합니다. 책) 딥러닝 첫걸음_김성필 인공지능>머신러닝>딥러닝 같은 데이터를 사용하면 다른 데이터를 넣었을 때 잘 인식하지 못할 가능성이 있다. 따라서 학습데이터와 입력데이터는 달라야 한다. 머신러닝 기법을 사용할 떄는 실제 데이터의 특성이 잘 반영되어있고 편향되지않은 학습데이터를 확보하는 것이 중요하다. 학습데이터와 입력데이터가 달라져도 성능차이가 나지 않게 하는 것을 일반화라고 하며 가장 중요하다 (이게 목적임) 과적합? 그래프를 보고 이해하는게 편한데, 들쭉날쭉하지만 대체로 일방적인 분포를 보이는 그래프가 있음 여기서 개체로 직선인 곡선을 그리면 100% 정확하진 않지만 어느정도 분포에 따름, 그러나 만약 들쭉날쭉 한 그래프 그대로 그리게..

[웹] 민감데이터 노출 (Sensitive Data Exposure) 유형 및 대응방안

민감 데이터 노출 OWASP 순위 상승 민감한 데이터 노출은 OWASP Top 10 2013 버전에서는 6위에 있었지만 2017 버전에서 3위로 그 중요도가 올라갔다. 그만큼 웹 상에서 다뤄지는 민감한 데이터가 많아졌다는 의미인 것 같다. 민감 데이터의 유형 -결제정보: 은행 계좌 번호, 신용카드 번호, 보안카드 번호 등 -건강정보: 진료 기록 -개인정보: 주민등록번호, 생년월일, 주소, 휴대폰번호, 이메일 주소 등 민감데이터노출 (Sensitive Data Exposure) 유형 및 대응방안 1.1 취약한 암호화 민감 정보를 암호화해서 보관하면 안전하다고 생각할 수 있지만, 암호화 및 복호화 방식이 취약하다면 위험성은 여전히 존재한다. 패스워드의 경우, 평문을 열람해야 할 이유가 없기 때문에 주로 SH..

728x90