빅데이터는 ‘큰 데이터’이기에 앞서 ‘큰 책임’이다. 그것이 생산한 알고리즘 역시 ‘큰 책임’을 지닌 수학무기다. 캐시 오닐은 “인간이 자칫 방심했다간 그것의 노예나 포로가 되기 십상”이라고 경고했다. 알고리즘은 ‘시행착오’를 반복하며 어렵사리 목적지와 해답을 찾아내는 휴리스틱(heuristic)과는 의도와 궤도부터가 다르다. 그것은 사전에 계획된대로 결과값을 도출하고, 그것에 대해 아예 ‘정답’이라고 확정한다. ‘최단 경로’ 내지 ‘파이널 디시전’임을 결코 의심치 않는 것이다. 그렇기에 차별없고 투명하며 윤리적이며 선(善)한 인풋과 아웃풋은 알고리즘의 크나큰 책임이자 존재 이유다.
그럼에도 세간에는 알고리즘을 두고 말이 많다. 특히 뉴스포털의 공정성을 둔 시비와 왈가왈부가 요란한게 요즘이다. 각자의 정파적 시각이나 시국관에 따라 평가는 다르겠지만, 다음이나 네이버 메인화면의 뉴스배열은 분명 문제가 많다는게 여론이다. 그 내막과 실상은 두고봐야겠지만, 이번에도 역시 알고리즘의 정의로움이 그 핵심이다. 그래서 알고리즘 생태계와 그 생산자들에겐 필히 명심해야 할 서너가지 덕목이 요구된다. 이른바 ‘알고리즘 정의를 위한 알고리즘’이라고나 할까.
먼저 데이터에 관한 ‘운영화’와 데이터의 맥락을 수학문제처럼 모델링하는 것, 그리고 알고리즘, 이 세 가지가 적절하게 조화되어야 한다. 이른바 ‘OMA원칙’이다. ‘운영화’는 계량화가 가능한 데이터에만 그치지 않는다. 사랑, 증오, 사회적 가치, 정의와 부정의, 평등, 민주주의 등등과 같은 정신가치적 기호들도 포함된다. 그 모든 것들의 ‘기의’를 올바르게 식별한 후 정직하게 배열해야 한다. 그런 바탕에서 각각의 맥락을 적절하게 모델링하고, 이를 알고리즘의 작동원리로 삼아야 할 것이다.
이 과정에서 인공신경망의 품질도 중요하다. 시루떡처럼 쌓인 신경세포(뉴런)의 각 층에는 특정 데이터가 전체 결과값에 얼마나 크고 작은 의미를 갖는가, 즉 데이터마다의 가중치가 부여(인풋)된다. 그 합은 다시 0(비활성화)과 1(활성화)사이의 결과로 ‘정규화’되면서 층과 층으로 합해지며 축적된다. 이때 1로 활성화되면 신호를 전달하며 행동으로 이어지고, 일종의 품질이 결정된다. 이 경우 데이터과학적으로 평가해서, 데이터마다 주어진 가중치들의 합에 의한 결과값이 부정적임이 판명되면, 그 행동에 이르는 가중치 자체가 그릇된 것이다. 그렇다면 그런 신경세포연결은 폐기되거나 수정되는게 마땅하다.
‘리스크 메트릭스’가 효율적 도구일 수도 있다. 차별이나 편견, 왜곡 등 알고리즘 오류에 의한 개인의 잠재적 손해를 X축으로 하고, 그 손해가 공공에 미칠 영향을 Y축으로 그 정당성을 판정하는 것이다. 즉 개인적인 손해로 인해 사회적 손해도 크거나, 아니면 그 반대이거나를 판단하게 하는 알고리즘 기반 의사결정시스템이다. 만약 개인의 손해라는 선(線)을 초월(super linear)할 만큼 사회적 손해가 크다면 당장 그 메트릭스는 조정되거나, 아예 폐기하고 OMA구도를 다시 짜야 할 것이다.
이런 과정은 정의로운 데이터과학의 문제로 치환된다. 특히 AI문명의 상징과도 같은 머신러닝에 대한 합리적인 의심과, ‘신뢰할만한 불신(不信)’이 필수적이다. 과거의 데이터에서 패턴을 찾아 새로운 데이터에 대한 결정을 내리는 머신러닝의 기계적 숙명에 대한 불신이다. 우선은 실측자료라고 할 ‘데스트 데이터세트’로 그런 학습방식이 타당한가 따져볼 일이다. 다양한 하이퍼파라미터, 즉 알고리즘 설계 변수나 세팅 값 등을 해부하며 과연 그 품질이 어떠한가. 혹은 알고리즘의 판단이 ‘사회적 상황’과 조화를 이루는가 등등의 검증과 자아비판도 끊이지 않아야 할 것이다.
알고리즘의 문제는 결국 ‘사람’이다. 모든 과정과 단계마다 인간의 의도와 판단이 개입된다. 독일의 사회정보학자 카타리나 츠바이크는 이를 ‘책임성의 긴 사슬’이라고 했다. 그에 따르면 새로운 데이터 배열, 품질이나 공정성을 따지는 척도, 그리고 해석과 피드백 등은 모두 인간의 몫이다. 그렇다면 무엇보다 생태계 개발자들이 ‘선한 의지’를 가져야 한다. 그게 어렵다면 독자나 사용자, 시민들이 개입할 수 있고 개입해야 할 것이다. 이는 알고리즘 윤리에 충실히 복무하기 위한 집단지성의 발현이며, 디지털 시티즌의 의무이기도 하다. 나아가선 알고리즘 민주주의의 길이다.
